728x90
반응형
SMALL

IT 이론지식 170

이산확률분포, 연속확률분포

확률 분포는 특정 사건 또는 변수가 발생하는 가능성을 설명하는 수학적 모델입니다. 이산확률분포와 연속확률분포는 확률 변수가 취할 수 있는 값의 유형에 따라 구분됩니다. 1. 이산확률분포 (Discrete Probability Distribution): 이산확률분포는 확률 변수가 이산적인 값만을 가질 때 사용됩니다. 이산적인 값은 유한하거나 셀 수 있는 값을 가지며, 일반적으로 정수 형태를 가집니다. 이산확률분포의 특징은 다음과 같습니다: (1) 베르누이 분포 (Bernoulli Distribution): 베르누이 분포는 이항 시행의 결과를 모델링하는 데 사용됩니다. 확률 변수가 두 가지 값 중 하나를 가지는 경우에 적용됩니다 (예: 동전 던지기의 앞면 또는 뒷면). (2) 이항 분포 (Binomial D..

IT 이론지식 2024.04.01

왜도(Skewness), 첨도(Kurtosis)

왜도(Skewness)와 첨도(Kurtosis)는 통계학에서 사용되는 중요한 개념으로, 데이터의 분포를 설명하는 데 사용됩니다. 주로 분포의 대칭성과 뾰족한 정도를 측정하는 데 사용됩니다. 왜도 (Skewness): 왜도는 데이터 분포의 비대칭성을 측정하는 지표입니다. 왜도는 분포가 왼쪽으로 치우쳤는지(음수), 오른쪽으로 치우쳤는지(양수), 또는 대칭인지(0)를 나타냅니다. 왜도가 0에 가까울수록 분포는 대칭에 가깝습니다. 음수일 때는 왼쪽으로, 양수일 때는 오른쪽으로 비대칭성이 발생합니다. 왜도가 0보다 크면 오른쪽으로 긴 꼬리를 갖는 분포이고, 0보다 작으면 왼쪽으로 긴 꼬리를 갖습니다. 첨도 (Kurtosis): 첨도는 데이터 분포의 뾰족한 정도를 측정하는 지표입니다. 첨도는 분포가 정규분포와 비교..

IT 이론지식 2024.04.01

탐색적 데이터 분석(Exploratory Data Analysis, EDA)

탐색적 데이터 분석(Exploratory Data Analysis, EDA)는 데이터를 탐색하고 이해하기 위해 수행되는 분석 과정을 말합니다. EDA는 데이터 과학 및 통계 분석에서 매우 중요한 단계로, 데이터의 특성을 파악하고 패턴을 발견하는 데 사용됩니다. EDA를 통해 데이터의 구조, 분포, 상관 관계 등을 탐색함으로써 데이터의 특성을 파악하고 의미 있는 인사이트를 도출할 수 있습니다. 탐색적 데이터 분석의 주요 목적은 다음과 같습니다. 데이터 이해: 데이터가 어떤 형태로 구성되어 있는지를 파악하고, 데이터의 특성을 이해하는 것이 주요 목표입니다. 이를 통해 데이터의 구조와 특징을 파악할 수 있습니다. 패턴 발견: 데이터에서 나타나는 패턴이나 관계를 발견하는 것이 중요합니다. 이를 통해 데이터 내부..

IT 이론지식 2024.04.01

결측치, 이상치

결측치와 이상치는 데이터 분석 및 모델링에서 주로 다루는 문제로, 데이터의 품질과 정확성에 영향을 미칩니다. 결측치 (Missing Values): 결측치는 데이터에서 값이 누락되어 있는 경우를 의미합니다. 이는 데이터 수집 과정에서 발생할 수 있으며, 여러 이유로 인해 발생할 수 있습니다. 예를 들어, 실험 과정에서 장비 오류로 인한 누락, 설문 조사에서 회신하지 않은 항목 등이 있습니다. 결측치는 데이터 분석과 모델링에서 문제를 일으킬 수 있으며, 주로 다음과 같은 방법으로 처리됩니다: 결측치 삭제: 결측치를 포함하는 행 또는 열을 삭제하는 방법입니다. 이는 결측치가 일부인 경우나 다른 변수와 관련이 없는 경우에 적용됩니다. 대체값 채우기: 결측치를 다른 값으로 대체하는 방법입니다. 평균, 중앙값, ..

IT 이론지식 2024.04.01

귀무가설, 대립가설

귀무가설과 대립가설은 통계학에서 중요한 개념으로, 가설 검정에 사용됩니다. 가설 검정은 어떤 가설이 사실인지를 결정하기 위해 수행되며, 이 과정에서 귀무가설과 대립가설이 사용됩니다. 귀무가설 (Null Hypothesis): 귀무가설은 일반적으로 연구자나 분석가가 주장하려는 가설이 아닌, 반대의 입장을 나타내는 가설입니다. 귀무가설은 일종의 "디폴트" 가설로, 특정한 효과나 관계가 존재하지 않는다고 가정합니다. 통계적 검증을 통해 이 귀무가설이 기각되면, 대립가설을 받아들이게 됩니다. 예를 들어, 두 집단 간의 평균이 같다는 가설은 귀무가설로 설정될 수 있습니다. 대립가설 (Alternative Hypothesis): 대립가설은 연구자나 분석가가 주장하려는 가설을 나타냅니다. 즉, 특정한 효과나 관계가 ..

IT 이론지식 2024.04.01

데이터 웨어하우스, 데이터 마트, 데이터 레이크, 데이터 패브릭

데이터 웨어하우스, 데이터 마트, 데이터 레이크, 데이터 패브릭은 모두 기업이 데이터를 수집, 저장, 관리, 분석하는 데 사용되는 다양한 데이터 아키텍처 및 관련 기술입니다. 이러한 개념들은 데이터 관리와 분석의 다양한 요구 사항에 대응하기 위해 발전되었으며, 각각의 특징과 용도에 따라 다르게 사용됩니다. 데이터 웨어하우스 (Data Warehouse): 데이터 웨어하우스는 기업의 모든 데이터를 통합하고 중앙 집중화하여 저장하는 중앙 집중식 데이터 저장소입니다. 이는 주로 정형 데이터를 기반으로 하며, 비즈니스 인텔리전스나 의사 결정 지원 시스템에 사용됩니다. 데이터 웨어하우스는 데이터를 주제별로 조직화하고, 데이터의 일관성과 정합성을 유지하여 의사 결정에 활용될 수 있는 정확하고 신뢰할 수 있는 정보를..

IT 이론지식 2024.04.01

정형, 비정형, 반정형

정형, 비정형, 반정형은 데이터의 형태와 구조에 따라 분류되는 세 가지 주요 유형입니다. 이러한 분류는 데이터의 특성과 처리 방법에 대한 이해를 돕고, 데이터 관리 및 분석 전략을 구축하는 데 중요한 역할을 합니다. 정형 데이터 (Structured Data): 정형 데이터는 고정된 구조를 가지며, 행과 열로 이루어진 표 형태로 표현됩니다. 관계형 데이터베이스 시스템에서 사용되며, 각 열은 특정한 데이터 유형을 가지고 있으며, 각 행은 개별 레코드를 나타냅니다. 예시로는 관계형 데이터베이스의 테이블, 스프레드시트의 시트, CSV 파일 등이 있습니다. 정형 데이터는 쉽게 쿼리하고 분석할 수 있으며, SQL과 같은 질의 언어를 사용하여 데이터에 접근할 수 있습니다. 비정형 데이터 (Unstructured D..

IT 이론지식 2024.04.01

CRISP-DM(Cross-Industry Standard Process for Data Mining)

CRISP-DM은 Cross-Industry Standard Process for Data Mining의 약어로, 데이터 마이닝을 위한 표준 프로세스 모델입니다. 이는 데이터 마이닝 프로젝트를 수행하는 데 사용되는 방법론으로, 산업 간에 널리 사용되고 있는 표준 프로세스입니다. CRISP-DM은 데이터 마이닝 프로젝트를 단계별로 구성하여 프로젝트 관리와 전략 수립을 지원하며, 효율적인 프로젝트 진행과 결과물의 품질 향상을 목표로 합니다. CRISP-DM은 일반적으로 다음과 같은 단계로 구성됩니다. 비즈니스 이해 (Business Understanding): 프로젝트의 목적과 비즈니스 요구 사항을 이해하는 단계입니다. 이는 비즈니스 목표를 설정하고, 문제 도메인에 대한 이해를 도출하며, 프로젝트의 범위와 ..

IT 이론지식 2024.04.01

KDD(Knowledge Discovery in Databases)

KDD는 "Knowledge Discovery in Databases"의 약어로, 데이터베이스에서 지식 발견을 의미합니다. 이는 대규모 데이터셋에서 유용한 정보나 패턴을 발견하고 추출하는 프로세스를 가리킵니다. KDD는 데이터 마이닝, 기계 학습, 통계 분석, 패턴 인식 등의 다양한 기술과 방법을 활용하여 데이터로부터 유용한 지식을 추출합니다. 이를 통해 기업이나 조직은 데이터를 활용하여 의사 결정을 내릴 수 있고, 새로운 인사이트를 얻을 수 있습니다. KDD 프로세스는 일반적으로 다음과 같은 단계로 구성됩니다. 이해 (Understanding): 데이터 마이닝 프로세스의 첫 번째 단계로, 문제 도메인에 대한 이해와 데이터에 대한 이해가 이루어집니다. 이는 문제의 목표를 설정하고 데이터의 특성을 이해하는..

IT 이론지식 2024.04.01

ESG(환경, 사회, 지배구조)

ESG(환경, 사회, 지배구조)는 기업이 사회적 책임을 다하고 지속 가능한 경영을 추구하기 위한 지침과 원칙을 나타냅니다. 이는 기업이 환경적, 사회적, 지배구조적 측면에서 지속 가능성을 고려하여 경영 활동을 수행하고 이해관계자와의 상호 작용을 관리하는 방법을 포함합니다. 환경 (Environmental) 환경 측면은 기업이 자원 사용, 환경 오염, 기후 변화 및 생물 다양성과 같은 환경적 요소에 대한 영향을 평가하고 관리하는 것을 의미합니다. 주요 주제는 다음과 같습니다. 기후 변화: 기업이 온실가스 배출량을 줄이고 친환경 에너지 전환을 촉진하여 기후 변화에 대응합니다. 자원 사용과 관리: 자원 소비를 최소화하고 재생 가능 에너지 및 재활용을 촉진하여 자원의 지속 가능한 이용을 추구합니다. 환경 오염 ..

IT 이론지식 2024.03.31
728x90
반응형
LIST