EDA 의 설명과 방법론
EDA(Exploratory Data Analysis)는 데이터를 더 깊이 이해하기 위해 데이터 세트의 주요 특성을 분석하고 요약하는 접근 방식입니다. EDA의 주요 목적은 데이터의 패턴, 관계 및 이상값을 식별하고 추가 조사를 위한 가설을 생성하는 것입니다.
EDA에는 다음과 같은 몇 가지 방법과 기술이 있습니다.
- Univariate analysis : 분포, 왜도, 특이치 등을 이해하기 위해 데이터 세트의 각 변수를 독립적으로 분석합니다.
- Bivariate analysis : 산점도, 상관 관계 및 회귀 분석을 포함하여 데이터 세트의 두 변수 간의 관계를 분석합니다.
- 결측값 처리: 데이터 세트에서 누락된 값의 식별 및 귀속.
- 이상치 처리: Z 점수, 사분위수 범위(IQR) 및 Mahalanobis 거리와 같은 기술을 사용하여 데이터 세트에서 이상값을 식별합니다.
- 데이터 시각화: 데이터 내의 분포 및 관계를 시각화하기 위해 히스토그램, 박스 플롯, 산점도 등과 같은 그래프 및 플롯을 사용합니다.
- 데이터 변환: 왜곡된 데이터를 처리하기 위한 대수 변환과 같이 변수를 보다 쉽게 분석할 수 있도록 변환합니다.
전반적으로 EDA는 데이터 분석 프로세스의 중요한 단계이며 분석의 다음 단계를 알릴 수 있는 데이터에 대한 귀중한 통찰력을 제공합니다. 후속 분석 결과에 영향을 줄 수 있는 누락된 값, 이상값, 왜도와 같은 데이터의 잠재적인 문제를 식별하는 데 도움이 됩니다.
'학습자료' 카테고리의 다른 글
| [패스트캠퍼스] 데이터분석 강의 _ 4주차 (0) | 2023.01.31 |
|---|---|
| [패스트캠퍼스] 데이터분석 강의 _ 3주차 (1) | 2023.01.31 |
| [패스트캠퍼스]데이터분석 강의_ 2주차 (0) | 2023.01.30 |
| [패스트캠퍼스] 데이터분석 강의 1주차. (0) | 2023.01.30 |