본문 바로가기

학습자료

[패스트캠퍼스] 데이터분석 강의 _ 5주차

EDA 의 설명과 방법론 

 

EDA(Exploratory Data Analysis)는 데이터를 더 깊이 이해하기 위해 데이터 세트의 주요 특성을 분석하고 요약하는 접근 방식입니다. EDA의 주요 목적은 데이터의 패턴, 관계 및 이상값을 식별하고 추가 조사를 위한 가설을 생성하는 것입니다.

EDA에는 다음과 같은 몇 가지 방법과 기술이 있습니다.

  1. Univariate analysis : 분포, 왜도, 특이치 등을 이해하기 위해 데이터 세트의 각 변수를 독립적으로 분석합니다.
  2. Bivariate analysis : 산점도, 상관 관계 및 회귀 분석을 포함하여 데이터 세트의 두 변수 간의 관계를 분석합니다.
  3. 결측값 처리: 데이터 세트에서 누락된 값의 식별 및 귀속.
  4. 이상치 처리: Z 점수, 사분위수 범위(IQR) 및 Mahalanobis 거리와 같은 기술을 사용하여 데이터 세트에서 이상값을 식별합니다.
  5. 데이터 시각화: 데이터 내의 분포 및 관계를 시각화하기 위해 히스토그램, 박스 플롯, 산점도 등과 같은 그래프 및 플롯을 사용합니다.
  6. 데이터 변환: 왜곡된 데이터를 처리하기 위한 대수 변환과 같이 변수를 보다 쉽게 ​​분석할 수 있도록 변환합니다.

전반적으로 EDA는 데이터 분석 프로세스의 중요한 단계이며 분석의 다음 단계를 알릴 수 있는 데이터에 대한 귀중한 통찰력을 제공합니다. 후속 분석 결과에 영향을 줄 수 있는 누락된 값, 이상값, 왜도와 같은 데이터의 잠재적인 문제를 식별하는 데 도움이 됩니다.