자격증/ADsP

ADsP 3과목 데이터 분석 : R기초, 데이터 마트 , 결측값, 이상값

doonga 2024. 4. 30. 23:25
반응형

R 기초

  •  데이터 전처리

 : 정형화되어 있는 데이터를 분석하기 위해 데이터를 가공하고 수집하는 작업
1) 요약 변수 : 데이터 재활용성 높음,  수집된 정보를 분석에 맞게 종합한 변수
2) 파생 변수 : 논리적 타당성이 필요하며 특정 함수에 맞게 의미를 부여하는 변수
 

  • 데이터 전처리 패키지

 1) reshape : 대표적으로 melt, cast가 있으며 데이터를 재구조화함 (*melt : 녹이다, case : 주조하다)
 2) sqldf : SQL을 활용하여 데이터프레임을 다룰 수 있도록 해줌
 3) plyt : apply 함수 기반으로 데이터 처리함
 4) data.table(데이터테이블) : 빠른 처리가 가능한 데이터 구조(칼럼별 인덱스 有)
 
 

데이터 마트

  • 데이터 마트(DM)

 -. 데이터 웨어 하우스의 한 분야, 소규모 데이터웨어하우스라고 보면 됨, 특정 목적을 위해 사용
 -. Data가 DW, DM에 들어갈 때 ETL을 사용함
 * DW : Data ware house, DM : Data mart
 
 

결측값과 이상값 검색

  • ★EDA (Exploratory Data Analysis, 탐색적 자료 분석)

 -. 데이터를 탐색을 해야 함
 -. 데이터 의미를 찾기 위해 통계(평균, 최대, 최소 等), 시각화를 통해 파악
 -. EDA의 4가지 주제 : 항성의 강조, 차 계산, 료변수의 재표현, 래프를 통한 현시성
→ 저. 잔. 재. 현으로 외우자
 
 

결측값

  • DATA를 수집했는데 데이터가 존재하지 않음
  • 일부러 수집 안 했을 수도 있음, null/NA로 표시
  • 의미 있는 데이터 일수도 있음 → 함부로 삭제하면 안 됨
  • 존재하지 않는 데이터를 가지고 분석을 하면 좋은 성능이 안 나옴 → 대치를 해야

 1) 단순 대치법
 -. 결측값을 가지고 있는 데이를 그냥 삭제함
 -. "complete.cases" 함수로 FALSE 데이터에 결측값 제거
 -. complete가 완벽하다 → FALSE면 완벽하지 않은 값 → 완벽하지 않은 값은 삭제
 -. complete.cases가 True일 때 삭제 하면 안 됨
 
 2) 평균 대치법
 -. 평균으로 대치
 
 3) 단순 확률 대치법
 -. 가까운 값으로 변경(KNN을 활용)
 -. KNN이 가까운 값을 찾는 거구나 정도만 기억
 
 4) 다중 대치법
 -. 여러 번 대치함, 순서 : (대치 → 분석 → 결합)로 반
 
 

이상값

  • 이상한 데이터
  • 극단적으로 크거나 작은 값이지만 의미 있는 데이터일 수도 있음
  • 이상값을 항상 제거하면 안 됨 → 제거할지 말지 판단을 해야 함
  • 제거할지 말지 판단 : 1) ESD   2) 사분위수

 1) ESD(Extreme Studentized Deviation)
 -. 우리가 다루는 데이터는 대부분 정규분포를 그린다고 판단
 -. 평균에서부터 표준편차의 3배 넘어가는 데이터 → 이상값으로 판단

 
 2) 사분위수
 -. 사분위수 상자그림을 이용
 -. Q1이 25%, Q3가 75% 영역
 -. Q1 - 1.5lQR 보다 작거나, Q3 + 1.5lQR 보다 크면 이상값으로 판단

 

반응형