ADsP 3과목 데이터 분석 : R기초, 데이터 마트 , 결측값, 이상값

자격증/ADsP

ADsP 3과목 데이터 분석 : R기초, 데이터 마트 , 결측값, 이상값

doonga 2024. 4. 30. 23:25

R 기초

데이터 전처리

: 정형화되어 있는 데이터를 분석하기 위해 데이터를 가공하고 수집하는 작업
1) 요약 변수 : 데이터 재활용성 높음, 수집된 정보를 분석에 맞게 종합한 변수
2) 파생 변수 : 논리적 타당성이 필요하며 특정 함수에 맞게 의미를 부여하는 변수

데이터 전처리 패키지

1) reshape : 대표적으로 melt, cast가 있으며 데이터를 재구조화함 (*melt : 녹이다, case : 주조하다)
2) sqldf : SQL을 활용하여 데이터프레임을 다룰 수 있도록 해줌
3) plyt : apply 함수 기반으로 데이터 처리함
4) data.table(데이터테이블) : 빠른 처리가 가능한 데이터 구조(칼럼별 인덱스 有)

데이터 마트

데이터 마트(DM)

-. 데이터 웨어 하우스의 한 분야, 소규모 데이터웨어하우스라고 보면 됨, 특정 목적을 위해 사용
-. Data가 DW, DM에 들어갈 때 ETL을 사용함
* DW : Data ware house, DM : Data mart

결측값과 이상값 검색

★EDA (Exploratory Data Analysis, 탐색적 자료 분석)

-. 데이터를 탐색을 해야 함
-. 데이터 의미를 찾기 위해 통계(평균, 최대, 최소 等), 시각화를 통해 파악
-. EDA의 4가지 주제 : 저항성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성
→ 저. 잔. 재. 현으로 외우자

결측값

DATA를 수집했는데 데이터가 존재하지 않음
일부러 수집 안 했을 수도 있음, null/NA로 표시
의미 있는 데이터 일수도 있음 → 함부로 삭제하면 안 됨
존재하지 않는 데이터를 가지고 분석을 하면 좋은 성능이 안 나옴 → 대치를 해야

1) 단순 대치법
-. 결측값을 가지고 있는 데이를 그냥 삭제함
-. "complete.cases" 함수로 FALSE 데이터에 결측값 제거
-. complete가 완벽하다 → FALSE면 완벽하지 않은 값 → 완벽하지 않은 값은 삭제
-. complete.cases가 True일 때 삭제 하면 안 됨

2) 평균 대치법
-. 평균으로 대치

3) 단순 확률 대치법
-. 가까운 값으로 변경(KNN을 활용)
-. KNN이 가까운 값을 찾는 거구나 정도만 기억

4) 다중 대치법
-. 여러 번 대치함, 순서 : (대치 → 분석 → 결합)로 반

이상값

이상한 데이터
극단적으로 크거나 작은 값이지만 의미 있는 데이터일 수도 있음
이상값을 항상 제거하면 안 됨 → 제거할지 말지 판단을 해야 함
제거할지 말지 판단 : 1) ESD 2) 사분위수

1) ESD(Extreme Studentized Deviation)
-. 우리가 다루는 데이터는 대부분 정규분포를 그린다고 판단
-. 평균에서부터 표준편차의 3배 넘어가는 데이터 → 이상값으로 판단

2) 사분위수
-. 사분위수 상자그림을 이용
-. Q1이 25%, Q3가 75% 영역
-. Q1 - 1.5lQR 보다 작거나, Q3 + 1.5lQR 보다 크면 이상값으로 판단