ADsP 3과목 : 시계열 모형, 분해시계열, 과대적합, 과소적합, 의사결정트리

시계열 모형

상관함수를 사용해서 p+1 시점 이후부터 상관관계가 급격히 감소하면 그 이전값만 활용
ex) 만약 2일 차까지는 상관성이 높고 3일 차부터는 낮은 경우

1) 자기 회귀(AR) 모형

: 부분 자기 상관함수(PACF)를 활용하면 AR(p) 모델

2) 이동평균(MA) 모형

: 자기 상관함수(ACF)를 활용하면 MA(q) 모델

3) 자기 회귀 누적이동 평균(ARIMA) 모형

: 자기 회귀모델과 이동평균 모델의 결함

: ARIMA(p, d, q)

: p는 AR에서 가져옴, q는 MA에서 가져, d는 차분을 몇 회 했는지

: ex) ARIMA( 3, 2, 5) 일 때 차분은 2

: d = 0이면 ARMA 모델이고 ARMA(3, 5)라고 표현

p = 0이면 IMA(d, p)라고 표현

q = 0이면 ARI(p, d)로 표

분해시계열★

데이터에 영향주는 요인을 시계열로 분리 분석하는 방법

1) 추세 요인 : 장기적으로 추세가 증가, 감소

2) 계절 요인 : 계절처럼 어떤 주기에 따라 변화함

3) 순환요인 : 알려지지 않는 요인으로 주기를 갖고 변함

4) 불규칙 요인 : 위 3가지로 설명 불가능

▶ 추계순불 (추운 계절은 순환이불규칙)

데이터 마이닝

: 수많은 데이터들 사이에서 일정한 규칙, 패턴을 찾아 미래를 예측하는 분야

데이터 마이닝 유형

1) 지도학습 : 정답이 정해져 있고 이를 반복학습을 통해 답에 근접하도록 함

: 회귀분석, 의사결정트리, 인공신경망, 로지스틱회귀 等

2) 비지도학습 : 정답이 없고 데이터들 사이의 규칙을 파악하기 위함

: 차원축소, 연관분석 군집분석, SOM 等

과대적합과 과소적합

1) 과대적합 : 지나치게 복잡해진 모델 - 지나친 데이터 학습이 원인

2) 과소적합 : 지나치게 단순한 모델 - 데이터를 충분히 설명하지 못

데이터 분할

과대적합, 과소적합을 방지하기 위해 사용, 데이터 불균형 문제 해결

-. 분할된 Data Set 종류

1) 훈련용(50%) : Training Set, 모델을 학습하는 데 사용

2) 검증용(30%) : Validation Set, 모델의 과대, 과소 적합을 조정하는 데 사용

3) 평가용(20%) : 모델을 평가하는 데 사용

-. 분할된 Data의 학습 및 검증 방법

1) 홀드아웃 : 훈련용 / 평가용 2개의 셋으로 분할

2) K-fold 교차검증 : 데이터를 k개의 집단으로 구분하여 k-1개는 학습, 1개로 평가

3) LOOCV : 1개의 데이터로만 평가하고 나머지로 학습

4) 부트스트래핑 : 복원추출을 활용하여 데이터 셋을 생성함, 데이터 부족이나 불균형을 해소

※ 회귀형 데이터 : 수치형 - 돈, 나이, 키

분류형 데이터 : 범주형 - 앞/뒤, 개/고양이

분류분석

셀 수 있는 수치가 아닌 범주로 구분 가능
개/고양이, 동물/식물, 앞/뒤 等

로지스틱 회귀분석

성공과 실패 2개의 집단으로 분류
회귀분석이지만 분류에 사용

1) Odds(오즈)

: Odds = 성공확률(p) / 실패확률(1-p)
: 성공확률과 실패 확률의 비

2) Logit(로짓) 변환

: Odds에 자연로그를 취하는 작업(ln, e^ , e는 2.7 정도 됨)

: 독립변수 X가 n 증가하면 확률이 e^n 만큼 증가함

: y = e^(ax1+bx2+cx3....) 이렇게 됨

3) 의사결정 트리(Decision Tree)

: 스무고개 형태 - 여러 개의 분리 기준을 통해 최종 분류값을 찾음

: 회귀(연속형)에서도 사용은 가능하지만 보통 분류(범주형)에서 많이 사용

: 가지고 끝없이 늘어나는 상태 - 과대적

의사결정트리

1) 분류(범주형)에서의 분할 방법

-. CHAID 알고리즘 : 카이제곱 통계량

-. CART 알고리즘 : 지니지수 활용 (1 - 시그마 P²)

-. C4.5/5.0 알고리즘 : 엔트로피지수 활용 (-시그마 P(logP))

2) 회귀(연속형)에서의 분할 방법

-. CHAID 알고리즘 : ANOVA F 통계량

-. CART 알고리즘 : 분산감소

3) 학습 간 규제

. 가지가 끝없이 늘어나는 상태(과대적합) 제제를 가하는 것

-. 정지규칙 : 분리를 더 진행하지 못하게 성장을 멈춤

-. 가지치기 : 일부 가지를 제거해서 과대적합을 방지

'자격증 > ADsP' 카테고리의 다른 글

ADsP 3과목 기출문제 풀이 : EDA, 데이터 마이닝, 탐색적 데이터 분석, 데이터 처리구조, (9)	2024.05.06
ADsP 3과목 시험대비 : 앙상블, 인공신경망, 분류모델 평가지표 (12)	2024.05.06
ADsP 3과목 데이터 분석 : 가설검정, 회귀분석, ANOVA (7)	2024.05.02
ADsP 3과목 데이터 분석 : 표본 추출 방법, 자료의 척도, 기초 통계량, 첨도와 왜도 (2)	2024.05.01
ADsP 3과목 데이터 분석 : R기초, 데이터 마트 , 결측값, 이상값 (0)	2024.04.30

작은실천

ADsP 3과목 : 시계열 모형, 분해시계열, 과대적합, 과소적합, 의사결정트리

시계열 모형

분해시계열★

데이터 마이닝

데이터 마이닝 유형

과대적합과 과소적합

데이터 분할

분류분석

로지스틱 회귀분석

의사결정트리

'자격증 > ADsP' 카테고리의 다른 글

티스토리툴바

ADsP 3과목 : 시계열 모형, 분해시계열, 과대적합, 과소적합, 의사결정트리

시계열 모형

분해시계열★

데이터 마이닝

데이터 마이닝 유형

과대적합과 과소적합

데이터 분할

분류분석

로지스틱 회귀분석

의사결정트리

'자격증 > ADsP' 카테고리의 다른 글

관련글

티스토리툴바