본문 바로가기
자격증/ADsP

ADsP 3과목 : 시계열 모형, 분해시계열, 과대적합, 과소적합, 의사결정트리

by doonga 2024. 5. 5.
반응형

시계열 모형

  • 상관함수를 사용해서 p+1 시점 이후부터 상관관계가 급격히 감소하면 그 이전값만 활용
  • ex) 만약 2일 차까지는 상관성이 높고 3일 차부터는 낮은 경우

1) 자기 회귀(AR) 모형

 : 부분 자기 상관함수(PACF)를 활용하면 AR(p) 모델

2) 이동평균(MA) 모형

 : 자기 상관함수(ACF)를 활용하면 MA(q) 모델

3) 자기 회귀 누적이동 평균(ARIMA) 모형

 : 자기 회귀모델과 이동평균 모델의 결함 

 : ARIMA(p, d, q)

 : p는 AR에서 가져옴, q는 MA에서 가져, d는 차분을 몇 회 했는지

 : ex) ARIMA( 3, 2, 5) 일 때 차분은 2

 : d = 0이면 ARMA 모델이고 ARMA(3, 5)라고 표현

   p = 0이면 IMA(d, p)라고 표현

   q = 0이면 ARI(p, d)로 표

 

 

분해시계열★

  • 데이터에 영향주는 요인을 시계열로 분리 분석하는 방법

1) 추세 요인 : 장기적으로 추세가 증가, 감소

2) 계절 요인 : 계절처럼 어떤 주기에 따라 변화함

3) 순환요인 : 알려지지 않는 요인으로 주기를 갖고 변함

4) 불규칙 요인 : 위 3가지로 설명 불가능

 ▶ 추계순불 (추운 계절은 순환이불규칙)

 

데이터 마이닝

 : 수많은 데이터들 사이에서 일정한 규칙, 패턴을 찾아 미래를 예측하는 분야

 

데이터 마이닝 유형

1) 지도학습 : 정답이 정해져 있고 이를 반복학습을 통해 답에 근접하도록 함

 : 회귀분석, 의사결정트리, 인공신경망, 로지스틱회귀 等

2) 비지도학습 : 정답이 없고 데이터들 사이의 규칙을 파악하기 위함

 : 차원축소, 연관분석 군집분석, SOM 等

 

과대적합과 과소적합

1) 과대적합 : 지나치게 복잡해진 모델 - 지나친 데이터 학습이 원인

2) 과소적합 : 지나치게 단순한 모델 - 데이터를 충분히 설명하지 못

 

 

데이터 분할

  •  과대적합, 과소적합을 방지하기 위해 사용, 데이터 불균형 문제 해결

 -. 분할된 Data Set 종류

1) 훈련용(50%) : Training Set, 모델을 학습하는 데 사용

2) 검증용(30%) : Validation Set, 모델의 과대, 과소 적합을 조정하는 데 사용

3) 평가용(20%) : 모델을 평가하는 데 사용

 

 -. 분할된 Data의 학습 및 검증 방법

1) 홀드아웃 : 훈련용 / 평가용  2개의 셋으로 분할

2) K-fold 교차검증 : 데이터를 k개의 집단으로 구분하여 k-1개는 학습, 1개로 평가

3) LOOCV : 1개의 데이터로만 평가하고 나머지로 학습

4) 부트스트래핑 : 복원추출을 활용하여 데이터 셋을 생성함, 데이터 부족이나 불균형을 해소

 

 

※ 회귀형 데이터 : 수치형 - 돈, 나이, 키

    분류형 데이터 : 범주형 - 앞/뒤, 개/고양이

 

분류분석

  •  셀 수 있는 수치가 아닌 범주로 구분 가능 
  • 개/고양이, 동물/식물, 앞/뒤 等

 

로지스틱 회귀분석

  • 성공과 실패 2개의 집단으로 분류 
  • 회귀분석이지만 분류에 사용

1) Odds(오즈)

 : Odds = 성공확률(p) / 실패확률(1-p)
 : 성공확률과 실패 확률의 비 

2) Logit(로짓) 변환

 : Odds에 자연로그를 취하는 작업(ln, e^ , e는 2.7 정도 됨)

 : 독립변수 X가 n 증가하면 확률이 e^n 만큼 증가함

 : y = e^(ax1+bx2+cx3....) 이렇게 됨 

3) 의사결정 트리(Decision Tree) 

 : 스무고개 형태 - 여러 개의 분리 기준을 통해 최종 분류값을 찾음

 : 회귀(연속형)에서도 사용은 가능하지만 보통 분류(범주형)에서 많이 사용 

 : 가지고 끝없이 늘어나는 상태 - 과대적

 

의사결정트리

1) 분류(범주형)에서의 분할 방법

 -. CHAID 알고리즘 : 카이제곱 통계량

 -. CART 알고리즘 : 지니지수 활용 (1 - 시그마 P²)

 -. C4.5/5.0 알고리즘 : 엔트로피지수 활용 (-시그마 P(logP))

 2) 회귀(연속형)에서의 분할 방법

 -. CHAID 알고리즘 : ANOVA F 통계량

 -. CART 알고리즘 : 분산감소

 3) 학습 간 규제

   . 가지가 끝없이 늘어나는 상태(과대적합) 제제를 가하는 것

 -. 정지규칙 : 분리를 더 진행하지 못하게 성장을 멈춤

 -. 가지치기 : 일부 가지를 제거해서 과대적합을 방지 

 

 

반응형