시계열 모형
- 상관함수를 사용해서 p+1 시점 이후부터 상관관계가 급격히 감소하면 그 이전값만 활용
- ex) 만약 2일 차까지는 상관성이 높고 3일 차부터는 낮은 경우
1) 자기 회귀(AR) 모형
: 부분 자기 상관함수(PACF)를 활용하면 AR(p) 모델
2) 이동평균(MA) 모형
: 자기 상관함수(ACF)를 활용하면 MA(q) 모델
3) 자기 회귀 누적이동 평균(ARIMA) 모형
: 자기 회귀모델과 이동평균 모델의 결함
: ARIMA(p, d, q)
: p는 AR에서 가져옴, q는 MA에서 가져, d는 차분을 몇 회 했는지
: ex) ARIMA( 3, 2, 5) 일 때 차분은 2
: d = 0이면 ARMA 모델이고 ARMA(3, 5)라고 표현
p = 0이면 IMA(d, p)라고 표현
q = 0이면 ARI(p, d)로 표
분해시계열★
- 데이터에 영향주는 요인을 시계열로 분리 분석하는 방법
1) 추세 요인 : 장기적으로 추세가 증가, 감소
2) 계절 요인 : 계절처럼 어떤 주기에 따라 변화함
3) 순환요인 : 알려지지 않는 요인으로 주기를 갖고 변함
4) 불규칙 요인 : 위 3가지로 설명 불가능
▶ 추계순불 (추운 계절은 순환이불규칙)
데이터 마이닝
: 수많은 데이터들 사이에서 일정한 규칙, 패턴을 찾아 미래를 예측하는 분야
데이터 마이닝 유형
1) 지도학습 : 정답이 정해져 있고 이를 반복학습을 통해 답에 근접하도록 함
: 회귀분석, 의사결정트리, 인공신경망, 로지스틱회귀 等
2) 비지도학습 : 정답이 없고 데이터들 사이의 규칙을 파악하기 위함
: 차원축소, 연관분석 군집분석, SOM 等
과대적합과 과소적합
1) 과대적합 : 지나치게 복잡해진 모델 - 지나친 데이터 학습이 원인
2) 과소적합 : 지나치게 단순한 모델 - 데이터를 충분히 설명하지 못
데이터 분할
- 과대적합, 과소적합을 방지하기 위해 사용, 데이터 불균형 문제 해결
-. 분할된 Data Set 종류
1) 훈련용(50%) : Training Set, 모델을 학습하는 데 사용
2) 검증용(30%) : Validation Set, 모델의 과대, 과소 적합을 조정하는 데 사용
3) 평가용(20%) : 모델을 평가하는 데 사용
-. 분할된 Data의 학습 및 검증 방법
1) 홀드아웃 : 훈련용 / 평가용 2개의 셋으로 분할
2) K-fold 교차검증 : 데이터를 k개의 집단으로 구분하여 k-1개는 학습, 1개로 평가
3) LOOCV : 1개의 데이터로만 평가하고 나머지로 학습
4) 부트스트래핑 : 복원추출을 활용하여 데이터 셋을 생성함, 데이터 부족이나 불균형을 해소
※ 회귀형 데이터 : 수치형 - 돈, 나이, 키
분류형 데이터 : 범주형 - 앞/뒤, 개/고양이
분류분석
- 셀 수 있는 수치가 아닌 범주로 구분 가능
- 개/고양이, 동물/식물, 앞/뒤 等
로지스틱 회귀분석
- 성공과 실패 2개의 집단으로 분류
- 회귀분석이지만 분류에 사용
1) Odds(오즈)
: Odds = 성공확률(p) / 실패확률(1-p)
: 성공확률과 실패 확률의 비
2) Logit(로짓) 변환
: Odds에 자연로그를 취하는 작업(ln, e^ , e는 2.7 정도 됨)
: 독립변수 X가 n 증가하면 확률이 e^n 만큼 증가함
: y = e^(ax1+bx2+cx3....) 이렇게 됨
3) 의사결정 트리(Decision Tree)
: 스무고개 형태 - 여러 개의 분리 기준을 통해 최종 분류값을 찾음
: 회귀(연속형)에서도 사용은 가능하지만 보통 분류(범주형)에서 많이 사용
: 가지고 끝없이 늘어나는 상태 - 과대적
의사결정트리
1) 분류(범주형)에서의 분할 방법
-. CHAID 알고리즘 : 카이제곱 통계량
-. CART 알고리즘 : 지니지수 활용 (1 - 시그마 P²)
-. C4.5/5.0 알고리즘 : 엔트로피지수 활용 (-시그마 P(logP))
2) 회귀(연속형)에서의 분할 방법
-. CHAID 알고리즘 : ANOVA F 통계량
-. CART 알고리즘 : 분산감소
3) 학습 간 규제
. 가지가 끝없이 늘어나는 상태(과대적합) 제제를 가하는 것
-. 정지규칙 : 분리를 더 진행하지 못하게 성장을 멈춤
-. 가지치기 : 일부 가지를 제거해서 과대적합을 방지
'자격증 > ADsP' 카테고리의 다른 글
ADsP 3과목 기출문제 풀이 : EDA, 데이터 마이닝, 탐색적 데이터 분석, 데이터 처리구조, (9) | 2024.05.06 |
---|---|
ADsP 3과목 시험대비 : 앙상블, 인공신경망, 분류모델 평가지표 (12) | 2024.05.06 |
ADsP 3과목 데이터 분석 : 가설검정, 회귀분석, ANOVA (7) | 2024.05.02 |
ADsP 3과목 데이터 분석 : 표본 추출 방법, 자료의 척도, 기초 통계량, 첨도와 왜도 (2) | 2024.05.01 |
ADsP 3과목 데이터 분석 : R기초, 데이터 마트 , 결측값, 이상값 (0) | 2024.04.30 |