본문 바로가기
자격증/ADsP

ADsP 3과목 데이터 분석 : 가설검정, 회귀분석, ANOVA

by doonga 2024. 5. 2.
반응형

가설검정★

-. 집단의 특성에 대한 주장을 가설로 세우고 표본조사를 통해 가설의 채택여부를 판정함
 
1) 귀무가설(H0) : 알려진 사실을 기준으로 일반적으로 생각하는 가설.(~차이가 없다, ~같다 등)
2) 대립가설(H1) : 귀무가설에 반대하고 새롭게 주장하고자 하는 가설.(차이가 있다, 효과가 크다)
 예시) 고기가 1인분 200g 아닌 것 같다 : 내 주장,   200g 맞다 : 식당주장
3) 유의수준(a) : 귀무가설이 참인데 이를 잘못 기각하여(대립가설을 채택) 1 오류를 범할 확률의 허용 한계 (약 0.05, 5%)
                          내가 틀릴 확률이 5% 까지는 내 말이 맞음, 틀릴 확률이 5% 넘어가면 내 말이 틀림
4) 유의확률(p-value) : 귀무가설을 지지하는 정도를 나타내는 확률
 

                        검정결과
                  \
실제               
H0를 사실로 판정 H0를 거짓으로 판정
H0가 사실 옳은 결정 1종 오류(a)
H0가 거짓 2종 오류(B) 옳은 결정

 
귀무가설(H0)이 참일 때 귀무가설(H0)을 거짓이라고 판정 → 1종 오류(a)
귀무가설(H0)이 거짓일 때 귀무가설(H0)을  사실이라고 판정 → 2종 오류(B)
 
 
정규분포에서 대부분이 95% 이내에 들어옴, 양끝이 기각되는 영역임
만약 가설을 ~ 아니다, ~같지 않다고 한경우 크고, 작고 양쪽으로 다 검증해야 함 → 양측검정
만약 가설을 크다, 작다라고 한경우 한쪽만 검증을 하면 됨 → 단측검정
 
 
 
 
■ 귀무가설 vs 대립가설
 -. 차이가 없다,  ~ 같다  : 귀무가설
■ 양측검정 vs 단측검정
 -. 대립가설 값이 같지 않다 : 양측검정
 -. 값이 크다 혹은 값이 작다 : 단측검정
■ 일표본 vs 이표본
 -. 하나의 모집단 : 일표본
 -. 두 개의 모집단 : 이 표본
■ 귀무가설 기각 혹은 채택
 -. p-value < 유의수준(a) : 귀무가설 기각   (대립가설이 유의함, 대립가설 채택)
 -. p-value > 유의수준(a) : 귀무가설 채택   (대립가설이 유의하지않음, 귀무가설을 채택)
■ 독립표본
 -. 서로 다른 모집단에 대한 평균 비교 검
 
※ t검정 : 평균의 차이가 있는지를 검정
   대립가설 : 내가 주장하는 가설
 

비모수검정

: 표본으로 모집단의 특성을 파악해야 하나 모집단에 대한 정보가 없을 때
: 관측 자료가 특정 분포를 따르지 않을 때
: 부호검정, 순위합검정, 만-휘트니 U검정, 크러스컬-월리스 검정 사용
 
 

회귀분석

1) 뜻 : 독립변수들이 종속변수에 미치는 영향을 파악하는 분석방법 (ex. y=ax+b)
 -. 독립변수 : 원인을 나타내는 변수, y=ax+b
 -. 종속변수 : 결과를 나타내는 변수, y=ax+b
 -. 잔차 : 예측값과 실제 계산값의 차이  오차 : 모집 간 기준, 잔차 : 표본집단 기준
 
2) 회귀계수 추정방법
 -. ★최소제곱법 : 잔차의 제곱합이 최소가 되는 회귀계수절편을 구하는 방법, y=ax+b
 
3) 회귀모형 평가
 -. R-squared : 회귀모형에 의해 설명되는 변동이 차지하는 비율, 좋은 모델인지 아닌지를 판단
 -. 0~1 값을 가짐, 0이면 좋은 모델 1이면 안은 모델
 
 

회귀분석의 가정★

1) 선형성 : 독립변수와 종속변수는 선형관계
2) 등분산성 : 잔차의 분석리 고르게 분포되어 있음
3) 정상성(정규성) : 잔차의 특성이 정규분포의 특성을 지님
4) 독립성 : 독립변수들 간의 상관관계가 無
 -. 정규성은 정규분포를 그리는 느낌을 갖느냐를 의미
 -.  Q-Q plot, 샤피로 윌크 검정, 히스토그램, 왜도와 첨도 활용해서 확
 
 

회귀분석의 종류

1) 단순회귀 : 1개의 독립변수와 종속변수의 선형 관계
2) 다중회귀 : 2개 이상의 독립변수와 종속변수의 선형 관계 (음식값 결정 : 인건비, 관리비, 재료비 等)
3) 다항회귀 : 2개 이상의 독립변수와 종속변수가 2차 함수 이상의 관계 (제곱의 관계, 세제곱의 관계 等)
4) 릿지회귀 : 규제를 포함한 회귀모형 - L2규제
5) 랏쏘회귀 : 규제를 포함한 회귀모형 - L1규제
  → 릿지, 랏쏘 하는 이유 : 일반화를 위, 과대적합에서 사용
 
 

회귀분석의 분산분석(ANOVA) 표

각 항목 값이 주어졌을 때 결정계수를 구한다던가 할 수 있어야 함
 
-. 모델의 성능이 좋은지 판단 : 결정계수(R-Square) = SSR/SST = 1 - SSE/SST
-. Adjusted R-square= 1 - (n - 1)*MSE/SST
-. 전체 데이터 수 = 자유도 + 1
-. 자유도 n - 1 인 이유 :  5명이 5개 중에 하나씩 고를 때, 마지막 사람은 고를 자유가 없음 그래서 n - 1 인 4 값
                                       데이터수는 5명이기 때문에 n + 1인 5가 됨

반응형