ADsP 3과목 데이터 분석 : 가설검정, 회귀분석, ANOVA

가설검정★

-. 집단의 특성에 대한 주장을 가설로 세우고 표본조사를 통해 가설의 채택여부를 판정함

1) 귀무가설(H0) : 알려진 사실을 기준으로 일반적으로 생각하는 가설.(~차이가 없다, ~같다 등)
2) 대립가설(H1) : 귀무가설에 반대하고 새롭게 주장하고자 하는 가설.(차이가 있다, 효과가 크다)
예시) 고기가 1인분 200g 아닌 것 같다 : 내 주장, 200g 맞다 : 식당주장
3) 유의수준(a) : 귀무가설이 참인데 이를 잘못 기각하여(대립가설을 채택) 1종 오류를 범할 확률의 허용 한계 (약 0.05, 5%)
내가 틀릴 확률이 5% 까지는 내 말이 맞음, 틀릴 확률이 5% 넘어가면 내 말이 틀림
4) 유의확률(p-value) : 귀무가설을 지지하는 정도를 나타내는 확률

검정결과 \ 실제	H0를 사실로 판정	H0를 거짓으로 판정
H0가 사실	옳은 결정	1종 오류(a)
H0가 거짓	2종 오류(B)	옳은 결정

귀무가설(H0)이 참일 때 귀무가설(H0)을 거짓이라고 판정 → 1종 오류(a)
귀무가설(H0)이 거짓일 때 귀무가설(H0)을 사실이라고 판정 → 2종 오류(B)

정규분포에서 대부분이 95% 이내에 들어옴, 양끝이 기각되는 영역임
만약 가설을 ~ 아니다, ~같지 않다고 한경우 크고, 작고 양쪽으로 다 검증해야 함 → 양측검정
만약 가설을 크다, 작다라고 한경우 한쪽만 검증을 하면 됨 → 단측검정

■ 귀무가설 vs 대립가설
-. 차이가 없다, ~ 같다 : 귀무가설
■ 양측검정 vs 단측검정
-. 대립가설 값이 같지 않다 : 양측검정
-. 값이 크다 혹은 값이 작다 : 단측검정
■ 일표본 vs 이표본
-. 하나의 모집단 : 일표본
-. 두 개의 모집단 : 이 표본
■ 귀무가설 기각 혹은 채택
-. p-value < 유의수준(a) : 귀무가설 기각 (대립가설이 유의함, 대립가설 채택)
-. p-value > 유의수준(a) : 귀무가설 채택 (대립가설이 유의하지않음, 귀무가설을 채택)
■ 독립표본
-. 서로 다른 모집단에 대한 평균 비교 검

※ t검정 : 평균의 차이가 있는지를 검정
대립가설 : 내가 주장하는 가설

비모수검정

: 표본으로 모집단의 특성을 파악해야 하나 모집단에 대한 정보가 없을 때
: 관측 자료가 특정 분포를 따르지 않을 때
: 부호검정, 순위합검정, 만-휘트니 U검정, 크러스컬-월리스 검정 사용

회귀분석

1) 뜻 : 독립변수들이 종속변수에 미치는 영향을 파악하는 분석방법 (ex. y=ax+b)
-. 독립변수 : 원인을 나타내는 변수, y=ax+b
-. 종속변수 : 결과를 나타내는 변수, y=ax+b
-. 잔차 : 예측값과 실제 계산값의 차이 오차 : 모집 간 기준, 잔차 : 표본집단 기준

2) 회귀계수 추정방법
-. ★최소제곱법 : 잔차의 제곱합이 최소가 되는 회귀계수와 절편을 구하는 방법, y=ax+b

3) 회귀모형 평가
-. R-squared : 회귀모형에 의해 설명되는 변동이 차지하는 비율, 좋은 모델인지 아닌지를 판단
-. 0~1 값을 가짐, 0이면 좋은 모델 1이면 안은 모델

회귀분석의 가정★

1) 선형성 : 독립변수와 종속변수는 선형관계
2) 등분산성 : 잔차의 분석리 고르게 분포되어 있음
3) 정상성(정규성) : 잔차의 특성이 정규분포의 특성을 지님
4) 독립성 : 독립변수들 간의 상관관계가 無
-. 정규성은 정규분포를 그리는 느낌을 갖느냐를 의미
-. Q-Q plot, 샤피로 윌크 검정, 히스토그램, 왜도와 첨도 활용해서 확

회귀분석의 종류

1) 단순회귀 : 1개의 독립변수와 종속변수의 선형 관계
2) 다중회귀 : 2개 이상의 독립변수와 종속변수의 선형 관계 (음식값 결정 : 인건비, 관리비, 재료비 等)
3) 다항회귀 : 2개 이상의 독립변수와 종속변수가 2차 함수 이상의 관계 (제곱의 관계, 세제곱의 관계 等)
4) 릿지회귀 : 규제를 포함한 회귀모형 - L2규제
5) 랏쏘회귀 : 규제를 포함한 회귀모형 - L1규제
→ 릿지, 랏쏘 하는 이유 : 일반화를 위, 과대적합에서 사용

회귀분석의 분산분석(ANOVA) 표

각 항목 값이 주어졌을 때 결정계수를 구한다던가 할 수 있어야 함

-. 모델의 성능이 좋은지 판단 : 결정계수(R-Square) = SSR/SST = 1 - SSE/SST
-. Adjusted R-square= 1 - (n - 1)*MSE/SST
-. 전체 데이터 수 = 자유도 + 1
-. 자유도 n - 1 인 이유 : 5명이 5개 중에 하나씩 고를 때, 마지막 사람은 고를 자유가 없음 그래서 n - 1 인 4 값
데이터수는 5명이기 때문에 n + 1인 5가 됨

'자격증 > ADsP' 카테고리의 다른 글

ADsP 3과목 시험대비 : 앙상블, 인공신경망, 분류모델 평가지표 (11)	2024.05.06
ADsP 3과목 : 시계열 모형, 분해시계열, 과대적합, 과소적합, 의사결정트리 (2)	2024.05.05
ADsP 3과목 데이터 분석 : 표본 추출 방법, 자료의 척도, 기초 통계량, 첨도와 왜도 (2)	2024.05.01
ADsP 3과목 데이터 분석 : R기초, 데이터 마트 , 결측값, 이상값 (0)	2024.04.30
ADsP(데이터 분석 준 전문가) : 시험 일정(2024年) (0)	2024.04.14

작은실천

ADsP 3과목 데이터 분석 : 가설검정, 회귀분석, ANOVA

가설검정★

비모수검정

회귀분석

회귀분석의 가정★

회귀분석의 종류

회귀분석의 분산분석(ANOVA) 표

'자격증 > ADsP' 카테고리의 다른 글

티스토리툴바

ADsP 3과목 데이터 분석 : 가설검정, 회귀분석, ANOVA

가설검정★

비모수검정

회귀분석

회귀분석의 가정★

회귀분석의 종류

회귀분석의 분산분석(ANOVA) 표

'자격증 > ADsP' 카테고리의 다른 글

관련글

티스토리툴바