전수조사와 표본조사
- 어떤 결과를 알고 싶을 때 일부만 조사할지 전체를 다 조사할지
1) 전수조사 : 표본 전체를 조사, 시간과 비용이 많이 소모됨
2) 표본조사 : 표본 中 일부만 조사하여 모집단을 분석함 (ex. 출구조사)
표본 추출 방법
1) 랜덤 추출법 : 표본 중 무작위로 추출함
2) 계통 추출법 : 표본마다 번호를 부여하여 일정한 간격으로 추출함
1 → 3 → 5 → 7 혹은 2 → 4 → 6 → 8 순서로 추출
3) 집락 추출법 : 표본들을 군집으로 나눠서 군집 중에 랜덤으로 추출함
아파트 동마다 묶어서 그중에 한 동만 추출하는 식
군집 간 동질적 특징 가짐, 군집 내 이질적 특징 가짐
4) 층화 추출법 : 군집 간 이질적 특징, 군집 내 동질적 특징
1학년끼리 군집 / 2학년끼리 군집 / 3학년끼리 군집
비율을 같게 추출 시 : 비례 층화 추출법
ㄴ 학년별 인원수가 100명 200명 300명이면 1:2:3 비율
5) 복원 추출, 비복원 추출
-. 복원 추출 : 추출된 데이터를 다시 포함시켜 표본을 추출함
-. 비복원 추출 : 추출된 데이터는 제외시키고 표본 추출
자료의 척도 구분
1) 질적 척도
- 명목척도 : 어느 집단에 속하는지를 나타내는 자료 (회사, 성별)
- 순서척도(서열척도) : 서열관계가 존재하는 자료 (직급, 순위)
2) 양적 척도
- 등간척도 : 덧셈과 뺄셈만 가능, 구간 사이의 간격이 의미가 있음 (온도 等)
- 비율척도 : 기준 0이 존재, 사칙연산이 가능 (무게, 나이 等)
기초 통계량
1) 평균(mean) : 전체 합 / 개수
2) 중앙값(median) : 데이터를 크기순으로 나열했을 때 가운데 값
3) 최빈값(mode) : 가장 빈번하게 나타나는 값
4) 분산(variance) : 데이터들이 퍼져있는 정도를 나타냄
표준편차(Standard deviation) : 분산의 제곱 근
5) 공분산(cov) : 두 확률변수의 상관정도
- 공분산이 0 일 때 : 상관이 전혀 없음
- 공분산 > 0 일 때 : 양의 상관관계
- 공분산 < 0 일 때 : 음의 상관관계
- 공분산은 ± ∞ 까지 갈 수 있음
- 최소, 최댓값이 없어 강약 판단이 어려움
- 공분산은 -1 ~ 1의 값을 갖는 게 아님
6) 상관계수
-. 공분산으로 강약 판단이 불가하기 때문에 상관계수로 표현
-. 상관정도를 -1 ~ +1 값으로 표현
-. 상관계수 = -1 : 반비례 관계
-. 상관계수 = 1 : 정비례 관계
첨도와 왜도
1) 첨도(kurtosis) : 자료의 분포가 얼마나 뾰족한지 나타내는 척
-. 첨도 = 0 or 3 : 정규분포 형태를 띰
-. 첨도값이 클수록 뾰족한 모양
-. 값이 작을수록 평평한 모양
2) 왜도(skewness) : 데이터 분포의 좌우 비대칭 정도를 나타내는 척도
-. 왜도 = 0 일 때 : 평균값 = 중앙값 = 최빈값 일치함, 좌/우 대칭상태
-. 왜도 > 0 일 때 : 최빈값 < 중앙값 < 평균값
-. 왜도 < 0 일 때 : 최빈값 > 중앙값 > 평균
//
- //
1) //
'자격증 > ADsP' 카테고리의 다른 글
ADsP 3과목 : 시계열 모형, 분해시계열, 과대적합, 과소적합, 의사결정트리 (2) | 2024.05.05 |
---|---|
ADsP 3과목 데이터 분석 : 가설검정, 회귀분석, ANOVA (7) | 2024.05.02 |
ADsP 3과목 데이터 분석 : R기초, 데이터 마트 , 결측값, 이상값 (0) | 2024.04.30 |
ADsP(데이터 분석 준 전문가) : 시험 일정(2024年) (0) | 2024.04.14 |
ADsP(데이터 분석 준 전문가) 자격소개, 응시자격, 시험과목, 응시료, 합격기준 (1) | 2024.04.14 |