자격증/ADsP

ADsP 3과목 데이터 분석 : 표본 추출 방법, 자료의 척도, 기초 통계량, 첨도와 왜도

doonga 2024. 5. 1. 23:58
반응형

전수조사와 표본조사

  •  어떤 결과를 알고 싶을 때 일부만 조사할지 전체를 다 조사할지

1) 전수조사 : 표본 전체를 조사, 시간과 비용이 많이 소모됨
2) 표본조사 : 표본 中 일부만 조사하여  모집단을 분석함 (ex. 출구조사)
 
 
 

표본 추출 방법

1) 랜덤 추출법 : 표본 중 무작위로 추출함
2) 계통 추출법 : 표본마다 번호를 부여하여 일정한 간격으로 추출함
                          1 → 3 → 5 → 7 혹은 2 → 4 → 6 → 8 순서로 추출
3) 집락 추출법 : 표본들을 군집으로 나눠서 군집 중에 랜덤으로 추출함
                          아파트 동마다 묶어서 그중에 한 동만 추출하는 식
                          군집 간 동질적 특징 가짐, 군집 내 이질적 특징 가짐
4) 층화 추출법 : 군집 간 이질적 특징, 군집 내 동질적 특징
                          1학년끼리 군집 / 2학년끼리 군집 / 3학년끼리 군집
                          비율을 같게 추출 시 : 비례 층화 추출법
                         ㄴ 학년별 인원수가 100명 200명 300명이면 1:2:3 비율
5) 복원 추출, 비복원 추출
 -. 복원 추출 : 추출된 데이터를 다시 포함시켜 표본을 추출함
 -. 비복원 추출 : 추출된 데이터는 제외시키고 표본 추출
 
 

자료의 척도 구분

1) 질적 척도
 - 명목척도 : 어느 집단에 속하는지를 나타내는 자료 (회사, 성별)
 - 순서척도(서열척도) : 서열관계가 존재하는 자료 (직급, 순위)
2) 양적 척도
 - 등간척도 : 덧셈과 뺄셈만 가능, 구간 사이의 간격이 의미가 있음 (온도 等)
 - 비율척도 : 기준 0이 존재, 사칙연산이 가능 (무게, 나이 等)
 
 

기초 통계량

1) 평균(mean) : 전체 합 / 개수
2) 중앙값(median) : 데이터를 크기순으로 나열했을 때 가운데 값
3) 최빈값(mode) : 가장 빈번하게 나타나는 값
4) 분산(variance) : 데이터들이 퍼져있는 정도를 나타냄
    표준편차(Standard deviation) : 분산의 제곱 근
5) 공분산(cov) : 두 확률변수의 상관정도
 - 공분산이 0 일 때 : 상관이 전혀 없음
 - 공분산 > 0 일 때 : 양의 상관관계
 - 공분산 < 0 일 때 : 음의 상관관계
 - 공분산은 ± ∞ 까지 갈 수 있음
 - 최소, 최댓값이 없어 강약 판단이 어려움
 - 공분산은 -1 ~ 1의 값을 갖는 게 아님
 
6) 상관계수
 -. 공분산으로 강약 판단이 불가하기 때문에 상관계수로 표현
 -. 상관정도를 -1 ~ +1 값으로 표현
 -. 상관계수 = -1 : 반비례 관계
 -. 상관계수 = 1 : 정비례 관계
 
 

첨도와 왜도

1) 첨도(kurtosis) : 자료의 분포가 얼마나 뾰족한지 나타내는 척
 -. 첨도 = 0 or 3 : 정규분포 형태를 띰
 -. 첨도값이 클수록 뾰족한 모양
 -. 값이 작을수록 평평한 모양

 
2) 왜도(skewness) : 데이터 분포의 좌우 비대칭 정도를 나타내는 척도
 -. 왜도 = 0 일 때 : 평균값 = 중앙값 = 최빈값 일치함, 좌/우 대칭상태
 -. 왜도 > 0 일 때 : 최빈값 < 중앙값 < 평균값
 -. 왜도 < 0 일 때 : 최빈값 > 중앙값 > 평균
 

//

  •  //

1) //

반응형