탐색적자료분석(EDA)
- 9회 기출
-. 탐색적자료분석(EDA)는 다양한 차원과 값을 조합해가며 특이점이나 의미있는 사실을 도출하여 분석의 최종목적을 달성해가는 과정.
-. 해당 변수의 분포 등을 시각화 하여 분석하는 분석방식
데이터 마이닝 모델링
-. 통계적 모델링이 아니므로 지나치게 통계적 가설이나 유의성에 집착하지 말아야 함
-. 분석데이터를 학습 및 테스트 데이터로 6:4, 7:4, 8:2 비율로 상황에 맞게 실시하여야 함
-. 성능에 집착하면 시간을 낭비할 수 있으므로 훈련 및 테스트 성능에 큰 편차가 없고 예상 성능을 만족하면 중단함
-. 충분한 시간이 있으면 다양한 옵션을 줘서 시도함. (반드시 다양한 옵션을 줘서 모델링 수행 X)
-. 일정 성과가 나오면 해석과 활용 단계로 진행할 수 있도록 의사결정 해야 함
데이터 마이닝 평가 기준
- 10회 기출
-. 데이터 마이닝 평가 기준 : 정확도, 정밀도, 디렉트 레이트, 리프등 등의 값
-. 시뮬레이션 평가 기준 : Throughtout. Average Waitin TIme, Average Queue Length, TIme in System 등
탐색적 데이터 분석의 목적
- 14회 기출
-. 데이터에 대한 전반적인 이해를 통해 분석 가능한 데이터인지 확인하는 단계
-. 데이터에 포함된 변수의 유형이 어떻게 되는지를 찾아가는 과정임
-. 데이터의 품질과 데이터에 담긴 정보량에 따라 알고리즘이 학습을 얼마나 잘 하는지가 달려 있음
-. Box Plot(상자그림)등을 이용하면 Outliner(이상치)를 식별하기 쉬움
데이터 처리 구조
-. 데이터를 분석에 활용하기 위해서는 데이터웨어하우스(DW)와 데이터마트(DM)에서 데이터를 가져옴
-. ODS는 운영데이터저장소로 기존 운영시스템의 데이터가 정제된 데이터이므로 D.W나 D.M과 결합하여 분석에 활용할 수 있음
-. 스테이지 영역에서 가져온 데이터는 정제되어 이지 않기 때문에 데이터를 전처리해서 DW나 DM과 결합하여 사용
-. 신규시스템이나 스테이징 영역의 데이터는 정제되지 않았기 때문에 정제하고 DW나 DM과 결합해야 함
시각화의 발전된 형태
-. TEXT Mining 에서의 워드 word cloud를 통한 그래프화
-. Social Network Analysis(SNA)에서 집단의 특성과 관계를 그래프화
-. Polygon, Heatmap, Mosaic Graph등의 그래프 작업
-. 엑셀에서 그래프화 → 기존 기술
데이터 마이닝
-. 대표적인 고급분석의 한 종류
-. 데이터에있는 pattern을 파악해 예측하는 분석
-. 데이터가 크고 정보가 다양할수록 활용하기 유리함
추론 통계
-. 모집단으로부터 추출된 표본의 표본통계량으로부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 통계
EDA의 4가지 주제
-. 그래프를 통한 현시성
-. 잔차 계산
-. 저항성의 강조
-. 자료변수의 재표현
그잔저자 : 그잔의 저자가 누구지
'자격증 > ADsP' 카테고리의 다른 글
데이터분석 준전문가(ADsP) 접수비 지원, 시험결과 확인 (3) | 2024.06.01 |
---|---|
ADsP 데이터분석 기출문제 : 이상치(outlier), pylr함수, sqldf 함수, 이상치판정법 (48) | 2024.05.07 |
ADsP 3과목 시험대비 : 앙상블, 인공신경망, 분류모델 평가지표 (12) | 2024.05.06 |
ADsP 3과목 : 시계열 모형, 분해시계열, 과대적합, 과소적합, 의사결정트리 (2) | 2024.05.05 |
ADsP 3과목 데이터 분석 : 가설검정, 회귀분석, ANOVA (7) | 2024.05.02 |