자격증/ADsP

ADsP 3과목 기출문제 풀이 : EDA, 데이터 마이닝, 탐색적 데이터 분석, 데이터 처리구조,

doonga 2024. 5. 6. 23:37
반응형

탐색적자료분석(EDA)

  •  9회 기출

-. 탐색적자료분석(EDA)는 다양한 차원과 값을 조합해가며 특이점이나 의미있는 사실을 도출하여 분석의 최종목적을 달성해가는 과정.

-. 해당 변수의 분포 등을 시각화 하여 분석하는 분석방식

 

 

데이터 마이닝 모델링

-. 통계적 모델링이 아니므로 지나치게 통계적 가설이나 유의성에 집착하지 말아야 함

-. 분석데이터를 학습 및 테스트 데이터로 6:4, 7:4, 8:2 비율로 상황에 맞게 실시하여야 함

-. 성능에 집착하면 시간을 낭비할 수 있으므로 훈련 및 테스트 성능에 큰 편차가 없고 예상 성능을 만족하면 중단함

-. 충분한 시간이 있으면 다양한 옵션을 줘서 시도함. (반드시 다양한 옵션을 줘서 모델링 수행 X)

-. 일정 성과가 나오면 해석과 활용 단계로 진행할 수 있도록 의사결정 해야 함

 

데이터 마이닝 평가 기준

  • 10회 기출

-. 데이터 마이닝 평가 기준 : 정확도, 정밀도, 디렉트 레이트, 리프등 등의 값

-. 시뮬레이션 평가 기준 : Throughtout. Average Waitin TIme, Average Queue Length, TIme in System 등 

 

 

탐색적 데이터 분석의 목적

  •  14회 기출

-. 데이터에 대한 전반적인 이해를 통해 분석 가능한 데이터인지 확인하는 단계

-. 데이터에 포함된 변수의 유형이 어떻게 되는지를 찾아가는 과정임

-. 데이터의 품질과 데이터에 담긴 정보량에 따라 알고리즘이 학습을 얼마나 잘 하는지가 달려 있음

-. Box Plot(상자그림)등을 이용하면 Outliner(이상치)를 식별하기 쉬움

 

 

데이터 처리 구조

-. 데이터를 분석에 활용하기 위해서는 데이터웨어하우스(DW)와 데이터마트(DM)에서 데이터를 가져옴

-. ODS는 운영데이터저장소로 기존 운영시스템의 데이터가 정제된 데이터이므로 D.W나 D.M과 결합하여 분석에 활용할 수 있음

-. 스테이지 영역에서 가져온 데이터는 정제되어 이지 않기 때문에 데이터를 전처리해서 DW나 DM과 결합하여 사용

-. 신규시스템이나 스테이징 영역의 데이터는 정제되지 않았기 때문에 정제하고 DW나 DM과 결합해야 함

 

 

시각화의 발전된 형태

-. TEXT Mining 에서의 워드 word cloud를 통한 그래프화

-. Social Network Analysis(SNA)에서 집단의 특성과 관계를 그래프화

-. Polygon, Heatmap, Mosaic Graph등의 그래프 작업

-. 엑셀에서 그래프화 → 기존 기술

 

 

데이터 마이닝

-. 대표적인 고급분석의 한 종류

-. 데이터에있는 pattern을 파악해 예측하는 분석

-. 데이터가 크고 정보가 다양할수록 활용하기 유리함

 

 

추론 통계

-. 모집단으로부터 추출된 표본의 표본통계량으로부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 통계

 

 

EDA의 4가지 주제

-. 그래프를 통한 현시성

-. 잔차 계산

-. 저항성의 강조

-. 자료변수의 재표현

 

그잔저자 : 그잔의 저자가 누구지

 

 

반응형