자격증/ADsP

ADsP 데이터분석 기출문제 : 이상치(outlier), pylr함수, sqldf 함수, 이상치판정법

doonga 2024. 5. 7. 23:14
반응형

부정사용방지 시스템

-. 이상값 검색을 활용한 응용시스템   

-. 이상값 검색하여한 집단에서 매우 크거나 매우 작으면 의심되는 대상이므로 부정사용 방지 시스템 활용이 가능

 

이상치

-. 군집분석을 활용해 다른 데이터들과 거리상 멀리 떨어진 데이터는 이상치로 판정

-. 설명변수의 관측치에 비해 종속변수의 값이 상이한 값을 이상치라 함

-. 통상 편균으로부터 표준편차의 3배가 되는 점을 이상치라고 함

-. 이상치는 분석 결과를 왜곡할 수도 있지만 의미가 있을 수 있으므로 제거하면 안 된다.

 

이상값(Outlier)

-. 부도예측시스템이나 부정사용방지 시스템에서는 이상값(outlier)이라도 의미가 있으므로 제거하면 안 된다

-. 이상값 인식에 가장 많이 활용하는 방법은 ESD(Extreme Studentized Deviation)으로 평균에서 3 표준편차를 벗어날 때 이상값으로 인식한다

-. 의도치 않게 데이터를 잘못 입력한 경우 Bad Data에 해당되며 이러한 경우, 데이터를 제거하여 분석한다

-. 이상치를 절단이나 조정하는 경우 제거방법에 비해 데이터 손실률이 낮아지기 때문에 설명력이 높아지는 장점이 있다.

pylr 함수

-. 데이터 처리에 필요한 R 패키지로 데이터를 분할하고 분할된 결과에 함수를 적용한 뒤 결과를 재조합하는 함수를 포함

-. Multi-COre를 사용하여 반복문을 사용하지 않고도 매우 간단하고 빠르게 처리할 수 있는 데이터 처리 함수

 

sqldf 함수

-. R에서 sql의 명령어를 가능하게 해주는 패키지

-. "iris"라는 데이터셋에서 데이터의 내용을 조회

 

이상치(Outlier)

-. 오타로 인해 데이터가 잘못 입력된 경우

-. 분석 목적과 부합되지 않아 제거해야 하는 경우

-. 부정사용방지 시스템에서 의도된 이상 값

-. 최댓값과 최솟값 : 이상치 아님

 

이상치(Outlier) 탐지

-. 사기탐지 : 도난당한 신용카드의 구매 행위는 원 소유자의 행위와 다를 수 있음. 평상시의 구매패턴과 상이한 점을 조사하여 사기를 탐지

-. 의료 : 특정 환자에게 보이는 예외적인 증세나 검사결과는 잠재적인 건강 문제를 나타냄

-. 침입탐지 : 컴퓨터 네트워크 침입의 다수는 네트워크에 대한 예외적인 행위를 감시하는 경우 탐지 가능

-. 환경파괴는 해당 안됨

 

이상치 판정 방법

-. 3-sigma 방법 : 평균으로부터 표준편차의 3배가 넘는 범위의 데이터는 이상치라고 규정

-. 회귀분석 적합 후 잔차분석을 실시해 이상치를 판정

-. 통계모형에 기반한 방법 : Grubb's Test, Hotellings T2 test

-. Q1-1.5*IQR < x < Q3+1.5*IQR을 벗어나면 이상치

 

반응형