ADsP 데이터분석 기출문제 : 이상치(outlier), pylr함수, sqldf 함수, 이상치판정법
부정사용방지 시스템
-. 이상값 검색을 활용한 응용시스템
-. 이상값 검색하여한 집단에서 매우 크거나 매우 작으면 의심되는 대상이므로 부정사용 방지 시스템 활용이 가능
이상치
-. 군집분석을 활용해 다른 데이터들과 거리상 멀리 떨어진 데이터는 이상치로 판정
-. 설명변수의 관측치에 비해 종속변수의 값이 상이한 값을 이상치라 함
-. 통상 편균으로부터 표준편차의 3배가 되는 점을 이상치라고 함
-. 이상치는 분석 결과를 왜곡할 수도 있지만 의미가 있을 수 있으므로 제거하면 안 된다.
이상값(Outlier)
-. 부도예측시스템이나 부정사용방지 시스템에서는 이상값(outlier)이라도 의미가 있으므로 제거하면 안 된다
-. 이상값 인식에 가장 많이 활용하는 방법은 ESD(Extreme Studentized Deviation)으로 평균에서 3 표준편차를 벗어날 때 이상값으로 인식한다
-. 의도치 않게 데이터를 잘못 입력한 경우 Bad Data에 해당되며 이러한 경우, 데이터를 제거하여 분석한다
-. 이상치를 절단이나 조정하는 경우 제거방법에 비해 데이터 손실률이 낮아지기 때문에 설명력이 높아지는 장점이 있다.
pylr 함수
-. 데이터 처리에 필요한 R 패키지로 데이터를 분할하고 분할된 결과에 함수를 적용한 뒤 결과를 재조합하는 함수를 포함
-. Multi-COre를 사용하여 반복문을 사용하지 않고도 매우 간단하고 빠르게 처리할 수 있는 데이터 처리 함수
sqldf 함수
-. R에서 sql의 명령어를 가능하게 해주는 패키지
-. "iris"라는 데이터셋에서 데이터의 내용을 조회
이상치(Outlier)
-. 오타로 인해 데이터가 잘못 입력된 경우
-. 분석 목적과 부합되지 않아 제거해야 하는 경우
-. 부정사용방지 시스템에서 의도된 이상 값
-. 최댓값과 최솟값 : 이상치 아님
이상치(Outlier) 탐지
-. 사기탐지 : 도난당한 신용카드의 구매 행위는 원 소유자의 행위와 다를 수 있음. 평상시의 구매패턴과 상이한 점을 조사하여 사기를 탐지
-. 의료 : 특정 환자에게 보이는 예외적인 증세나 검사결과는 잠재적인 건강 문제를 나타냄
-. 침입탐지 : 컴퓨터 네트워크 침입의 다수는 네트워크에 대한 예외적인 행위를 감시하는 경우 탐지 가능
-. 환경파괴는 해당 안됨
이상치 판정 방법
-. 3-sigma 방법 : 평균으로부터 표준편차의 3배가 넘는 범위의 데이터는 이상치라고 규정
-. 회귀분석 적합 후 잔차분석을 실시해 이상치를 판정
-. 통계모형에 기반한 방법 : Grubb's Test, Hotellings T2 test
-. Q1-1.5*IQR < x < Q3+1.5*IQR을 벗어나면 이상치