데이터에서 이상치 식별하기

많은 머신러닝 알고리즘은 입력 데이터에서 특성 값의 범위와 분포에 민감합니다. 입력 데이터의 이상치는 머신러닝 알고리즘의 학습 프로세스를 왜곡하고 오도하여 학습 시간이 길어지고 모델이 덜 정확하며 궁극적으로 결과가 좋지 않을 수 있습니다.

학습 데이터에 대한 예측 모델이 준비되기 전에도 이상치는 잘못된 표현을 초래할 수 있으며 수집된 데이터에 대한 오해의 소지가 있는 해석을 초래할 수 있습니다. 이상치는 평균 및 표준 편차와 같은 기술 통계량과 히스토그램 및 산점도와 같은 플롯에서 속성 값의 요약 분포를 왜곡하여 데이터 본문을 압축할 수 있습니다.

마지막으로, 이상치는 사기 탐지 및 컴퓨터 보안의 경우 변칙과 같은 문제와 관련된 데이터 인스턴스의 예를 나타낼 수 있습니다.


이상치 모델링

이상치는 다른 관측치에서 멀리 벗어나는 극단값입니다. 예를 들어, 정규 분포에서 이상치는 분포의 꼬리에 있는 값일 수 있습니다.

이상치를 식별하는 프로세스는 이상치 마이닝, 이상치 모델링, 참신성 감지 및 이상 감지와 같은 데이터 마이닝 및 머신러닝에서 많은 이름을 가지고 있습니다.

그의 저서 이상치 분석에서 Aggarwal은 다음과 같이 이상치 탐지 방법의 유용한 분류법을 제공합니다.

  • 극단값 분석: 데이터의 기본 분포에 대한 통계적 꼬리를 결정합니다. 예를 들어, 일변량 데이터에 대한 z-점수와 같은 통계 방법이 있습니다.
  • 확률적 및 통계적 모델: 데이터의 확률적 모델에서 가능성이 낮은 인스턴스를 결정합니다. 예를 들어, 기대-최대화를 사용하여 최적화된 가우스 혼합 모델입니다.
  • 선형 모델: 선형 상관 관계를 사용하여 데이터를 더 낮은 차원으로 모델링하는 프로젝션 방법입니다. 예를 들어, 주성분 분석과 잔여 오차가 큰 데이터는 이상치일 수 있습니다.
  • 근접 기반 모델: 클러스터, 밀도 또는 최근접 이웃 분석에 의해 결정된 데이터 질량에서 격리된 데이터 인스턴스입니다.
  • 정보 이론적 모델: 이상치은 데이터 세트의 복잡성(최소 코드 길이)을 증가시키는 데이터 인스턴스로 감지됩니다.
  • 고차원 이상치 감지: 부분공간에서 이상치을 검색하는 방법은 더 높은 차원에서 거리 기반 측정값을 분석합니다(차원의 저주).


Aggarwal은 이상치 모델의 해석 가능성이 매우 중요하다고 말합니다. 컨텍스트 또는 이론적 근거는 특정 데이터 인스턴스가 이상치인지 아닌지에 대한 결정에 필요합니다.

데이터 마이닝 및 지식 발견 핸드북에 기고한 장에서 Irad Ben-Gal은 이상치 모델의 분류를 일변량 또는 다변량, 모수 및 비모수량으로 제안합니다. 이는 데이터에 대해 알려진 내용을 기반으로 메서드를 구성하는 유용한 방법입니다. 예를 들어:

  • 하나 이상의 속성(일변량 또는 다변량 방법)에서 이상치로 간주됩니까?
  • 관측치가 표본으로 추출되었는지 여부(모수 또는 비모수)의 통계적 분포를 가정할 수 있습니까?


시작

이상치 감지에는 많은 방법과 많은 연구가 있습니다. 먼저 몇 가지 가정을 하고 일부 성능 또는 정확도 측정값에 대한 가정의 효과를 명확하게 관찰할 수 있는 실험을 설계합니다. 극한 값 분석, 근접 방법 및 투영 방법에서 단계적 프로세스를 통해 작업하는 것이 좋습니다.


극단값 분석

데이터에서 이상치를 찾고, 분석하고, 필터링하기 위해 고급 통계 방법을 알 필요는 없습니다. 극단적인 가치 분석으로 간단하게 시작하십시오.

  • 일변량 방법에 집중
  • 산점도, 히스토그램, 상자 및 수염 그림을 사용하여 데이터를 시각화하고 극단값 찾기
  • 분포(가우스)를 가정하고 평균에서 2 또는 3 표준 편차 이상 또는 첫 번째 또는 세 번째 사분위수에서 1.5배 이상의 값을 찾습니다.
  • 학습 데이터 세트에서 이상치 후보를 필터링하고 모델 성능 평가


근접 방법

더 간단한 극단값 방법을 탐색한 후에는 근접 기반 방법으로 이동하는 것이 좋습니다.

  • 클러스터링 방법을 사용하여 데이터의 자연 군집 식별(예: k-means 알고리즘)
  • 클러스터 중심 식별 및 표시
  • 클러스터 중심에서 고정된 거리 또는 백분율 거리에 있는 데이터 인스턴스 식별
  • 학습 데이터 세트에서 이상치 후보를 필터링하고 모델 성능 평가


프로젝션 방법

프로젝션 방법은 적용하기가 비교적 간단하며 불필요한 값을 빠르게 강조 표시합니다.

  • 프로젝션 방법을 사용하여 데이터를 2차원으로 요약(예:PCA, SOM 또는 Sammon의 매핑)
  • 매핑을 시각화하고 수동으로 이상치 식별
  • 투영된 값 또는 코드북 벡터의 근접 측정값을 사용하여 이상치 식별
  • 학습 데이터 세트에서 이상치 후보를 필터링하고 모델 성능 평가

이상치에 강한 방법

다른 전략은 이상치에 대해 강력한 모델로 이동하는 것입니다. 평균보다는 중앙값 최소 제곱 오차를 최소화하는 강력한 형태의 회귀 분석(소위 강력한 회귀)이 있지만 계산 집약적입니다. 이상치에 강력한 의사 결정 트리와 같은 방법도 있습니다.

이상치에 강력한 몇 가지 방법을 임의 추출 검사할 수 있습니다. 상당한 모델 정확도 이점이 있는 경우 학습 데이터에서 이상치를 모델링하고 필터링할 수 있는 기회가 있을 수 있습니다.


리소스

이상치 감지에 대해 논의하는 웹 페이지가 많이 있지만 주제에 대한 좋은 책, 더 권위있는 책을 읽는 것이 좋습니다. 머신러닝 및 데이터 마이닝에 대한 입문서를 살펴보는 것조차 그다지 유용하지 않습니다. 통계학자에 의한 이상치의 고전적인 처리는 다음을 확인하십시오.


데이터 마이닝 커뮤니티의 이상치에 대한 최신 처리는 다음을 참조하세요.

네피리티
No Comments

Sorry, the comment form is closed at this time.