데이터 전처리로 모델 정확도 향상

데이터 준비는 모델의 예측 능력의 성패를 좌우합니다.

저서 Applied Predictive Modeling의 3 장에서 Kuhn과 Johnson은 데이터 준비 과정을 소개합니다. 이를 학습 집합 데이터의 추가, 삭제 또는 변환이라고 합니다.

이 게시물에서는 모델의 예측 기능을 개선하는 데 사용할 수 있는 데이터 전처리 단계를 알아봅니다.


데이터 준비

문제를 모델링하기 전에 미가공 데이터를 사전 처리해야 합니다. 구체적인 준비는 사용 가능한 데이터와 사용하려는 머신러닝 알고리즘에 따라 달라질 수 있습니다. 경우에 따라 데이터를 전처리하면 모델 정확도가 예기치 않게 향상될 수 있습니다. 이는 데이터의 관계가 단순화되었거나 모호하지 않기 때문일 수 있습니다. 데이터 준비는 중요한 단계이며 데이터에 적합한 데이터 전처리 단계를 실험하여 모델 정확도를 원하는 수준으로 높일 수 있는지 확인해야 합니다. 데이터에 대해 고려할 수 있는 세 가지 유형의 전처리가 있습니다.

  • 데이터에 속성 추가
  • 데이터에서 속성 삭제
  • 데이터의 특성 변환


이러한 세 가지 유형의 전처리 각각에 대해 자세히 알아보고 수행할 수 있는 작업의 몇 가지 구체적인 예를 검토합니다.


데이터 속성 추가

고급 모델은 복잡한 특성에서 관계를 추출할 수 있지만 일부 모델에서는 이러한 관계를 명확하게 설명해야 합니다. 모델링 프로세스에 포함할 학습 데이터에서 새 특성을 파생하면 모델 성능을 향상시킬 수 있습니다.

  • 더미 속성: 범주형 속성은 n-이진 속성으로 변환할 수 있으며, 여기서 n은 속성이 갖는 범주(또는 수준)의 수입니다. 이러한 비정규화되거나 분해된 속성을 더미 속성 또는 더미 변수라고 합니다.
  • 변환된 특성: 선형 메서드가 특성 간의 가능한 선형 및 비선형 관계를 활용할 수 있도록 특성의 변환된 변형을 데이터 세트에 추가할 수 있습니다. 로그, 제곱 및 제곱근과 같은 간단한 변환을 사용할 수 있습니다.
  • 누락된 데이터: 누락된 데이터가 있는 속성에는 k-최근접 이웃과 같은 신뢰할 수 있는 방법을 사용하여 누락된 데이터가 귀속될 수 있습니다.

데이터 속성 제거

일부 메서드는 중복 또는 중복 특성으로 인해 성능이 저하됩니다. 데이터에서 속성을 제거하여 모델 정확도를 높일 수 있습니다.

  • 프로젝션: 학습 데이터는 더 낮은 차원 공간으로 프로젝션될 수 있지만 여전히 데이터의 고유한 관계를 특성화합니다. 널리 사용되는 접근 방식은 주성분 분석(PCA)으로, 이 방법으로 찾은 주성분을 축소된 입력 속성 집합으로 사용할 수 있습니다.
  • 공간 기호: 데이터의 공간 기호 투영은 데이터를 다차원 구의 표면으로 변환합니다. 결과를 사용하여 데이터에서 수정하거나 제거할 수 있는 이상치의 존재를 강조 표시할 수 있습니다.
  • 상관관계가 높은 속성: 일부 알고리즘은 상관관계가 높은 속성이 존재함에 따라 중요성이 저하됩니다. 상관관계가 높은 쌍별 속성을 식별할 수 있으며 가장 상관된 속성을 데이터에서 제거할 수 있습니다.

데이터 속성 변환

학습 데이터를 변환하면 데이터의 왜도와 데이터에서 이상값의 중요도를 줄일 수 있습니다. 많은 모델에서는 알고리즘을 적용하기 전에 데이터가 변환될 것으로 예상합니다.

  • 중앙화: 평균이 0이고 표준 편차가 1이 되도록 데이터를 변환합니다. 이를 일반적으로 데이터 표준화라고 합니다.
  • 크기 조정: 표준 크기 조정 변환은 원래 배율의 데이터를 0과 1 사이의 배율에 매핑하는 것입니다. 이를 일반적으로 데이터 정규화라고 합니다.
  • 기울이기 제거: 치우친 데이터는 정규 분포가 아닌 한쪽 또는 다른 쪽(더 크거나 작은 값)으로 푸시되는 분포가 있는 데이터입니다. 일부 메서드는 정규 분포를 따르는 데이터를 가정하며 기울이기가 제거되면 더 나은 성능을 발휘할 수 있습니다. 속성을 로그, 제곱근 또는 값의 역으로 바꿔보십시오.
  • Box-Cox: Box-Cox 변환 또는 변환 제품군을 사용하여 데이터를 안정적으로 조정하여 왜곡을 제거할 수 있습니다.
  • 범주화: 숫자 데이터는 값을 그룹으로 그룹화하여 이산적으로 만들 수 있습니다. 이를 일반적으로 데이터 분할이라고 합니다. 이 프로세스는 수동으로 수행할 수 있지만 도메인에서 의미가 있는 휴리스틱을 사용하여 체계적이고 자동으로 수행하는 경우 더 안정적입니다.

요약

데이터 전처리는 모델링을 위해 미가공 데이터를 준비하고, 특정 머신러닝 알고리즘에 대한 데이터의 기대치를 충족하고, 모델 정확도를 예기치 않게 향상시키는 데 필요할 수 있는 중요한 단계입니다.

이 게시물에서는 세 가지 데이터 전처리 방법 그룹을 발견했습니다.

  • 속성 추가
  • 속성 제거
  • 특성 변환

다음에 모델 정확도를 높이려면 모델이 탐색하고 활용할 수 있도록 데이터에 대해 엔지니어링할 수 있는 새로운 관점을 고려하십시오.

네피리티
No Comments

Sorry, the comment form is closed at this time.