머신러닝 프로젝트에서 통계적 방법을 사용하는 방법의 10가지 예
통계와 머신러닝은 매우 밀접하게 관련된 두 분야입니다.
사실, 둘 사이의 경계는 때때로 매우 흐릿할 수 있습니다. 그럼에도 불구하고 통계 분야에 분명히 속하는 방법이 있는데, 이는 유용할 뿐만 아니라 머신러닝 프로젝트를 수행할 때 매우 중요합니다.
머신러닝 예측 모델링 프로젝트를 효과적으로 수행하려면 통계적 방법이 필요하다고 말할 수 있습니다.
이 게시물에서는 예측 모델링 문제의 주요 단계에서 유용하고 필요한 통계적 방법의 구체적인 예를 발견하게 됩니다.
이 게시물을 완료하면 다음을 알 수 있습니다.
- 탐색적 데이터 분석, 데이터 요약 및 데이터 시각화를 사용하여 예측 모델링 문제를 구성하고 데이터를 더 잘 이해할 수 있습니다.
- 이 통계 방법을 사용하여 모델링 준비가 된 데이터를 정리하고 준비할 수 있습니다.
- 통계적 가설 검정 및 추정 통계는 모델 선택과 최종 모델의 기술 및 예측을 제시하는 데 도움이 될 수 있습니다.
개요
이 게시물에서는 응용 머신러닝 프로젝트에서 통계적 방법이 사용되는 10가지 예를 살펴 보겠습니다.
이는 통계에 대한 실무 지식이 예측 모델링 문제를 성공적으로 해결하는 데 필수적임을 보여줍니다.
- 문제 프레이밍
- 데이터 이해
- 데이터 정리
- 데이터 선택
- 데이터 준비
- 모델 평가
- 모델 구성
- 모델 선택
- 모델 프레젠테이션
- 모델 예측
1. 문제 프레이밍
아마도 예측 모델링 문제에서 가장 큰 영향력을 행사하는 지점은 문제의 프레이밍일 것입니다.
이것은 회귀 또는 분류와 같은 문제 유형의 선택이며, 아마도 문제에 대한 입력 및 출력의 구조와 유형입니다.
문제의 틀이 항상 명확한 것은 아닙니다. 도메인을 처음 사용하는 경우 도메인의 관찰에 대한 상당한 탐색이 필요할 수 있습니다.
기존의 관점에서 문제를 보는 데 어려움을 겪을 수 있는 도메인 전문가의 경우 여러 관점에서 데이터를 고려하는 것이 도움이 될 수 있습니다.
문제를 구성하는 동안 데이터를 탐색하는 데 도움이 될 수 있는 통계적 방법은 다음과 같습니다.
- 탐색적 데이터 분석. 데이터의 임시 보기를 탐색하기 위한 요약 및 시각화.
- 데이터 마이닝. 데이터에서 구조화된 관계 및 패턴을 자동으로 검색합니다.
2. 데이터 이해
데이터 이해는 변수의 분포와 변수 간의 관계를 자세히 파악하는 것을 의미합니다.
이 지식 중 일부는 도메인 전문 지식에서 비롯되거나 해석하기 위해 도메인 전문 지식이 필요할 수 있습니다. 그럼에도 불구하고 연구 분야의 전문가와 초보자 모두 실제로 도메인에서 실제 관찰을 처리함으로써 이익을 얻을 수 있습니다.
데이터를 이해하는 데 도움이되는 두 가지 큰 통계 방법이 사용됩니다. 그들은:
- 요약 통계. 통계적 수량을 사용하여 변수 간의 분포와 관계를 요약하는 데 사용되는 방법.
- 데이터 시각화. 차트, 플롯 및 그래프와 같은 시각화를 사용하여 변수 간의 분포 및 관계를 요약하는 데 사용되는 방법입니다.
3. 데이터 정리
도메인의 관찰은 종종 깨끗하지 않습니다.
데이터는 디지털이지만 데이터의 충실도를 손상시킬 수 있는 프로세스와 데이터를 사용하는 다운스트림 프로세스 또는 모델의 대상이 될 수 있습니다.
몇 가지 예는 다음과 같습니다.
- 데이터 손상.
- 데이터 오류.
- 데이터 손실.
데이터 문제를 식별하고 복구하는 프로세스를 데이터 정리라고 합니다.
통계 방법은 데이터 정리에 사용됩니다. 예를 들어:
- 이상값 감지. 분포의 기대값에서 멀리 떨어진 관측치를 식별하는 방법입니다.
- 전가. 관측치에서 손상되거나 누락된 값을 수정하거나 채우는 방법입니다.
4. 데이터 선택
모형화할 때 모든 관측치 또는 모든 변수가 관련이 있는 것은 아닙니다.
데이터 범위를 예측에 가장 유용한 요소로 줄이는 프로세스를 데이터 선택이라고 합니다.
데이터 선택에 사용되는 두 가지 유형의 통계 방법은 다음과 같습니다.
- 데이터 샘플. 더 큰 데이터 세트에서 더 작은 대표 샘플을 체계적으로 만드는 방법.
- 기능 선택. 결과 변수와 가장 관련이 있는 변수를 자동으로 식별하는 메서드입니다.
5. 데이터 준비
데이터는 종종 모델링에 직접 사용할 수 없습니다.
문제의 선택한 프레이밍 또는 학습 알고리즘에 더 적합하도록 데이터의 모양이나 구조를 변경하기 위해 일부 변환이 필요한 경우가 많습니다.
데이터 준비는 통계적 방법을 사용하여 수행됩니다. 몇 가지 일반적인 예는 다음과 같습니다.
- 스케일링. 표준화 및 정규화와 같은 방법.
- 인코딩. 정수 인코딩 및 하나의 핫 인코딩과 같은 메서드.
- 변환. Box-Cox 방법과 같은 전력 변환과 같은 방법.
6. 모델 평가
예측 모델링 문제의 중요한 부분은 학습 방법을 평가하는 것입니다.
이를 위해서는 모델 학습 중에 보이지 않는 데이터에 대한 예측을 수행할 때 모델의 기술을 추정해야 하는 경우가 많습니다.
일반적으로 예측 모델을 훈련하고 평가하는 이러한 프로세스를 계획하는 것을 실험 설계라고 합니다. 이것은 통계적 방법의 전체 하위 필드입니다.
- 실험 설계. 예측 정확도에 대한 머신러닝 알고리즘의 선택과 같이 결과에 대한 독립 변수의 영향을 비교하기 위한 체계적인 실험을 설계하는 방법.
실험 설계 구현의 일환으로 모델의 기술을 추정하기 위해 사용 가능한 데이터를 경제적으로 사용하기 위해 데이터 세트를 다시 샘플링하는 방법이 사용됩니다. 이 두 가지는 통계적 방법의 하위 필드를 나타냅니다.
- 리샘플링 방법. 예측 모델을 학습하고 평가하기 위해 데이터 세트를 하위 집합으로 체계적으로 분할하는 방법입니다.
7. 모델 구성
주어진 머신러닝 알고리즘에는 종종 학습 방법을 특정 문제에 맞게 조정할 수 있는 하이퍼파라미터 모음이 있습니다.
하이퍼 파라미터의 구성은 분석적이라기 보다는 본질적으로 경험적인 경우가 많으며, 다양한 하이퍼 파라미터 값이 모델의 기술에 미치는 영향을 평가하기 위해 대규모 실험이 필요합니다.
서로 다른 하이퍼 파라미터 구성 간의 결과 해석 및 비교는 통계의 두 하위 필드 중 하나를 사용하여 수행됩니다.
- 통계적 가설 테스트. 결과에 대한 가정 또는 기대가 주어지면 결과를 관찰 할 가능성을 정량화하는 방법 (임계 값과 p- 값을 사용하여 제시).
- 추정 통계. 신뢰 구간을 사용하여 결과의 불확실성을 정량화하는 방법.
8. 모델 선택
많은 머신러닝 알고리즘 중 하나가 주어진 예측 모델링 문제에 적합할 수 있습니다.
하나의 방법을 솔루션으로 선택하는 프로세스를 모델 선택이라고 합니다.
여기에는 프로젝트의 이해 관계자와 문제에 대해 평가 된 방법의 예상 기술에 대한 신중한 해석이 포함될 수 있습니다.
모델 구성과 마찬가지로 두 가지 클래스의 통계 방법을 사용하여 모델 선택을 위해 서로 다른 모델의 추정된 기술을 해석할 수 있습니다. 그들은:
- 통계적 가설 테스트. 결과에 대한 가정 또는 기대가 주어지면 결과를 관찰 할 가능성을 정량화하는 방법 (임계 값과 p- 값을 사용하여 제시).
추정 통계. 신뢰 구간을 사용하여 결과의 불확실성을 정량화하는 방법.
9. 모델 프리젠테이션
최종 모델이 학습되면 실제 데이터에 대한 실제 예측을 수행하기 위해 사용하거나 배포하기 전에 이해 관계자에게 제시할 수 있습니다.
최종 모델을 제시하는 부분에는 모델의 예상 기술을 제시하는 것이 포함됩니다.
추정 통계 분야의 방법은 허용 오차 구간 및 신뢰 구간을 사용하여 머신러닝 모델의 추정 기술의 불확실성을 정량화하는 데 사용할 수 있습니다.
- 추정 통계. 신뢰 구간을 통해 모델 기술의 불확실성을 정량화하는 방법.
10. 모델 예측
마지막으로, 실제 결과를 모르는 새로운 데이터에 대한 예측을 하기 위해 최종 모델을 사용하기 시작할 때가 올 것입니다.
예측의 일부로 예측의 신뢰도를 정량화하는 것이 중요합니다.
모델 표현 과정과 마찬가지로 추정 통계 분야의 방법을 사용하여 신뢰 구간 및 예측 구간과 같은 불확실성을 정량화 할 수 있습니다.
- 추정 통계. 예측 구간을 통해 예측에 대한 불확실성을 정량화하는 방법.
요약
이 자습서에서는 예측 모델링 프로젝트를 통해 작업하는 프로세스 전체에서 통계적 방법의 중요성을 발견했습니다.
특히 다음 내용을 배웠습니다.
- 탐색적 데이터 분석, 데이터 요약 및 데이터 시각화를 사용하여 예측 모델링 문제를 구성하고 데이터를 더 잘 이해할 수 있습니다.
- 이 통계 방법을 사용하여 모델링 준비가 된 데이터를 정리하고 준비할 수 있습니다.
- 통계적 가설 검정 및 추정 통계는 모델 선택과 최종 모델의 기술 및 예측을 제시하는 데 도움이 될 수 있습니다.