통계적 샘플링 및 리샘플링에 대한 짧은 소개

데이터는 응용 머신러닝의 통화(currency)입니다. 따라서 효과적으로 수집하고 사용하는 것이 중요합니다.

데이터 샘플링은 모집단 모수를 추정할 목적으로 도메인에서 관측치를 선택하는 통계적 방법을 나타냅니다. 데이터 리샘플링은 수집된 데이터 세트를 경제적으로 사용하여 모집단 매개변수의 추정치를 개선하고 추정의 불확실성을 정량화하는 데 도움이 되는 방법을 말합니다.

데이터 샘플링과 데이터 리샘플링은 모두 예측 모델링 문제에 필요한 방법입니다.

이 자습서에서는 데이터를 수집하고 최대한 활용하기 위한 통계 샘플링 및 통계적 리샘플링 방법을 알아봅니다.

이 자습서를 완료하면 다음을 알 수 있습니다.

  • 표본 추출은 모집단 변수를 추정할 목적으로 관측치를 수집하는 능동적 프로세스입니다.
  • 리샘플링은 데이터 샘플을 경제적으로 사용하여 정확도를 개선하고 모집단 매개변수의 불확실성을 정량화하는 방법론입니다.
  • 실제로 리샘플링 방법은 중첩된 리샘플링 방법을 사용합니다.

튜토리얼 개요

이 튜토리얼은 다음과 같이 2 부분으로 나뉩니다.

  1. 통계적 샘플링
  2. 통계적 리샘플링

통계적 샘플링

데이터의 각 행은 관찰을 나타냅니다.

데이터로 작업할 때 가능한 모든 관측치에 액세스할 수 없는 경우가 많습니다. 이것은 여러 가지 이유 때문일 수 있습니다. 예를 들어:

  • 더 많은 관찰을 하는 것이 어렵거나 비용이 많이 들 수 있습니다.
  • 모든 관측치를 함께 수집하는 것은 어려울 수 있습니다.
  • 앞으로 더 많은 관찰이 이루어질 것으로 예상됩니다.

도메인에서 수행된 관측치는 도메인에서 수행할 수 있는 모든 가능한 관측치의 일부 더 광범위한 이상화되고 알려지지 않은 모집단의 표본을 나타냅니다. 이것은 관찰과 이상화된 모집단의 분리와 관계를 볼 수 있기 때문에 유용한 개념화입니다.

또한 사용 가능한 모든 데이터에 대해 빅 데이터 인프라를 사용하려는 경우에도 데이터가 여전히 이상적인 모집단의 관찰 샘플을 나타낸다는 것을 알 수 있습니다.

그럼에도 불구하고 우리는 인구의 속성을 추정하고 싶을 수 있습니다. 관측치 샘플을 사용하여 이를 수행합니다.

샘플링은 전체 인구에 대해 무언가를 추정할 수 있도록 관찰할 모집단의 일부를 선택하는 것으로 구성됩니다.

— 페이지 1,샘플링, 제3판, 2012.


샘플링 방법

통계적 표본 추출은 모집단의 특성을 추정할 목적으로 모집단에서 예제의 하위 집합을 선택하는 프로세스입니다.

샘플링은 활성 프로세스입니다. 모집단 속성을 추정하고 표본 추출이 발생하는 방식을 제어하는 목표가 있습니다. 이 컨트롤은 실험 수행과 같이 각 관측치를 생성하는 프로세스에 영향을 미치지 않습니다. 따라서 필드로서의 샘플링은 순수한 통제되지 않은 관찰과 통제된 실험 사이에 자리 잡고 있습니다.

샘플링은 일반적으로 실험에서 그 행동의 효과가 무엇인지 확인하기 위해 의도적으로 모집단의 일부를 교란한다는 점에서 밀접하게 관련된 실험 설계 분야와 구별됩니다. […] 샘플링은 또한 일반적으로 모집단에 대한 관찰을 얻은 방법을 거의 또는 전혀 통제하지 못하는 관찰 연구와 구별됩니다.

— 페이지 1-2, 샘플링, 제 3 판, 2012.

더 완전하거나 완전한 데이터 세트로 작업하는 것과 비교하여 샘플링에는 비용 절감 및 속도 향상을 포함하여 많은 이점이 있습니다.

표본 추출을 수행하려면 모집단과 데이터 표본의 일부가 될 관측치를 선택(및 불합격)하는 방법을 신중하게 정의해야 합니다. 이것은 표본을 사용하여 추정하려는 모집단 모수에 의해 매우 잘 정의될 수 있습니다.

데이터 샘플을 수집하기 전에 고려해야 할 몇 가지 측면은 다음과 같습니다.

  • 샘플 목표. 표본을 사용하여 추정할 모집단 특성입니다.
  • 인구. 이론적으로 관찰을 할 수있는 범위 또는 영역.
  • 선택 기준. 표본에서 관측치를 수용하거나 기각하는 데 사용할 방법론입니다.
  • 샘플 크기. 표본을 구성할 관측치의 수입니다.

몇 가지 분명한 질문은 샘플을 얻고 관찰하는 가장 좋은 방법과, 샘플 데이터가 준비되면 전체 모집단의 특성을 추정하는 데 가장 잘 사용하는 방법입니다. 관측치를 얻으려면 표본 크기, 표본 선택 방법, 사용할 관측 방법 및 기록할 측정값에 대한 질문이 포함됩니다.

— 페이지 1,샘플링, 제2012판.

통계 샘플링은 광범위한 연구 분야이지만 응용 머신러닝에서는 단순 무작위 샘플링, 체계적인 샘플링 및 계층화된 샘플링의 세 가지 유형의 샘플링을 사용할 수 있습니다.

  • 단순 무작위 샘플링: 샘플은 도메인에서 균일한 확률로 추출됩니다.
  • 체계적인 샘플링: 샘플은 간격과 같이 미리 지정된 패턴을 사용하여 그려집니다.
  • 계층화된 샘플링 : 샘플은 사전 지정된 범주 (예 : 계층) 내에서 그려집니다.

이러한 샘플링이 발생할 수 있는 보다 일반적인 유형이지만 다른 기술도 있습니다.


샘플링 오류

표본 추출을 위해서는 작은 관측치 집합에서 모집단에 대한 통계적 추론을 해야 합니다.

표본에서 모집단까지의 속성을 일반화할 수 있습니다. 이 추정 및 일반화 프로세스는 가능한 모든 관찰로 작업하는 것보다 훨씬 빠르지만 오류가 포함됩니다. 대부분의 경우 추정치의 불확실성을 수량화하고 신뢰 구간과 같은 오차 막대를 추가할 수 있습니다.

데이터 샘플에 오류를 도입하는 방법에는 여러가지가 있습니다.

오류의 두 가지 주요 유형에는 선택 편향과 샘플링 오류가 포함됩니다.

  • 선택 편향. 관측치를 그리는 방법이 어떤 식으로든 표본을 왜곡할 때 발생합니다.
  • 샘플링 오류입니다. 어떤 식으로든 표본을 왜곡하는 관찰을 그리는 무작위 특성으로 인해 발생합니다.

관찰 또는 측정 방식의 체계적인 오류와 같은 다른 유형의 오류가 있을 수 있습니다.

이러한 경우 이상에서 표본의 통계적 특성은 이상화된 모집단에서 예상되는 것과 다를 수 있으며, 이는 차례로 추정되는 모집단의 특성에 영향을 미칠 수 있습니다.

원시 관측치, 요약 통계 및 시각화 검토와 같은 간단한 방법은 측정 손상 및 관측치 클래스의 과대 또는 과소 표현과 같은 간단한 오류를 노출하는 데 도움이 될 수 있습니다.

그럼에도 불구하고 샘플링 할 때와 샘플링하는 동안 모집단에 대한 결론을 도출 할 때 주의를 기울여야합니다.


통계적 리샘플링

데이터 표본이 있으면 모집단 모수를 추정하는 데 사용할 수 있습니다.

문제는 인구 모수에 대한 단일 추정치만 있고 추정치의 변동성이나 불확실성에 대한 생각은 거의 없다는 것입니다.

이 문제를 해결하는 한 가지 방법은 데이터 표본에서 모집단 매개변수를 여러 번 추정하는 것입니다. 이를 리샘플링이라고 합니다.

통계적 리샘플링 방법은 사용 가능한 데이터를 경제적으로 사용하여 모집단 모수를 추정하는 방법을 설명하는 절차입니다. 결과는 모수의 보다 정확한 추정치(예: 추정치의 평균 취하기)와 추정치의 불확실성 정량화(예: 신뢰 구간 추가)일 수 있습니다.

리샘플링 방법은 사용하기가 매우 쉽고 수학적 지식이 거의 필요하지 않습니다. 선택하고 해석하기 위해 깊은 기술이 필요할 수 있는 전문 통계 방법에 비해 이해하고 구현하기 쉬운 방법입니다.

리샘플링 방법은 배우기 쉽고 적용하기 쉽습니다. 그들은 입문 고등학교 대수학 이상의 수학을 필요로 하지 않으며, 매우 광범위한 주제 영역에 적용할 수 있습니다.

— 페이지 xiii, 리샘플링 방법: 데이터 분석에 대한 실용 가이드, 2005.

이 방법의 단점은 컴퓨팅 비용이 많이 들고 모집단 매개 변수의 강력한 추정치를 개발하기 위해 수십, 수백 또는 수천 개의 재 샘플이 필요하다는 것입니다.

핵심 아이디어는 직접 또는 피팅된 모델을 통해 원본 데이터를 리샘플링하여 복제 데이터 세트를 생성하는 것이며, 이를 통해 장황하고 오류가 발생하기 쉬운 분석 계산 없이 관심 있는 분위수의 변동성을 평가할 수 있습니다. 이 접근 방식에는 많은 데이터 복제 집합으로 원래 데이터 분석 절차를 반복하는 작업이 포함되므로 컴퓨터 집약적 방법이라고도 합니다.

— 페이지 3, 부트스트랩 방법 및 적용, 1997.

원래 데이터 표본의 각 새 부분 표본은 모집단 모수를 추정하는 데 사용됩니다. 그런 다음 추정된 모집단 매개변수의 표본을 통계 도구로 고려하여 예상 값과 분산을 정량화하여 추정치의 불확실성을 측정할 수 있습니다.

통계적 샘플링 방법은 원래 샘플에서 하위 샘플을 선택하는 데 사용할 수 있습니다.

주요 차이점은 프로세스를 여러번 반복해야한다는 것입니다. 이것의 문제는 여러 하위 표본에서 공유되는 관측치로서 표본 사이에 약간의 관계가 있다는 것입니다. 이는 부분표본과 추정된 모집단 모수가 엄격하게 동일하지 않고 독립적으로 분포되어 있지 않다는 것을 의미합니다. 이는 추정된 모집단 매개변수 다운스트림의 샘플에 대해 수행된 통계 테스트, 즉 쌍을 이루는 통계 테스트가 필요할 수 있음에 영향을 미칩니다.

일반적으로 사용되는 두 가지 리샘플링 방법은 k-fold 교차 검증과 부트스트랩입니다.

  • 부트 스트랩. 샘플은 대체(동일한 샘플이 샘플에 두 번 이상 나타날 수 있음)를 사용하여 데이터 세트에서 추출되며, 데이터 샘플에 그려지지 않은 인스턴스가 테스트 세트에 사용될 수 있습니다.
  • k-폴드 교차 검증. 데이터 세트는 k 그룹으로 분할되며, 각 그룹에는 홀드아웃 테스트 세트로 사용될 기회가 주어지며 나머지 그룹은 학습 세트로 남습니다.

k-fold 교차 검증 방법은 특히 데이터의 한 하위 집합에 대해 반복적으로 훈련되고 데이터의 두 번째 보류 하위 집합에서 평가되는 예측 모델의 평가에 사용하기에 적합합니다.

일반적으로, 모델 성능을 추정하기 위한 리샘플링 기술은 유사하게 작동합니다: 샘플의 서브세트는 모델을 피팅하는데 사용되고 나머지 샘플들은 모델의 효능을 추정하는데 사용됩니다. 이 프로세스는 여러 번 반복되며 결과가 집계되고 요약됩니다. 기술의 차이는 일반적으로 하위 표본을 선택하는 방법을 중심으로 이루어집니다.

— 페이지 69,응용 예측 모델링, 2013.

부트스트랩 방법은 동일한 목적으로 사용할 수 있지만 모집단 매개 변수를 추정하기 위한 보다 일반적이고 간단한 방법입니다.


확장

이 섹션에는 탐색할 수 있는 자습서를 확장하기 위한 몇 가지 아이디어가 나열되어 있습니다.

  • 머신러닝 프로젝트에서 통계 샘플링이 필요한 두 가지 예를 나열합니다.
  • 머신러닝 프로젝트에서 통계적 리샘플링이 필요한 경우 두 가지 예를 나열합니다.
  • 중첩된 통계적 표본 추출 방법을 사용하는 리샘플링 방법을 사용하는 논문을 찾습니다(힌트: k-fold 교차 검증 및 계층화된 표본 추출).

이러한 확장 기능을 탐색하면 알고 싶습니다.


추가 정보

이 섹션에서는 더 자세히 알아보려는 경우 주제에 대한 더 많은 리소스를 제공합니다.


기사


요약

이 자습서에서는 데이터를 수집하고 최대한 활용하기 위한 통계 샘플링 및 통계 리샘플링 방법을 발견했습니다.

특히 다음 내용을 배웠습니다.

  • 표본 추출은 모집단 변수를 추정하기 위한 관측치를 수집하는 능동적 프로세스입니다.
  • 리샘플링은 데이터 샘플을 경제적으로 사용하여 정확도를 개선하고 모집단 매개변수의 불확실성을 정량화하는 방법론입니다.
  • 실제로 리샘플링 방법은 중첩된 리샘플링 방법을 사용합니다.

네피리티
No Comments

Sorry, the comment form is closed at this time.