파이썬 데이터에서 5자리 숫자 요약을 계산하는 방법

데이터 요약은 몇 가지 통계 값만으로 데이터 샘플의 모든 값을 설명하는 편리한 방법을 제공합니다.

평균과 표준 편차는 가우스 분포로 데이터를 요약하는 데 사용되지만, 데이터 표본에 비가우스 분포가 있는 경우 의미가 없거나 오해의 소지가 있을 수도 있습니다.

이 자습서에서는 특정 데이터 분포를 가정하지 않고 데이터 샘플의 분포를 설명하기 위한 5자리 숫자 요약을 발견합니다.

이 자습서를 완료하면 다음을 알 수 있습니다.

  • 평균 및 표준 편차 계산과 같은 데이터 요약은 가우스 분포에만 의미가 있습니다.
  • 5자리 숫자 요약은 모든 분포의 데이터 표본을 설명하는 데 사용할 수 있습니다.
  • 파이썬에서 5 자리 숫자 요약을 계산하는 방법.

튜토리얼 개요

이 튜토리얼은 다음과 같이 4 부분으로 나뉩니다.

  1. 비모수 데이터 요약
  2. 5자리 숫자 요약
  3. 5 자리 요약을 계산하는 방법
  4. 5자리 요약 사용

비모수 데이터 요약

데이터 요약 기술은 몇 가지 주요 측정값을 사용하여 데이터 분포를 설명하는 방법을 제공합니다.

데이터 요약의 가장 일반적인 예는 가우스 분포를 갖는 데이터에 대한 평균 및 표준 편차의 계산입니다. 이 두 매개 변수만 있으면 데이터의 분포를 이해하고 다시 만들 수 있습니다. 데이터 요약은 적게는 수십 또는 많게는 수백만 개의 개별 관측치를 압축할 수 있습니다.

문제는 가우스 분포가 없는 데이터의 평균과 표준편차를 쉽게 계산할 수 없다는 것입니다. 기술적으로 이러한 수량을 계산할 수 있지만 데이터 분포를 요약하지는 않습니다. 사실, 그들은 매우 오해의 소지가 있습니다.

가우스 분포가 없는 데이터의 경우 5개 숫자로 구성된 요약을 사용하여 데이터 표본을 요약할 수 있습니다.


5자리 숫자 요약

5자리 요약 또는 줄여서 5자리 요약은 비모수적 데이터 요약 기술입니다.

John Tukey가 추천했기 때문에 Tukey 5 숫자 요약이라고도 합니다. 모든 분포가 있는 데이터에 대한 데이터 표본의 분포를 설명하는 데 사용할 수 있습니다.

일반적인 사용을 위한 표준 요약으로서 5자리 숫자 요약은 적절한 양의 세부 정보를 제공합니다.

— 37페이지, 강력하고 탐색적인 데이터 분석의 이해, 2000.

5자리 요약에는 5개의 요약 통계 수량 계산이 포함됩니다.

  • 중앙값: 표본의 중간 값으로, 50번째 백분위수 또는 2번째 사분위수라고도 합니다.
  • 1사분위수: 25번째 백분위수.
  • 3사분위수: 75번째 백분위수.
  • 최소값: 표본에서 가장 작은 관측치입니다.
  • 최대값: 표본에서 가장 큰 관측치입니다.

사분위수는 정렬된 데이터 샘플을 동일한 크기의 4개 부분으로 분할하는 데 도움이 되는 지점에서 관찰된 값입니다. 중앙값 또는 제 2 사분위수는 정렬된 데이터 샘플을 두 부분으로 분할하고 제1 및 제3 사분위수는 각 반쪽을 분기로 분할합니다.

백분위수는 정렬된 데이터 샘플을 동일한 크기의 부분 100개로 분할하는 데 도움이 되는 지점에서 관찰된 값입니다. 사분위수는 종종 백분위수로도 표현됩니다.

사분위수 값과 백분위수 값은 모두 분포가 있는 데이터 표본에 대해 계산할 수 있는 순위 통계량의 예입니다. 분포의 데이터가 주어진 관측 값의 뒤 또는 앞에 얼마나 많은지 빠르게 요약하는 데 사용됩니다. 예를 들어, 관측치의 절반이 분포의 중위수 뒤와 앞에 있습니다.

사분위수는 상자 및 수염 그림에서도 계산되며, 이는 데이터 표본의 분포를 그래픽으로 요약하는 비모수적 방법입니다.


5자리 요약을 계산하는 방법

5자리 요약을 계산하려면 각 사분위수에 대한 관측치와 데이터 표본에서 관측치의 최소값 및 최대값을 찾아야 합니다.

짝수의 관측치가 있고 중위수를 찾으려고 하는 경우와 같이 사분위수에 대한 정렬된 데이터 표본에 특정 값이 없는 경우 두 개의 중간 값과 같이 가장 가까운 두 값의 평균을 계산할 수 있습니다.

백분위수()NumPy 함수를 사용하여 Python에서 임의의 백분위수 값을 계산할 수 있습니다. 이 함수를 사용하여 1, 2(중앙값) 및 3번째 사분위수 값을 계산할 수 있습니다. 이 함수는 관측값 배열과 부동 소수점 값을 모두 사용하여 0에서 100 사이의 범위에서 계산할 백분위수를 지정합니다. 또한 여러 백분위수를 계산하기 위해 백분위수 값 목록을 사용할 수도 있습니다. 예를 들어:

기본적으로 이 함수는 짝수 개의 값을 가진 표본의 중앙값을 계산하는 경우와 같이 필요한 경우 관측치 간의 선형 보간(평균)을 계산합니다.

NumPy 함수 min() 및 max()를 사용하여 데이터 샘플에서 가장 작은 값과 가장 큰 값을 반환할 수 있습니다. 예를 들어:

우리는 이 모든 것을 합칠 수 있습니다.

아래 예제에서는 0과 1 사이의 균일 분포에서 추출한 데이터 샘플을 생성하고 5자리 숫자 요약을 사용하여 요약합니다.

예제를 실행하면 데이터 샘플이 생성되고 5개 숫자로 구성된 요약이 계산되어 샘플 분포를 설명합니다.

관측치의 산포가 25번째 백분위수의 경우 0.27, 50번째 백분위수의 경우 0.53, 75번째 백분위수의 경우 0.76을 나타내는 기대치에 가깝고, 각각 이상적인 값 0.25, 0.50 및 0.75에 가깝다는 것을 알 수 있습니다.


5자리 요약 사용

5개 숫자로 구성된 요약은 모든 분포의 데이터 표본에 대해 계산할 수 있습니다.

여기에는 가우스 또는 가우스와 같은 분포와 같이 알려진 분포가 있는 데이터가 포함됩니다.

항상 5 개의 숫자 요약을 계산하고 데이터가 속한 분포를 식별할 수있는 경우 가우스의 평균 및 표준 편차와 같은 분포별 요약으로 이동하는 것이 좋습니다.


확장

이 섹션에는 탐색할 수 있는 자습서를 확장하기 위한 몇 가지 아이디어가 나열되어 있습니다.

  • 기계 학습 프로젝트에서 5자리 숫자 요약을 계산할 수 있는 세 가지 예를 설명합니다.
  • 가우스 분포를 사용하여 데이터 샘플을 생성하고 5개 숫자로 구성된 요약을 계산합니다.
  • 모든 데이터 샘플에 대해 5자리 숫자 요약을 계산하는 함수를 작성합니다.

이러한 확장 기능을 탐색하면 알고 싶습니다.


추가 정보

이 섹션에서는 더 자세히 알아보려는 경우 주제에 대한 더 많은 리소스를 제공합니다.



API

기사


요약

이 자습서에서는 특정 데이터 분포를 가정하지 않고 데이터 샘플의 분포를 설명하기 위한 5자리 숫자 요약을 발견했습니다.

특히 다음 내용을 배웠습니다.

  • 평균 및 표준 편차 계산과 같은 데이터 요약은 가우스 분포에만 의미가 있습니다.
  • 5자리 숫자 요약은 모든 분포의 데이터 표본을 설명하는 데 사용할 수 있습니다.
  • 파이썬에서 5자리 숫자 요약을 계산하는 방법.
네피리티
No Comments

Sorry, the comment form is closed at this time.