머신러닝 통계 (7일 미니 코스)

_ 2022년 11월 30일_ NEPIRITY

머신러닝 통계 (7일 미니 코스)

통계는 머신러닝에 대한 더 깊은 이해를 위한 전제 조건으로 널리 받아들여지는 수학 분야입니다.

통계학은 많은 난해한 이론과 발견이 있는 큰 분야이지만, 머신러닝 실무자에게는 현장에서 가져온 너트와 볼트 도구와 표기법이 필요합니다. 통계가 무엇인지에 대한 견고한 기초가 있으면 좋은 부분이나 관련성 있는 부분에만 집중할 수 있습니다.

이 집중 코스에서는 7일 만에 머신러닝에 사용되는 통계 방법을 시작하고 자신 있게 읽고 구현하는 방법을 알아봅니다.

이 집중 코스는 누구를 위한 것입니까?

시작하기 전에 올바른 위치에 있는지 확인합시다.

이 과정은 일부 응용 머신러닝을 알고 있을 수 있는 개발자를 위한 것입니다. 예측 모델링 문제를 종단간 또는 적어도 대부분의 주요 단계를 인기 있는 도구로 해결하는 방법을 알고 있을 수 있습니다.

이 과정의 수업은 다음과 같은 몇 가지 사항을 가정합니다.

프로그래밍을 위한 기본 파이썬에 대한 방법을 알고 있습니다.
배열 조작을 위한 기본적인 NumPy를 알고 있을 것입니다.
머신러닝에 대한 이해와 적용을 심화하기 위해 통계를 배우고 싶습니다.

다음 사항을 알 필요가 없습니다.

수학 전문가가 될 필요는 없습니다!
머신러닝 전문가가 될 필요는 없습니다!

이 속성 코스은 약간의 머신러닝을 알고 있는 개발자에서 통계 방법의 기본 사항을 탐색할 수 있는 개발자로 안내합니다.

참고 :이 속성 코스는 적어도 NumPy가 설치된 Python3 SciPy 환경이 있다고 가정합니다. 환경에 대한 도움이 필요한 경우 여기에서 단계별 자습서를 따를 수 있습니다.

집중 코스 개요

이 집중 코스는 7개의 수업으로 나뉩니다.

하루에 한 레슨을 완료하거나(권장) 하루에 모든 레슨을 완료할 수 있습니다(속성). 당신이 사용할 수 있는 시간과 열정의 수준에 달려 있습니다.

다음은 Python에서 머신러닝에 대한 통계를 시작하고 생산성을 높이는 데 도움이 되는 7가지 단원 목록입니다.

레슨 1: 통계 및 머신러닝
레슨 2: 통계 입문
레슨 3: 가우스 분포와 서술적 통계
레슨 4: 변수 간의 상관 관계
레슨 5: 통계적 가설 검정
레슨 6: 추정 통계
레슨 7: 비모수 통계량

각 수업은 60초 또는 최대 30분이 소요될 수 있습니다. 시간을 내어 자신의 진도에 맞게 수업을 완료하십시오. 아래 의견에 질문하고 결과를 게시하십시오.

수업을 통해 당신이 일하는 방법을 찾았으면 합니다. 힌트를 드리겠지만 각 강의의 요점 중 일부는 통계 방법과 NumPy API 및 Python의 도구에 대한 도움을 찾기 위해 어디로 가야 하는지 알려드리는 것입니다(힌트: 이 블로그에 모든 답변이 있습니다. 검색 상자를 사용하십시오).

참고 : 이것은 단지 속성 과정입니다. 더 자세하고 구체화 된 자습서는 “머신러닝을 위한 통계적 방법“이라는 제목의 제 책을 참조하십시오.

레슨 01: 통계 및 머신러닝

이 강의에서는 머신러닝 실무자가 통계에 대한 이해를 심화해야 하는 5가지 이유를 알아봅니다.

1. 데이터 준비의 통계

통계 방법은 머신러닝 모델에 대한 학습 및 테스트 데이터를 준비하는 데 필요합니다.

여기에는 다음을 위한 기술이 포함됩니다.

이상값 감지.
결측값 대체.
데이터 샘플링.
데이터 크기 조정.
변수 인코딩.

데이터 분포, 기술 통계 및 데이터 시각화에 대한 기본적인 이해는 이러한 작업을 수행할 때 선택할 방법을 식별하는 데 도움이 됩니다.

2. 모델 평가의 통계

학습 중에 표시되지 않는 데이터에 대한 머신러닝 모델의 기술을 평가할 때 통계적 방법이 필요합니다.

여기에는 다음을 위한 기술이 포함됩니다.

데이터 샘플링.
데이터 리샘플링.
실험 설계.

k-fold 교차 검증과 같은 리샘플링 기술은 머신러닝 실무자가 잘 이해하는 경우가 많지만 이 방법이 필요한 이유에 대한 근거는 그렇지 않습니다.

3. 모델 선택의 통계

예측 모델링 문제에 사용할 최종 모델 또는 모델 구성을 선택할 때 통계적 방법이 필요합니다.

여기에는 다음을 위한 기술이 포함됩니다.

결과 간에 유의미한 차이가 있는지 확인합니다.
결과 간의 차이의 크기를 정량화 합니다.

여기에는 통계적 가설 테스트의 사용이 포함될 수 있습니다.

4. 모델 프레젠테이션의 통계

통계적 방법은 이해 관계자에게 최종 모델의 기술을 제시할 때 필요합니다.

여기에는 다음을 위한 기술이 포함됩니다.

모델의 평균 기대 기술을 요약합니다.
실제로 모델 기술의 예상 변동성을 정량화합니다.

여기에는 신뢰 구간과 같은 추정 통계량이 포함될 수 있습니다.

5. 예측 통계

통계적 방법은 새로운 데이터에 대한 최종 모델로 예측을 할 때 필요합니다.

여기에는 다음을 위한 기술이 포함됩니다.

예측에 대한 예상 변동성을 수량화합니다.

여기에는 예측 구간과 같은 추정 통계가 포함될 수 있습니다.

목표

이 단원에서는 개인적으로 통계를 배우고 싶은 세 가지 이유를 나열해야 합니다.

아래 의견에 답변을 게시하십시오. 저는 당신이 무엇을 생각해 내는지 보고 싶습니다.

다음 단원에서는 통계의 간결한 정의를 발견하게 됩니다.

레슨 2: 통계 입문

이 단원에서는 통계의 간결한 정의를 발견하게 됩니다.

통계는 응용 머신러닝에 대한 대부분의 책과 과정의 필수 전제 조건입니다. 그러나 통계는 정확히 무엇입니까?

통계는 수학의 하위 분야입니다. 데이터로 작업하고 데이터를 사용하여 질문에 답하는 방법 모음을 나타냅니다.

이 필드는 초보자에게 크고 무정형으로 보일 수 있는 데이터 작업을 위한 여러 메서드로 구성되어 있기 때문입니다. 통계에 속하는 방법과 다른 연구 분야에 속하는 방법 사이의 경계를 보는 것은 어려울 수 있습니다.

실제로 사용하는 통계 도구에 관해서는 통계 분야를 데이터 요약을 위한 기술 통계와 데이터 샘플에서 결론을 도출하기 위한 추론 통계라는 두 가지 큰 방법 그룹으로 나누는 것이 도움이 될 수 있습니다.

기술 통계: 기술 통계는 관찰을 이해하고 공유할 수 있는 정보로 요약하는 방법을 말합니다.
추론 통계: 추론 통계는 샘플이라고 하는 더 작은 획득된 관측치 집합에서 도메인 또는 모집단의 속성을 정량화하는 데 도움이 되는 방법입니다.

목표

이 단원에서는 각 기술 및 추론 통계에 사용할 수 있는 세 가지 방법을 나열해야 합니다.

아래 의견에 답변을 게시하십시오. 저는 당신이 발견 한 것을 보고 싶습니다.

다음 단원에서는 가우스 분포와 요약 통계량을 계산하는 방법을 알아봅니다.

레슨 3: 가우스 분포와 서술적 통계

이 단원에서는 데이터에 대한 가우스 분포와 간단한 기술 통계량을 계산하는 방법을 알아봅니다.

데이터 샘플은 도메인에서 가져오거나 프로세스에 의해 생성될 수 있는 가능한 모든 관측치의 광범위한 모집단의 스냅샷입니다.

흥미롭게도 많은 관측치는 정규 분포 또는 더 공식적으로 가우스 분포라고 하는 일반적인 패턴이나 분포에 적합합니다. 당신에게 익숙한 종 모양의 분포입니다.

가우스 분포에 대해 많이 알려져 있으며, 따라서 가우스 데이터와 함께 사용할 수 있는 통계 및 통계 방법의 전체 하위 필드가 있습니다.

모든 가우스 분포와 가우스 분포에서 추출한 모든 데이터 샘플은 단 두 개의 매개 변수로 요약할 수 있습니다.

평균. 분포의 중심 경향 또는 가장 가능성이 높은 값 (종의 상단).
분산. 관측치가 분포의 평균값(산포)과 갖는 평균 차이입니다.

평균의 단위는 분포의 단위와 동일하지만 분산 단위는 제곱이므로 해석하기가 더 어렵습니다. 분산 모수에 대한 널리 사용되는 대안은 단순히 분산의 제곱근인 표준 편차로, 단위를 분포의 단위와 동일하게 반환합니다.

평균, 분산 및 표준 편차는 NumPy의 데이터 샘플에서 직접 계산할 수 있습니다.

아래 예제에서는 알려진 평균이 50이고 표준 편차가 5인 가우스 분포에서 추출한 난수100개로 구성된 샘플을 생성하고 요약 통계량을 계산합니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
# calculate summary stats
from numpy.random import seed
from numpy.random import randn
from numpy import mean
from numpy import var
from numpy import std
# seed the random number generator
seed(1)
# generate univariate observations
data = 5 * randn(10000) + 50
# calculate statistics
print(‘Mean: %.3f’ % mean(data))
print(‘Variance: %.3f’ % var(data))
print(‘Standard Deviation: %.3f’ % std(data))

예제를 실행하고 추정된 평균 및 표준 편차를 예상 값과 비교합니다.

목표

이 단원에서는 샘플 평균 계산과 같이 Python에서 하나의 설명 통계를 처음부터 계산하여 구현해야 합니다.

아래 의견에 답변을 게시하십시오. 저는 당신이 발견 한 것을 보고 싶습니다.

다음 단원에서는 두 변수 간의 관계를 정량화하는 방법을 배웁니다.

레슨 04: 변수 간의 상관 관계

이 단원에서는 상관 계수를 계산하여 두 변수 간의 관계를 정량화하는 방법을 배웁니다.

데이터 세트의 변수는 여러 가지 이유로 관련될 수 있습니다.

데이터 분석 및 모델링에서 변수 간의 관계를 더 잘 이해하는 데 유용할 수 있습니다. 두 변수 간의 통계적 관계를 상관 관계라고 합니다.

상관 관계는 양수(두 변수가 같은 방향으로 이동함을 의미)이거나 음수(한 변수의 값이 증가하면 다른 변수의 값이 감소함을 의미)일 수 있습니다.

양의 상관 관계: 두 변수가 같은 방향으로 변경됩니다.
중립 상관: 변수 변경에 관계가 없습니다.
음의 상관 관계: 변수가 반대 방향으로 변합니다.

일부 알고리즘의 성능은 둘 이상의 변수가 밀접하게 관련되어 있는 경우(다중 공선성이라고 함) 저하될 수 있습니다. 예를 들어 선형 회귀는 모델의 기술을 향상시키기 위해 문제가 되는 상관 변수 중 하나를 제거해야 합니다.

우리는 Pearson의 상관 계수라는 통계적 방법을 사용하여 두 변수의 표본 간의 관계를 정량화 할 수 있습니다. 이 방법의 개발자인 Karl Pearson의 이름을 따서 명명되었습니다.

pearsonr()NumPy 함수를 사용하여 두 변수의 표본에 대한 피어슨의 상관 계수를 계산할 수 있습니다.

전체 예는 한 변수가 두 번째 변수에 종속되는 계산을 보여주는 아래에 나열되어 있습니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
# calculate correlation coefficient
from numpy.random import seed
from numpy.random import randn
from scipy.stats import pearsonr
# seed random number generator
seed(1)
# prepare data
data1 = 20 * randn(1000) + 100
data2 = data1 + (10 * randn(1000) + 50)
# calculate Pearson’s correlation
corr, p = pearsonr(data1, data2)
# display the correlation
print(‘Pearsons correlation: %.3f’ % corr)

예제를 실행하고 계산된 상관 계수를 검토합니다.

목표

이 단원에서는 표준 머신러닝 데이터 세트를 로드하고 각 숫자 변수 쌍 간의 상관 관계를 계산해야 합니다.

아래 의견에 답변을 게시하십시오. 저는 당신이 발견 한 것을보고 싶습니다.

다음 단원에서는 통계적 가설 검정을 발견합니다.

레슨 5: 통계적 가설 검정

이 강의에서는통계적 가설 검정과 두 표본을 비교하는 방법을 알아봅니다.

의미를 더하기 위해서는 데이터를 해석해야 합니다. 우리는 결과를 특정 구조로 가정하여 데이터를 해석하고 통계적 방법을 사용하여 가정을 확인하거나 거부 할 수 있습니다.

가정을 가설이라고 하며 이 목적으로 사용되는 통계적 테스트를 통계적 가설 테스트라고 합니다.

통계적 검정의 가정을 귀무 가설 또는 가설 0(줄여서 H0)이라고 합니다. 종종 기본 가정 또는 아무것도 변경되지 않았다는 가정이라고합니다. 테스트의 가정을 위반하는 것은 종종 첫 번째 가설, 가설 1 또는 줄여서 H1이라고 합니다.

가설 0 (H0): 테스트의 가정이 유지되고 기각되지 않습니다.
가설 1 (H1) : 테스트의 가정은 성립하지 않으며 일정 수준의 유의성에서 기각됩니다.

p-값을 사용하여 통계적 가설 검정 결과를 해석할 수 있습니다.

p-값은 귀무 가설이 참인 경우 데이터를 관측할 확률입니다.

큰 확률은 H0 또는 디폴트 가정이 가능성이 있음을 의미합니다. 5% 미만(o.05)과 같은 작은 값은 가능성이 낮고 H1에 찬성하여 H0를 거부할 수 있거나 무언가가 다를 가능성이 있음을 나타냅니다(예: 유의미한 결과).

널리 사용되는 통계적 가설 검정은 두 개의 독립적인 표본의 평균값을 비교하기 위한 스튜던트 t-검정입니다.

기본 가정은 표본 간에 차이가 없다는 것이지만, 이 가정을 거부하면 몇 가지 유의한 차이가 있음을 나타냅니다. 이 검정에서는 두 표본 모두 가우스 분포에서 추출되었으며 분산이 동일하다고 가정합니다.

스튜던트 t-테스트는 ttest_ind()SciPy 함수를 통해 파이썬에서 구현할 수 있습니다.

다음은 서로 다른 것으로 알려진 두 데이터 표본에 대한 스튜던트 t-검정을 계산하고 해석하는 예입니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# student’s t-test
from numpy.random import seed
from numpy.random import randn
from scipy.stats import ttest_ind
# seed the random number generator
seed(1)
# generate two independent samples
data1 = 5 * randn(100) + 50
data2 = 5 * randn(100) + 51
# compare samples
stat, p = ttest_ind(data1, data2)
print(‘Statistics=%.3f, p=%.3f’ % (stat, p))
# interpret
alpha = 0.05
if p > alpha:
	print(‘Same distributions (fail to reject H0)’)
else:
	print(‘Different distributions (reject H0)’)

코드를 실행하고 계산된 통계량과 p-값의 해석을 검토합니다.

목표

이 강의에서는 표본 간의 차이를 확인하는 데 사용할 수 있는 세 가지 다른 통계적 가설 검정을 나열해야 합니다.

아래 의견에 답변을 게시하십시오. 저는 당신이 발견 한 것을보고 싶습니다.

다음 강의에서는 통계적 가설 검정의 대안으로 추정 통계량을 발견하게 됩니다.

레슨 6: 추정 통계

이 강의에서는 통계적 가설 검정의 대안으로 사용할 수 있는 추정 통계량을 발견합니다.

통계적 가설 검정을 사용하여 두 표본 간의 차이가 무작위 기회로 인한 것인지 여부를 나타낼 수 있지만 차이의 크기에 대해서는 언급할 수 없습니다.

“새로운 통계“라고 하는 방법 그룹은 추정 값에 대한 효과의 크기와 불확실성의 양을 정량화하기 위해 p-값 대신 또는 추가로 사용이 증가하고 있습니다. 이 통계 방법 그룹을 추정 통계라고 합니다.

추정 통계량은 세 가지 주요 방법 클래스를 설명하는 용어입니다. 메서드의 세 가지 기본
클래스는 다음과 같습니다.

효과 크기. 치료 또는 중재가 주어진 효과의 크기를 정량화하는 방법.
간격 추정. 값의 불확실성의 양을 정량화하는 방법.
메타 분석. 여러 유사한 연구에서 결과를 정량화하는 방법.

세 가지 중 응용 머신러닝에서 가장 유용한 방법은 간격 추정일 것입니다.

간격에는 세 가지 주요 유형이 있습니다. 그들은:

공차 구간: 특정 신뢰 수준이 있는 분포 비율의 한계 또는 적용 범위입니다.
신뢰 구간: 모집단 모수 추정치의 한계입니다.
예측 구간: 단일 관측치의 한계입니다.

분류 알고리즘에 대한 신뢰 구간을 계산하는 간단한 방법은 모형의 추정된 정확도 또는 오차 주위의 구간을 제공할 수 있는 이항 비율 신뢰 구간을 계산하는 것입니다.

이것은confint()Statsmodels 함수를 사용하여 파이썬에서 구현할 수 있습니다.

이 함수는 성공(또는 실패)의 개수, 총 시행 횟수 및 유의 수준을 인수로 사용하고 신뢰 구간의 하한과 상한을 반환합니다.

아래 예는 모델이 100개의 인스턴스가 있는 데이터 세트에서 88개의 올바른 예측을 수행하고 95% 신뢰 구간(함수에 0.05의 유의성으로 제공됨)에 관심이 있는 가상의 경우에 이 함수를 보여줍니다.

1
2
3
4
5
# calculate the confidence interval
from statsmodels.stats.proportion import proportion_confint
# calculate the interval
lower, upper = proportion_confint(88, 100, 0.05)
print(‘lower=%.3f, upper=%.3f’ % (lower, upper))

예제를 실행하고 추정된 정확도에 대한 신뢰 구간을 검토합니다.

목표

이 단원에서는 적용된 머신러닝에서 효과 크기를 계산하는 두 가지 방법과 이러한 방법이 유용할 수 있는 경우를 나열해야 합니다.

힌트로 변수 간의 관계와 표본 간의 차이에 대한 하나를 고려하십시오.

아래 의견에 답변을 게시하십시오. 나는 당신이 발견 한 것을보고 싶습니다.

다음 단원에서는 비모수 통계적 방법을 발견하게 됩니다.

07과: 비모수 통계량

이 강의에서는 데이터가 가우스 분포에서 나오지 않을 때 사용할 수 있는 통계적 방법을 발견합니다.

통계 및 통계 방법 분야의 상당 부분은 분포가 알려진 데이터에 전념합니다.

분포를 알 수 없거나 쉽게 식별할 수 없는 데이터를 비모수적이라고 합니다.

비모수 데이터로 작업하는 경우 분포에 대한 모든 정보를 버리는 특수 비모수 통계 방법을 사용할 수 있습니다. 따라서 이러한 방법을 종종 무배포 방법이라고 합니다.

비모수 통계 방법을 적용하려면 먼저 데이터를 순위 형식으로 변환해야 합니다. 따라서 순위 형식의 데이터를 예상하는 통계 방법을 순위 상관 관계 및 순위 통계 가설 테스트와 같은 순위 통계라고도 합니다. 순위 데이터는 이름에서 알 수 있듯이 정확합니다.

절차는 다음과 같습니다.

샘플의 모든 데이터를 오름차순으로 정렬합니다.
데이터 샘플의 각 고유 값에 대해 1에서 N 사이의 정수 순위를 할당합니다.

두 개의 독립적인 표본 간의 차이를 확인하기 위해 널리 사용되는 비모수 통계적 가설 검정은 Henry Mann과 Donald Whitney의 이름을 따서 명명된 Mann-Whitney U 검정입니다.

이는 스튜던트 t-검정과 동등한 비모수이지만 데이터가 가우스 분포에서 추출된다고 가정하지 않습니다.

테스트는 mannwhitneyu()SciPy 함수를 통해 파이썬에서 구현할 수 있습니다.

아래 예는 서로 다른 것으로 알려진 균일 분포에서 추출한 두 데이터 샘플에 대한 테스트를 보여줍니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# example of the mann-whitney u test
from numpy.random import seed
from numpy.random import rand
from scipy.stats import mannwhitneyu
# seed the random number generator
seed(1)
# generate two independent samples
data1 = 50 + (rand(100) * 10)
data2 = 51 + (rand(100) * 10)
# compare samples
stat, p = mannwhitneyu(data1, data2)
print(‘Statistics=%.3f, p=%.3f’ % (stat, p))
# interpret
alpha = 0.05
if p > alpha:
	print(‘Same distribution (fail to reject H0)’)
else:
	print(‘Different distribution (reject H0)’)

예제를 실행하고 계산된 통계량과 p-값의 해석을 검토합니다.

목표

이 강의에서는 세 가지 추가 비모수 통계 방법을 나열해야 합니다.

아래 의견에 답변을 게시하십시오. 나는 당신이 발견한 것을보고 싶습니다.

이것은 미니 코스의 마지막 수업이었습니다.

끝!

잠시 시간을내어 얼마나 멀리 왔는지 되돌아보십시오.

당신은 다음 내용을 배웠습니다.

응용 머신러닝에서 통계의 중요성.
통계의 간결한 정의와 방법의 두 가지 주요 유형으로 나눕니다.
가우스 분포와 통계를 사용하여 이 분포로 데이터를 설명하는 방법.
두 변수의 표본 간의 관계를 정량화하는 방법.
통계적 가설 검정을 사용하여 두 표본 간의 차이를 확인하는 방법.
추정 통계라고하는 통계적 가설 테스트의 대안.
데이터가 가우스 분포에서 추출되지 않은 경우에 사용할 수 있는 비모수 방법입니다.

이는 머신러닝에 대한 통계를 통한 여정의 시작에 불과합니다. 기술을 계속 연습하고 개발하십시오.

다음 단계로 나아가 머신러닝을 위한 통계적 방법에 대한 책을 확인하십시오.

Gallery

Contacts

Blog

머신러닝 통계 (7일 미니 코스)

이 집중 코스는 누구를 위한 것입니까?

집중 코스 개요

레슨 01: 통계 및 머신러닝

1. 데이터 준비의 통계

2. 모델 평가의 통계

3. 모델 선택의 통계

4. 모델 프레젠테이션의 통계

5. 예측 통계

목표

레슨 2: 통계 입문

목표

레슨 3: 가우스 분포와 서술적 통계

목표

레슨 04: 변수 간의 상관 관계

목표

레슨 5: 통계적 가설 검정

목표

레슨 6: 추정 통계

목표

07과: 비모수 통계량

목표

끝!