머신러닝을 위한 이산확률 분포

23 11월

머신러닝을 위한 이산확률 분포

by Nepirity

in Technology

Comments

이산 확률 변수에 대한 확률은 이산확률 분포로 요약할 수 있습니다.

이산 확률 분포는 머신러닝, 특히 이진 및 다중 클래스 분류 문제의 모델링 뿐만 아니라 신뢰 구간 계산과 같은 이진 분류 모델의 성능 평가 및 자연어 처리를 위한 텍스트의 단어 분포 모델링에도 사용됩니다.

이산 확률 분포에 대한 지식은 분류 작업을 위한 딥러닝 신경망의 출력 계층에서 활성화 함수를 선택하고 적절한 손실 함수를 선택하는 데에도 필요합니다.

이산 확률 분포는 응용 머신러닝에서 중요한 역할을 하며 실무자가 알아야 하는 몇 가지 분포가 있습니다.

이 자습서에서는 머신러닝에 사용되는 이산 확률 분포를 알아봅니다.

이 자습서를 완료하면 다음을 알 수 있습니다.

이산 확률 변수에 대한 결과의 확률은 이산 확률 분포를 사용하여 요약할 수 있습니다.
단일 이항 결과에는 베르누이 분포가 있고 이진 결과 시퀀스에는 이항 분포가 있습니다.
단일 범주형 결과에는 다항 분포가 있고 범주형 결과의 시퀀스에는 다항 분포가 있습니다.

튜토리얼 개요

이 자습서는 다음과 같이 다섯 부분으로 나뉩니다.

이산 확률 분포
베르누이 분포
이항 분포
멀티놀리 분포
다항 분포

이산 확률 분포

랜덤 변수는 랜덤 공정에 의해 생성된 양입니다.

이산 확률 변수는 특정 결과의 유한 집합 중 하나를 가질 수 있는 확률 변수입니다. 머신러닝에서 가장 일반적으로 사용되는 두 가지 유형의 이산 확률 변수는 이진 변수와 범주형입니다.

이진 랜덤 변수: {0, 1}의 x
범주형 랜덤 변수: {1, 2, …, K}의 x.

이진 확률 변수는 유한 결과 집합이 {0, 1}에 있는 이산 확률 변수입니다. 범주형 랜덤 변수는 유한 결과 집합이 {1, 2, …, K}에 있는 이산 랜덤 변수이며,여기서 K는 고유한 결과의 총 수입니다.

이산 확률 변수에 대한 각 결과 또는 사건에는 확률이 있습니다.

이산 확률 변수에 대한 사건과 확률 간의 관계를 이산 확률 분포라고 하며 확률 질량 함수(줄여서 PMF)로 요약됩니다.

순서를 지정할 수 있는 결과의 경우 주어진 값보다 작거나 같은 사건의 확률은 누적 분포 함수 또는 줄여서 CDF로 정의됩니다. CDF의 역수를 백분율-포인트 함수라고 하며 확률보다 작거나 같은 이산 결과를 제공합니다.

PMF: 확률 질량 함수는 주어진 결과의 확률을 반환합니다.
CDF: 누적 분포 함수는 주어진 결과보다 작거나 같은 값의 확률을 반환합니다.
PPF: 퍼센트 포인트 함수는 주어진 확률보다 작거나 같은 불연속 값을 반환합니다.

일반적인 이산 확률 분포가 많이 있습니다.

가장 일반적인 것은 각각 이항 및 범주형 이산 확률 변수에 대한 베르누이 분포와 다항 분포, 그리고 각각을 여러 독립 시행으로 일반화하는 이항 및 다항 분포입니다.

이항 확률 변수: 베르누이 분포
이항 확률 변수의 시퀀스: 이항 분포
범주형 랜덤 변수: 다중성 분포
범주형 랜덤 변수의 시퀀스: 다항 분포

다음 섹션에서는 이러한 각 배포판을 차례로 자세히 살펴보겠습니다.

분석할 수 있는 추가적인 이산 확률 분포가 있는데, 여기에는 포아송 분포와 이산 균일 분포가 포함됩니다.

베르누이 분포

Bernoulli분포는 사건의 이진 결과가 0 또는 1인 경우를 다루는 이산 확률 분포입니다.

{0, 1}의 x

“베르누이 시험“은 결과가 베르누이 분포를 따르는 실험 또는 사례입니다. 분포와 시험은 스위스 수학자Jacob Bernoulli의 이름을 따서 명명되었습니다.

베르누이 시험의 몇 가지 일반적인 예는 다음과 같습니다.

앞면(0) 또는 뒷면(1) 결과가 있을 수 있는 동전의 단일 던지기입니다.
소년(0) 또는 소녀(1)의 단일 출생.

머신러닝에서 Bernoulli 시도의 일반적인 예는 단일 예제를 첫 번째 클래스(0) 또는 두 번째 클래스(1)로 이진 분류하는 것일 수 있습니다.

분포는 결과 1의 확률을 정의하는 단일 변수p로 요약할 수 있습니다. 이 매개 변수가 주어지면 각 이벤트의 확률은 다음과 같이 계산할 수 있습니다.

P (x = 1) = p
P (x = 0) = 1 – p

공정한 동전을 뒤집는 경우p의 값은 0.5가되어 각 결과의 확률이 50 %입니다.

이항 분포

여러 번의 독립적 인 베르누이 시험의 반복을 베르누이 과정이라고합니다.

베르누이 과정의 결과는 이항 분포를 따릅니다. 따라서 베르누이 분포는 단일 시행이 있는 이항 분포가 됩니다.

베르누이 과정의 몇 가지 일반적인 예는 다음과 같습니다.

일련의 독립적 인 동전 던지기.
독립적인 출생의 순서.

이진 분류 문제에 대한 머신러닝 알고리즘의 성능은 Bernoulli 프로세스로 분석할 수 있으며, 여기서 테스트 세트의 예제에 대한 모델의 예측은 Bernoulli 시도 (정확하거나 잘못됨)입니다.

이항 분포는 주어진 수의 베르누이 시행k의 성공 횟수를 각 시행p에 대해 주어진 성공 확률과 함께 요약합니다.

성공 확률이 30% 또는 P(x=1) = 0.3이고 총 시행 횟수가 100(k=100)인 베르누이 과정을 통해 이를 증명할 수 있습니다.

무작위로 생성된 케이스로 Bernoulli 프로세스를 시뮬레이션하고 주어진 시행 횟수에 대한 성공 횟수를 계산할 수 있습니다. 이것은 이항() NumPy 함수를 통해 달성할 수 있습니다. 이 함수는 총 시행 횟수와 성공 확률을 인수로 사용하고 하나의 시뮬레이션에 대해 시행 전체에서 성공한 결과 수를 반환합니다.

1
2
3
4
5
6
7
8
# example of simulating a binomial process and counting success
from numpy.random import binomial
# define the parameters of the distribution
p = 0.3
k = 100
# run a single simulation
success = binomial(k, p)
print(‘Total Success: %d’ % success)

선택한 매개 변수 (k * p 또는 100 * 0.3)가 주어지면 100 건 중 30 건이 성공할 것으로 예상합니다.

코드가 실행될 때마다 100번의 시행으로 구성된 다른 무작위 시퀀스가 생성되므로 특정 결과가 달라집니다. 예제를 몇 번 실행해 보십시오.

이 경우 예상되는 30번의 성공적인 시도보다 약간 적은 결과를 얻을 수 있음을 알 수 있습니다.

1
Total Success: 28

이 분포의 순간, 특히binom.stats() SciPy 함수를 사용하여 기대값 또는 평균과 분산을 계산할 수 있습니다.

1
2
3
4
5
6
7
8
# calculate moments of a binomial distribution
from scipy.stats import binom
# define the parameters of the distribution
p = 0.3
k = 100
# calculate moments
mean, var, _, _ = binom.stats(k, p, moments=‘mvsk’)
print(‘Mean=%.3f, Variance=%.3f’ % (mean, var))

예제를 실행하면 예상대로 분포의 기대값 (30)과 제곱근을 계산하면 약 4.5의 표준 편차가되는 21의 분산이보고됩니다.

1
Mean=30.000, Variance=21.000

확률 질량 함수를 사용하여 10, 20, 30에서 100과 같은 일련의 시행에 대해 서로 다른 수의 성공적인 결과의 가능성을 계산할 수 있습니다.

30개의 성공적인 결과가 가장 높은 확률을 가질 것으로 예상합니다.

1
2
3
4
5
6
7
8
9
10
# example of using the pmf for the binomial distribution
from scipy.stats import binom
# define the parameters of the distribution
p = 0.3
k = 100
# define the distribution
dist = binom(k, p)
# calculate the probability of n successes
for n in range(10, 110, 10):
	print(‘P of %d success: %.3f%%’ % (n, dist.pmf(n)*100))

예제를 실행하면 이항 분포가 정의되고 [10, 100]의 각 성공 결과 수에 대한 확률이 10개 그룹으로 계산됩니다.

확률에 100을 곱하여 백분율을 제공하며 30개의 성공적인 결과가 약 8.6%로 가장 높은 확률을 갖는 것을 볼 수 있습니다.

1
2
3
4
5
6
7
8
9
10
P of 10 success: 0.000%
P of 20 success: 0.758%
P of 30 success: 8.678%
P of 40 success: 0.849%
P of 50 success: 0.001%
P of 60 success: 0.000%
P of 70 success: 0.000%
P of 80 success: 0.000%
P of 90 success: 0.000%
P of 100 success: 0.000%

한 번의 시행에 대한 성공 확률이 30%라고 가정하면 100번의 시행 중 50회 이하의 성공 확률은 100%에 가까울 것으로 예상합니다. 아래에 설명 된 누적 분포 함수로이를 계산할 수 있습니다.

1
2
3
4
5
6
7
8
9
10
# example of using the cdf for the binomial distribution
from scipy.stats import binom
# define the parameters of the distribution
p = 0.3
k = 100
# define the distribution
dist = binom(k, p)
# calculate the probability of <=n successes
for n in range(10, 110, 10):
	print(‘P of %d success: %.3f%%’ % (n, dist.cdf(n)*100))

예제를 실행하면 [10, 100]의 각 성공 횟수가 10개 그룹으로 표시되고 100번의 시행 이상에서 해당 성공 또는 그 이하의 성공을 달성할 확률이 출력됩니다.

예상대로 50회 이하의 성공 후에는 이 분포에서 발생할 것으로 예상되는 성공의 99.999%를 포함합니다.

1
2
3
4
5
6
7
8
9
10
P of 10 success: 0.000%
P of 20 success: 1.646%
P of 30 success: 54.912%
P of 40 success: 98.750%
P of 50 success: 99.999%
P of 60 success: 100.000%
P of 70 success: 100.000%
P of 80 success: 100.000%
P of 90 success: 100.000%
P of 100 success: 100.000%

멀티놀리 분포

범주형 분포라고도 하는 다중성 분포는 사건이 K개의 가능한 결과 중 하나를 갖는 경우를 다룹니다.

x in {1, 2, 3, …, K}

베르누이 분포를 이항 변수에서 범주형 변수로 일반화한 것으로, 베르누이 분포에 대한 케이스K의 수는 2,K=2로 설정됩니다.

멀티누이 분포를 따르는 일반적인 예는 다음과 같습니다.

{1, 2, 3, 4, 5, 6}의 결과를 갖는 주사위의 단일 롤(예: K=6).

머신러닝에서 Multinoulli 분포의 일반적인 예는 단일 예제를K클래스 중 하나로 다중 클래스 분류하는 것입니다(예: 홍채 꽃의 세 가지 다른 종 중 하나).

분포는p1에서pK까지의 K 변수로 요약할 수 있으며, 각 변수는 1에서K까지의 주어진 범주형 결과의 확률을 정의하고 모든 확률의 합이 1.0입니다.

P (x = 1) = p1
P (x = 2) = p1
P (x = 3) = p3
…
P (x = K) = pK

단일 주사위 롤의 경우 각 값에 대한 확률은 1/6 또는 약 0.166 또는 약 16.6%입니다.

다항 분포

여러 개의 독립적인 다중구 시험의 반복은 다항 분포를 따릅니다.

다항 분포는 결과가 K개인 이산 변수에 대한 이항 분포의 일반화입니다.

다항 프로세스의 예에는 일련의 독립적인 주사위 굴림이 포함됩니다.

다항 분포의 일반적인 예는 자연어 처리 분야의 텍스트 문서에서 단어의 발생 횟수입니다.

다항 분포는K개의 결과가 있는 이산 랜덤 변수, p1에서 pK까지의 각 결과에 대한 확률 및k개의 연속 시행으로 요약됩니다.

동일한 확률(p=33.33%)과 100번의 시행을 가진 3개의 범주(K=3)가 있는 작은 예를 통해 이를 입증할 수 있습니다.

첫째, multinomial() NumPy 함수를 사용하여 100개의 독립적인 시행을 시뮬레이션하고 이벤트가 주어진 각 범주에서 발생한 횟수를 요약할 수 있습니다. 이 함수는 시행 횟수와 각 범주의 확률을 모두 목록으로 사용합니다.

전체 예제는 다음과 같습니다.

1
2
3
4
5
6
7
8
9
10
# example of simulating a multinomial process
from numpy.random import multinomial
# define the parameters of the distribution
p = [1.0/3.0, 1.0/3.0, 1.0/3.0]
k = 100
# run a single simulation
cases = multinomial(k, p)
# summarize cases
for i in range(len(cases)):
	print(‘Case %d: %d’ % (i+1, cases[i]))

각 카테고리에는 약 33개의 이벤트가 있을 것으로 예상합니다.

예제를 실행하면 각 사례와 이벤트 수가 보고됩니다.

코드가 실행될 때마다 100번의 시행으로 구성된 다른 무작위 시퀀스가 생성되므로 특정 결과가 달라집니다. 예제를 몇 번 실행해 보십시오.

이 경우 최고 37건, 최저 30건으로 확산됩니다.

1
2
3
Case 1: 37
Case 2: 33
Case 3: 30

100번의 시행이라는 이상적인 사례가 사건 1, 2 및 3에 대해 각각 33, 33 및 34건의 사례로 이어질 것으로 예상할 수 있습니다.

확률 질량 함수 또는 multinomial.pmf() SciPy 함수를 사용하여 실제로 이 특정 조합이 발생할 확률을 계산할 수 있습니다.

전체 예제는 다음과 같습니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
# calculate the probability for a given number of events of each type
from scipy.stats import multinomial
# define the parameters of the distribution
p = [1.0/3.0, 1.0/3.0, 1.0/3.0]
k = 100
# define the distribution
dist = multinomial(k, p)
# define a specific number of outcomes from 100 trials
cases = [33, 33, 34]
# calculate the probability for the case
pr = dist.pmf(cases)
# print as a percentage
print(‘Case=%s, Probability: %.3f%%’ % (cases, pr*100))

예제를 실행하면 각 이벤트 유형에 대해 이상화된 [33, 33, 34]의 사례 수에 대해 1% 미만의 확률이 보고됩니다.

1
Case=[33, 33, 34], Probability: 0.813%

추가 정보

이 섹션에서는 더 자세히 알아보려는 경우 주제에 대한 더 많은 리소스를 제공합니다.

책

제 2 장 : 확률 분포, 패턴 인식 및 머신러닝, 2006.
섹션 3.9 : 공통 확률 분포, 딥 러닝, 2016.
섹션 2.3 : 몇 가지 일반적인 이산 분포, 머신러닝 : 확률론적 관점, 2012.

API

기사

요약

이 자습서에서는 머신러닝에 사용되는 이산 확률 분포를 발견했습니다.

특히 다음 내용을 배웠습니다.

이산 확률 변수에 대한 결과의 확률은 이산 확률 분포를 사용하여 요약할 수 있습니다.
단일 이항 결과에는 베르누이 분포가 있고 이진 결과 시퀀스에는 이항 분포가 있습니다.
단일 범주형 결과에는 다항 분포가 있고 범주형 결과의 시퀀스에는 다항 분포가 있습니다.

Tags:

Machine learning,Probability distributions