결합 확률, 한계 확률, 조건부 확률에 대한 직관을 개발하는 법

21 11월

결합 확률, 한계 확률, 조건부 확률에 대한 직관을 개발하는 법

by Nepirity

in Technology

Comments

단일 확률 변수에 대한 확률은 간단하지만 두 개 이상의 변수를 고려할 때 복잡해질 수 있습니다.

우리는 다음과 같은 확률에 대해 관심을 갖게 될 수 있습니다.

결합 확률 : 두 개의 동시 사건에 대한 확률
조건부 확률 : 다른 사건의 발생을 감안할 때 한 사건의 확률
주변 확률 : 다른 변수에 관계없이 일어나는 사건의 확률

이러한 유형의 확률은 정의하기 쉽지만 직관적으로 이해하는 데는 시간이 걸리므로 실제 작업된 사례를 들여다볼 필요가 있습니다.

이 튜토리얼에서는 결합, 한계 및 조건부 확률을 계산하는 직관을 얻게 될 것입니다.

이 자습서를 완료하면 다음을 알 수 있습니다.

독립 확률 변수에 대한 합동 확률, 주변 확률 및 조건부 확률을 계산하는 방법.
결합 확률 변수에서 관측값을 수집하고 결합 확률표를 구성하는 방법.
결합 확률표에서 결합 확률, 주변 확률 및 조건부 확률을 계산하는 방법.

튜토리얼 개요

이 자습서는 다음과 같이 세 부분으로 나뉩니다.

결합 확률, 주변 확률 및 조건부 확률
두 개의 주사위를 굴릴 확률
두 도시의 날씨 확률

결합 확률, 주변 확률 및 조건부 확률

확률 계산은 단일 확률 변수로 작업할 때 비교적 간단합니다.

많은 실제 상황에서 종종 하는 것처럼 두 개 이상의 확률 변수를 고려할 때 더 흥미로워집니다.

두 개 (또는 그 이상)의 확률 변수로 작업 할 때 계산할 수 있는 세 가지 주요 유형의 확률이 있습니다.

간단히 말해서 다음과 같습니다.

결합 확률. 동시 이벤트의 확률.
주변 확률. 다른 변수와 무관한 사건의 확률입니다.
조건부 확률. 다른 사건의 존재가 주어진 사건의 확률.

이러한 다양한 유형의 확률의 의미와 계산은 두 확률 변수가 독립적(단순)인지 종속적인지(더 복잡한)에 따라 달라집니다.

작업 예제를 통해 이러한 세 가지 유형의 확률을 계산하고 해석하는 방법을 살펴보겠습니다.

다음 섹션에서는 두 주사위를 독립적으로 굴리는 케이스를 살펴보고 다음 섹션에서는 지리적으로 가까운 두 도시의 기상 현상 발생을 살펴 보겠습니다.

두 개의 주사위를 굴릴 확률

결합 및 주변 확률을 탐색하기 위한 좋은 출발점은 계산이 매우 간단하므로 독립 확률 변수를 고려하는 것입니다.

공정한 주사위를 굴리면 1에서 6까지의 숫자가 나올 확률은 6분의 1(1/6) 또는 0.166(16.666%)입니다.

P (주사위 1 = 1) = 1/6
P (주사위 1 = 2) = 1/6
P (주사위 1 = 3) = 1/6
P (주사위 1 = 4) = 1/6
P (주사위 1 = 5) = 1/6
P (주사위 1 = 6) = 1/6

두 번째 주사위를 굴리면 해당 주사위의 각 값에 대해 동일한 확률을 얻습니다. 주사위의 각 이벤트는 동일한 확률을 가지며 주사위1과 주사위2의 굴림은 서로 영향을 미치지 않습니다.

P(주사위1={1,2,3,4,5,6}) = 1.0
P(주사위2={1,2,3,4,5,6}) = 1.0

먼저 다음과 같이 주사위1에 대해 짝수를 굴릴 확률을 2, 4 또는 6을 굴릴 확률의 합으로 계산할 수 있습니다.

P(주사위1={2, 4, 6}) = P(주사위1=2) + P(주사위1=4) + P(주사위1=6)
P(주사위1={2, 4, 6}) = 1/6 + 1/6 + 1/6

이것은 직관적으로 예상할 수 있는 0.5 또는 50%입니다.

이제 두 주사위를 동시에 짝수로 굴리는 결합 확률을 고려할 수 있습니다. 독립 확률 변수에 대한 결합 확률은 다음과 같이 계산됩니다.

P (A 및 B) = P (A) * P (B)

이것은 주사위1에 대해 짝수를 굴릴 확률에 주사위2에 대해 짝수를 굴릴 확률을 곱한 값으로 계산됩니다. 첫 번째 사건의 확률은 두 번째 사건의 확률을 제한합니다.

P(주사위1={2, 4, 6} and 주사위2={2, 4, 6}) = P(주사위1={2, 4, 6}) * P(주사위2={2, 4, 6})

각 주사위를 짝수로 굴릴 확률은 0.5이므로 두 개의 짝수를 굴릴 확률은 3/6 또는 0.5입니다. 이를 연결하면 0.5 * 0.5 (0.25) 또는 25 %가됩니다.

이것을 보는 또 다른 방법은 하나의 주사위를 굴리면 6개의 조합이 제공된다는 점을 고려하는 것입니다. 두 개의 주사위를 함께 굴리면 주사위1의 6가지 조합 또는 (6×6) 36개의 조합 각각에 대해 주사위2에 대해 6개의 조합이 제공됩니다. 주사위1의 6개 조합 중 총 3개는 짝수이고 6개의 조합 중 3개는 짝수입니다. 그러면 36개의 조합 중 (3×3) 9개가 각 주사위의 짝수 또는 (9/36 = 0.25) 25%가 됩니다.

팁: 이산 이벤트가 있는 독립 변수로 작업할 때 확률 계산이 의심스러우면 조합의 관점에서 생각하면 상황이 다시 이해될 것입니다.

도메인에 대한 지식을 기반으로 결합 확률 테이블을 구성할 수 있습니다. 전체 표는 위쪽(x축)에 주사위1이 있고 측면(y축)에 주사위2가 있는 아래에 나열되어 있습니다. 주어진 셀에 대한 각 사건의 결합 확률은 결합 확률 공식을 사용하여 계산됩니다(예: 0.166 * 0.166 또는 0.027 또는 약 2.777%).

1
2
3
4
5
6
7
   1      2      3      4      5      6
1  0.027  0.027  0.027  0.027  0.027  0.027
2  0.027  0.027  0.027  0.027  0.027  0.027
3  0.027  0.027  0.027  0.027  0.027  0.027
4  0.027  0.027  0.027  0.027  0.027  0.027
5  0.027  0.027  0.027  0.027  0.027  0.027
6  0.027  0.027  0.027  0.027  0.027  0.027

이 표는 두 확률 변수 주사위1과 주사위2의 사건에 대한 결합 확률 분포를 캡처합니다. 꽤 지루하지만 독립 변수의 결합 및 주변 확률에 대한 이해를 높이는 데 사용할 수 있습니다.

예를 들어, 2를 주사위1로 굴리고 2를 주사위2로 굴릴 합동 확률은 표에서 2.777%로 직접 읽을 수 있습니다. 주사위1로 2를 굴리고 주사위2로 홀수를 굴리는 것과 같은 보다 정교한 경우를 탐색할 수 있습니다.

이것은 주사위1로 2를 굴리기 위한 두 번째 열의 값과 주사위2로 홀수를 굴리기 위한 첫 번째, 세 번째 및 다섯 번째 행의 값을 합산하는 것으로 읽을 수 있습니다.

P(주사위1=2, 주사위2={1,3,5}) = 0.027 + 0.027 + 0.027

이것은 약 0.083 또는 약 8.333 %로 나옵니다.

이 표를 사용하여 주변 확률을 계산할 수도 있습니다. 이것은 주사위1에 대한 전체 확률 열 또는 주사위2에 대한 확률 행의 합으로 계산됩니다.

예를 들어, 주사위2를 사용하여 6을 굴릴 주변 확률을 테이블의 마지막 행에 걸친 확률의 합으로 계산할 수 있습니다. 이것은 우리가 직관적으로 예상할 수 있는 약 0.166 또는 16.666%로 나옵니다.

중요한 것은 테이블의 모든 셀에 대한 확률을 합산하면 1.0과 같아야 한다는 것입니다. 또한 각 행의 확률을 합산하면 이러한 합계의 합은 1.0과 같아야 합니다. 각 열의 확률을 합산하면 이 합계의 합도 1.0과 같아야 합니다. 이것은 결합 확률 테이블에 대한 요구 사항입니다.

사건이 독립적이기 때문에 조건부 확률을 계산하는 데 특별한 것은 필요하지 않습니다.

P (A 주어진 B) = P (A)

예를 들어, 주사위1로 2를 굴릴 확률은 주사위2로 굴린 것에 관계없이 동일합니다.

P (주사위 1 = 2 주어진 주사위 2 = 6) = P (주사위 1 = 2)

이런 식으로 조건부 확률은 독립 확률 변수에 유용한 의미를 갖지 않습니다.

결합 확률표를 개발하는 것은 결합 및 주변 확률을 계산하고 탐색하는 방법을 더 잘 이해하는 데 유용한 도구입니다.

다음 섹션에서는 종속 확률 변수가 있는 더 복잡한 예를 살펴보겠습니다.

두 도시의 날씨 확률

우리는 두 종속 확률 변수에 대한 사건의 결합 확률 테이블을 사용하여 결합 및 주변 확률에 대한 직관을 개발할 수 있습니다.

도시 1과도시 2의 두 도시가있는 상황을 고려하십시오. 도시는 일반적으로 같은 날씨의 영향을 받을 만큼 충분히 가깝지만 동일한 날씨를 얻지 못할 만큼 충분히 멀리 떨어져 있습니다.

주어진 날에 이러한 도시에 대한 개별 날씨 분류를 고려할 수 있습니다(예: 맑음, 흐림,비). 도시1에서 맑을 때 도시2에서는 일반적으로 맑지만 항상 그런 것은 아닙니다. 따라서 두 도시의 날씨 사이에는 의존성이 있습니다.

이제 다양한 유형의 확률을 살펴보겠습니다.

데이터 수집

첫째, 20 일 동안 각 도시에서 관찰 된 날씨를 기록 할 수 있습니다.

예를 들어, 1 일째에 각각의 날씨, 2 일 등의 날씨가 어땠습니까?

1
2
3
4
5
Day | City1 | City2
1     Sunny   Sunny
2     Sunny   Cloudy
3
…

전체 결과 표는 간결성을 위해 생략되며 나중에 합계를 구성합니다.

그런 다음 관찰된 쌍을 이루는 이벤트의 총 수의 합계를 계산할 수 있습니다.

예를 들어, 도시1에서 맑고 도시2에서 맑은 총 횟수, 도시1에서 맑음, 도시2에서 흐린 총 횟수 등입니다.

1
2
3
4
5
City 1 | City 2 | Total
sunny    sunny    6/20
sunny    cloudy   1/20
sunny    rainy    0/20
…

다시 말하지만, 전체 테이블은 간결함을 위해 생략되며 나중에 합계를 구성합니다.

이 데이터는 두 도시의 기상 현상 확률을 조사하기위한 기초를 제공합니다.

결합 확률

첫째, 우리는 각 도시의 기상 현상 확률에 관심이있을 수 있습니다.

쌍을 이루거나 공동 기상 이벤트의 확률을 포함하는 테이블을 만들 수 있습니다.

아래 표는 두 도시에 대한 각 개별 날씨의 확률을 요약한 것으로, city1은 위쪽(x축)에 걸쳐 정의되고 city2는 측면(y축)에 걸쳐 정의됩니다.

1
2
3
4
          Sunny | Cloudy | Rainy
Sunny     6/20    2/20     0/20
Cloudy    1/20    5/20     2/20
Rainy     0/20    1/20     3/20

표의 셀은 각 도시에서 발생한 사건의 결합 확률을 설명하며, 표의 확률은 함께 두 도시에 대한 기상 사건의 결합 확률 분포를 요약합니다.

표의 모든 셀에 대한 결합 확률의 합은 1.0과 같아야 합니다.

두 도시의 날씨에 대한 결합 확률을 계산할 수 있습니다. 예를 들어, 우리는 두 도시에서 동시에 맑을 확률이 높을 것으로 예상합니다. 이것은 공식적으로 다음과 같이 말할 수 있습니다.

P (도시 1 = 맑음 및 도시 2 = 맑음)

또는 더 간결하게 :

P(맑음, 맑음)

우리는 이것을 테이블에서 6/20 또는 0.3 또는 30%로 직접 읽을 수 있습니다. 상대적으로 높은 확률입니다.

우리는 이것을 한 단계 더 나아가 첫 번째 도시에서는 비가 오지 않지만 두 번째 도시에서는 비가 올 확률을 고려할 수 있습니다. 우리는 이것을 다음과 같이 말할 수 있습니다 :

P(도시1=맑음 또는 흐림 및 도시2=비)

다시 말하지만, 우리는 이것을 테이블에서 직접 계산할 수 있습니다. 첫째, P (맑음, 비)는 0/20이고 P (흐림, 비)는 1/20입니다. 그런 다음 이러한 확률을 더하여 1/20 또는 0.05 또는 5%를 제공할 수 있습니다. 일어날 수 있지만 그럴 가능성은 없습니다.

이 표는 또한 이벤트의 한계 분포에 대한 아이디어를 제공합니다. 예를 들어, 도시 2에서 일어나는 일에 관계없이 도시 1에서 맑은 날이 올 확률에 관심이있을 수 있습니다. 이것은 맑은 것에 대한 city1의 확률을 합산하여 표에서 읽을 수 있습니다 (예 : 확률의 첫 번째 열).

P(도시1=맑음) = P(도시1=맑음, 도시2=맑음) + P(도시1=맑음, 도시2=흐림) + P(도시1=맑음, 도시2=비)

또는

P(도시1=맑음) = 6/20 + 1/20 + 0/20
P(도시1=맑음) = 7/20

따라서 city1에서 맑은 날의 주변 확률은 0.35 또는 35%입니다.

city2에 대해서도 동일한 작업을 수행할 수 있으며, 일부 또는 모든 확률에 대한 이벤트의 주변 확률을 연속으로 계산할 수 있습니다. 예를 들어, city2에서 비오는 날의 확률은 표의 맨 아래 행에 따른 확률의 합으로 계산됩니다.

P(도시2=비) = 0/20 + 1/20 + 3/20
P(도시2=비) = 4/20

따라서 city2에서 비오는 날의 주변 확률은 0.2 또는 20%입니다.

주변 확률은 종종 흥미롭고 유용하며, 이를 포함하도록 결합 확률 표를 업데이트하는 것이 좋습니다. 예를 들어:

1
2
3
4
5
          Sunny | Cloudy | Rainy | Marginal
Sunny     6/20    2/20     0/20    8/20
Cloudy    1/20    5/20     2/20    8/20
Rainy     0/20    1/20     3/20    4/20
Marginal  7/20    8/20     5/20    20/20

조건부 확률

우리는 다른 도시에서 기상 현상이 발생했을 때 기상 현상의 확률에 관심이있을 수 있습니다.

이를 조건부 확률이라고하며 결합 및 주변 확률을 사용하여 계산할 수 있습니다.

P (A 주어진 B) = P (A 및 B) / P (B)

예를 들어, 도시 2에서 맑은 경우 도시 1에서 맑을 확률에 관심이 있을 수 있습니다.

이것은 공식적으로 다음과 같이 말할 수 있습니다.

P(도시1=맑음 주어진 도시2=맑음) = P(도시1=맑음, 도시2=맑음) / P(도시2=맑음)

이전 섹션의 표에서 공동 및 주변 확률을 채울 수 있습니다. 예를 들어:

P(도시1=맑음 주어진 도시2=맑음) = 6/20 / 8/20
P (도시 1 = 맑음 주어진 도시 2 = 맑음) = 0.3 / 0.4

이것은 0.75 또는 75%로 나오며 직관적입니다. 우리는 도시 2에서 맑은 경우 도시 1도 대부분의 시간 동안 맑을 것으로 예상합니다.

이것은 주어진 날에 두 도시에서 맑을 확률이 30%로 낮은 결합 확률과 다릅니다.

조합 수의 관점에서 고려하면 더 의미가 있습니다. 이 조건부 사례에 대한 추가 정보가 있으므로 20일 동안의 확률을 계산할 필요가 없습니다. 특히, 우리는 city2에서 맑은 날이라고 가정하고 있으며, 이는 일수를 20에서 8로 크게 줄입니다. 도시 2에서 맑은 날 중 총 6 일은 도시 1에서도 맑았으며 분수 6/8 또는 (0.75) 75 %가되었습니다.

이 모든 것은 결합 확률 표에서 읽을 수 있습니다.

종종 오해되는 조건부 확률의 중요한 측면은 되돌릴 수 없다는 것입니다.

P (A 주어진 B) != P (B 주어진 A)

그것은 도시 1에서 맑은 확률입니다 도시 2에서 맑은 경우 도시 2에서 맑을 확률은 도시 1에서 맑은 경우 도시 2에서 맑을 확률과 같지 않습니다.

P(도시1=맑음 주어진 도시2=맑음) != P(도시2=맑음 주어진 도시1=맑음)

이 경우 도시1이 맑은 경우 도시2에서 맑을 확률은 다음과 같이 계산됩니다.

P(도시2=맑음 주어진 도시1=맑음) = P(도시2=맑음, 도시1=맑음) / P(도시1=맑음)
P(도시2=맑음 주어진 도시1=맑음) = 6/20 / 7/20
P (도시 2 = 맑음 주어진 도시 1 = 맑음) = 0.3 / 0.35
P (도시 2 = 맑음 주어진 도시 1 = 맑음) = 0.857

이 경우 약 85.714 %로 더 높습니다.

조건부 확률을 사용하여 결합 확률을 계산할 수도 있습니다.

P (A 및 B) = P (A 주어진 B) * P (B)

예를 들어, 우리가 아는 모든 것이 city1이 주어진 city2에서 맑음의 조건부 확률과 city2의 주변 확률이라면 결합 확률을 다음과 같이 계산할 수 있습니다.

P (도시 1 = 맑음 및 도시 2 = 맑음) = P (도시 2 = 맑음 주어진 도시 1 = 맑음) * P (도시 1 = 맑음)
P (도시 1 = 맑음 및 도시 2 = 맑음) = 0.857 * 0.35
P (도시 1 = 맑음 및 도시 2 = 맑음) = 0.3

이것은 우리가 예상한대로 0.3 또는 30 %를 제공합니다.

추가 정보

이 섹션에서는 더 자세히 알아보려는 경우 주제에 대한 더 많은 리소스를 제공합니다.

책

기사

요약

이 튜토리얼에서는 관절, 한계 및 조건부 확률을 계산하는 이면의 직관을 발견했습니다.

특히 다음 내용을 배웠습니다.

독립 확률 변수에 대한 합동 확률, 주변 확률 및 조건부 확률을 계산하는 방법.
결합 확률 변수에서 관측값을 수집하고 결합 확률표를 구성하는 방법.
결합 확률표에서 결합 확률, 주변 확률 및 조건부 확률을 계산하는 방법.

Tags:

Conditional Probability,Joint Probability,Machine learning,Marginal Probability