머신러닝에 대한 신뢰 구간

06 12월

머신러닝에 대한 신뢰 구간

머신러닝의 대부분은 보이지 않는 데이터에 대한 머신러닝 알고리즘의 성능을 추정하는 것과 관련이 있습니다.

신뢰 구간은 추정치의 불확실성을 정량화하는 방법입니다. 모집단의 독립 관측치 표본에서 추정된 평균과 같은 모집단 모수에 한계 또는 발생가능성를 추가하는 데 사용할 수 있습니다. 신뢰 구간은 추정 통계량 필드에서 가져옵니다.

이 튜토리얼에서는 신뢰 구간과 실제로 신뢰 구간을 계산하는 방법을 알아봅니다.

이 자습서를 완료하면 다음을 알 수 있습니다.

신뢰 구간은 모집단 모수 추정치의 한계입니다.
그 분류 방법의 추정된 기술에 대한 신뢰 구간은 직접 계산될 수 있습니다.
임의의 모집단 통계량에 대한 신뢰 구간은 부트스트랩을 사용하여 분포가 없는 방식으로 추정할 수 있습니다.

튜토리얼 개요

이 튜토리얼은 다음과 같이 세 부분으로 나뉩니다.

신뢰 구간이란 무엇입니까?
분류 정확도를 위한 간격
비모수 신뢰 구간

신뢰 구간이란 무엇입니까?

신뢰 구간은 모집단 변수의 추정치에 대한 한계입니다. 추정치의 불확실성을 정량화하는 데 사용되는 구간 통계입니다.

모집단 또는 공정의 알 수 없는 특성을 포함하는 신뢰 구간입니다. 관심 수량은 모집단 속성 또는 “모수”(예: 모집단 또는 공정의 평균 또는 표준 편차)일 수 있습니다.

— 3페이지, 통계 간격: 실무자 및 연구자를 위한 가이드, 2017.

신뢰 구간은 분포에서 표본으로 추출된 데이터의 한계를 설명하는 공차 구간과 다릅니다. 또한 단일 관측치의 한계를 설명하는 예측 구간과도 다릅니다. 대신, 신뢰 구간은 모집단 모수에 대한 한계(예: 평균, 표준 편차 또는 이와 유사한 것)를 제공합니다.

응용 머신러닝에서는 예측 모델의 기술을 표현할 때 신뢰 구간을 사용할 수 있습니다.

예를 들어, 신뢰 구간은 분류 모델의 기술을 제시하는 데 사용될 수 있으며, 이는 다음과 같이 나타낼 수 있습니다.

표본이 주어지면 x에서 y까지의 범위가 실제 모형 정확도를 포함할 확률은 95%입니다.

또는

모델의 정확도는 95% 신뢰 수준에서 x +/- y였습니다.

신뢰 구간은 회귀 예측 모델의 오류를 표시하는 데에도 사용할 수 있습니다. 예를 들어:

x에서 y 범위가 모형의 실제 오차를 포함할 확률은 95%입니다.

또는

모델의 오차는 95% 신뢰 수준에서 x +/- y였습니다.

95% 신뢰 선택은 신뢰 구간을 제시할 때 매우 일반적이지만 90% 및 99.7%와 같이 덜 일반적인 다른 값이 사용됩니다. 실제로는 원하는 값을 사용할 수 있습니다.

95% 신뢰 구간(CI)은 데이터에서 계산된 값의 범위로, 모집단에 대해 추정하는 실제 값을 포함할 가능성이 큽니다.

— 페이지 4, 새로운 통계 소개: 추정, 열린 과학, 그리고 그 이후, 2016.

신뢰 구간의 값은 추정치의 불확실성을 정량화하는 능력입니다. 하한과 상한, 그리고 가능성을 모두 제공합니다. 반경 측정값으로만 간주하면 신뢰 구간은 종종 오차 한계라고 하며 오차 막대를 사용하여 그래프에서 추정치의 불확실성을 그래픽으로 표시하는 데 사용할 수 있습니다.

종종 추정치가 도출된 표본이 클수록 추정치가 더 정확하고 신뢰 구간이 더 작을수록(더 나은) 경우가 많습니다.

더 작은 신뢰 구간: 더 정확한 추정치입니다.
더 큰 신뢰 구간: 덜 정확한 추정치입니다.

또한 CI는 추정치가 얼마나 정확한지 알려주고 오차 한계는 정밀도의 척도라고 말할 수 있습니다. 짧은 CI는 작은 오차 범위를 의미하며 비교적 정확한 추정치가 있습니다. 긴 CI는 큰 오차 한계와 정밀도가 낮다는 것을 의미합니다.

— 페이지 4, 새로운 통계 소개: 추정, 열린 과학, 그리고 그 이후, 2016.

신뢰 구간은 추정 통계량이라는 통계 분야에 속하며, 통계적 유의성 검정 대신 또는 이와 함께 실험 결과를 제시하고 해석하는 데 사용할 수 있습니다.

추정은 결과를 분석하고 해석하는 보다 유익한 방법을 제공합니다. […] 효과의 크기와 정밀도를 알고 생각하는 것은 효과가 전혀 없다고 가정하고 적어도 그 극단의 데이터를 관찰할 확률을 고려하는 것보다 정량적 과학에 더 유용합니다.

—추정 통계는 유의성 테스트를 대체해야 함, 2016.

신뢰 구간은 통계적 유의성 검정의 사용보다 실제로 선호될 수 있습니다.

그 이유는 실무자와 이해 관계자가 도메인과 직접 관련되기가 더 쉽기 때문입니다. 또한 머신러닝 모델을 비교하는 데 해석하고 사용할 수도 있습니다.

이러한 불확실성 추정치는 두 가지 면에서 도움이 됩니다. 첫째, 간격은 모델의 소비자에게 모델이 얼마나 좋은지 나쁜지에 대한 이해를 제공합니다. […] 이러한 방식으로 신뢰 구간은 모형을 비교할 때 사용할 수 있는 증거의 가중치를 측정하는 데 도움이 됩니다. 신뢰 구간의 두 번째 이점은 모형 간의 절충을 용이하게 하는 것입니다. 두 모형에 대한 신뢰 구간이 유의하게 겹치는 경우 이는 둘 사이의 (통계적) 동등성을 나타내며 덜 복잡하거나 해석 가능한 모형을 선호하는 이유를 제공할 수 있습니다.

— 페이지 416, 응용 예측 모델링, 2013.

이제 신뢰 구간이 무엇인지 알았으므로 예측 모델에 대해 신뢰 구간을 계산할 수 있는 몇 가지 방법을 살펴보겠습니다.

분류 정확도를 위한 간격

분류 문제는 일부 입력 데이터가 주어지면 레이블 또는 클래스 결과 변수가 예측되는 문제입니다.

분류 정확도 또는 분류 오류(정확도의 역수)를 사용하여 분류 예측 모델의 기술을 설명하는 것이 일반적입니다. 예를 들어 클래스 결과 변수를 75% 동안 올바르게 예측하는 모델의 분류 정확도는 75%이며 다음과 같이 계산됩니다.

1
accuracy = total correct predictions / total predictions made * 100

이 정확도는 유효성 검사 또는 테스트 데이터 세트와 같이 학습 중에 모델에 표시되지 않는 홀드아웃 데이터 세트를 기반으로 계산할 수 있습니다.

분류 정확도 또는 분류 오류는 비례 또는 비율입니다. 모델에 의해 만들어진 올바른 예측이나 잘못된 예측의 비율을 설명합니다. 각 예측은 정확하거나 틀릴 수 있는 이진 결정입니다. 기술적으로 이것은 Jacob Bernoulli의 이름을 딴 Bernoulli 재판이라고합니다. 베르누이 시험의 비율에는 이항 분포라는 특정 분포가 있습니다. 고맙게도 표본 크기가 큰 경우 (예 : 30 개 이상) 가우시안으로 분포를 근사할 수 있습니다.

통계에서 성공하거나 실패하는 일련의 독립 이벤트를 베르누이 프로세스라고합니다. […] 큰 N의 경우 이 랜덤 변수의 분포가 정규 분포에 가깝습니다.

— 페이지 148, 데이터 마이닝: 실용적인 머신러닝 도구 및 기술, 제2판, 2005.

비율의 가우스 분포 가정(즉, 분류 정확도 또는 오차)을 사용하여 신뢰 구간을 쉽게 계산할 수 있습니다.

분류 오류의 경우 간격의 반경은 다음과 같이 계산할 수 있습니다.

1
interval = z * sqrt( (error * (1 – error)) / n)

분류 정확도의 경우 간격의 반경은 다음과 같이 계산할 수 있습니다.

1
interval = z * sqrt( (accuracy * (1 – accuracy)) / n)

여기서 구간은 신뢰 구간의 반지름이고, 오차와 정확도는 각각 분류 오차와 분류 정확도이고, n은 표본의 크기이고, sqrt는 제곱근 함수이고, z는 가우스 분포로부터의 표준 편차의 수입니다. 기술적으로 이를 이항 비율 신뢰 구간이라고 합니다.

가우스 분포에서 일반적으로 사용되는 표준 편차 수와 해당 유의 수준은 다음과 같습니다.

1.64 (90%)
1.96 (95%)
2.33 (98%)
2.58 (99%)

50개의 예제(n = 50)가 있는 검증 데이터 세트에서 오차가 20% 또는 0.2(오류 = 0.2)인 모델을 고려합니다. 다음과 같이 95% 신뢰 구간(z = 1.96)을 계산할 수 있습니다.

1
2
3
4
# binomial confidence interval
from math import sqrt
interval = 1.96 * sqrt( (0.2 * (1 – 0.2)) / 50)
print(‘%.3f’ % interval)

예제를 실행하면 신뢰 구간의 계산된 반경이 계산되고 인쇄된 것을 볼 수 있습니다.

1
0.111

그런 다음 다음과 같은 주장을 할 수 있습니다.

모델의 분류 오류는 20% +/- 11%입니다.
모델의 실제 분류 오류는 9%에서 31% 사이일 수 있습니다.

표본 크기가 추정치의 정밀도에 미치는 영향을 신뢰 구간의 반지름으로 볼 수 있습니다.

1
2
3
# binomial confidence interval
interval = 1.96 * sqrt( (0.2 * (1 – 0.2)) / 100)
print(‘%.3f’ % interval)

예제를 실행하면 신뢰 구간이 약 7%로 떨어지고 모형 기술의 추정치의 정밀도가 증가한다는 것을 알 수 있습니다.

1
0.078

신뢰 구간은 범위에 대한 발생가능성입니다. 실제 모델 기술은 범위 밖에 있을 수 있습니다.

사실,이 실험을 반복하면 […] 새로운 예제를 포함하는 새로운 샘플 S를 그릴 때마다 이러한 실험의 약 95 %에 대해 계산된 간격에 실제 오류가 포함된다는 것을 알 수 있습니다. 이러한 이유로 이 구간을 95% 신뢰 구간 추정치라고 합니다.

— 페이지 131, 머신러닝, 1997.

proportion_confint() statsmodel은이항 비율 신뢰 구간의 구현을 수행합니다.

기본적으로 이항 분포에 대한 가우스 가정을 수행하지만 계산에 대한 다른 더 정교한 변형이 지원됩니다. 이 함수는 성공(또는 실패)의 개수, 총 시행 횟수 및 유의 수준을 인수로 사용하고 신뢰 구간의 하한과 상한을 반환합니다.

아래 예는 모델이 100개의 인스턴스가 있는 데이터 세트에서 88개의 올바른 예측을 수행하고 95% 신뢰 구간(함수에 0.05의 유의성으로 제공됨)에 관심이 있는 가상의 경우에 이 함수를 보여줍니다.

1
2
3
from statsmodels.stats.proportion import proportion_confint
lower, upper = proportion_confint(88, 100, 0.05)
print(‘lower=%.3f, upper=%.3f’ % (lower, upper))

예제를 실행하면 모델의 분류 정확도에 대한 하한과 상한이 인쇄됩니다.

1
lower=0.816, upper=0.944

비모수 신뢰 구간

종종 우리는 선택한 성능 측정에 대한 분포를 모릅니다. 또는 기술 점수에 대한 신뢰 구간을 계산하는 분석적 방법을 모를 수 있습니다.

모수 신뢰 구간의 기초가되는 가정은 종종 위반됩니다. 예측 변수가 정규 분포를 따르지 않는 경우가 있으며, 정규 분포를 따르더라도 정규 분포의 분산이 예측 변수의 모든 수준에서 같지 않을 수도 있습니다.

— 페이지 326, 인공 지능을 위한 경험적 방법, 1995.

이러한 경우 부트스트랩 리샘플링 방법을 신뢰 구간을 계산하기 위한 비모수 방법(명목상 부트스트랩 신뢰 구간이라고 함)으로 사용할 수 있습니다.

부트스트랩은 시뮬레이션된 Monte Carlo 방법으로, 고정된 유한 데이터 세트에서 샘플을 추출하고 각 샘플에 대해 매개 변수를 추정합니다. 이 절차는 표본 추출을 통해 실제 모집단 모수를 강력하게 추정합니다.

다음 의사 코드로 이를 입증할 수 있습니다.

1
2
3
4
5
statistics = []
for i in bootstraps:
 sample = select_sample_with_replacement(data)
 stat = calculate_statistic(sample)
 statistics.append(stat)

이 절차는 각 표본에 모델을 피팅하고 표본에 포함되지 않은 표본에 대한 모델의 기술을 평가하여 예측 모델의 기술을 추정하는 데 사용할 수 있습니다. 그런 다음 모델의 평균 또는 중앙값 기술은 보이지 않는 데이터에 대해 평가할 때 모델 기술의 추정치로 제시될 수 있습니다.

특정 백분위수의 기술 점수 표본에서 관측치를 선택하여 이 추정치에 신뢰 구간을 추가할 수 있습니다.

백분위수는 표본에 있는 관측치의 백분율이 속하는 정렬된 표본에서 추출한 관측치 값입니다. 예를 들어, 표본의 70번째 백분위수는 표본의 70%가 이 값보다 낮다는 것을 나타냅니다. 50번째 백분위수는 분포의 중앙값 또는 중간입니다.

먼저 신뢰 수준에 대한 유의 수준(예: 95%, 5.0%(예: 100 – 95))을 선택해야 합니다. 신뢰 구간이 중위수를 중심으로 대칭이기 때문에 전체 범위를 제공하려면 2.5번째 백분위수와 97.5번째 백분위수에서 관측치를 선택해야 합니다.

작업된 예를 통해 부트스트랩 신뢰 구간을 구체적으로 계산할 수 있습니다.

균일 분포에서 추출한 0.5와 1.0 사이의 값에 대한 1,000개의 관측치로 구성된 데이터 세트가 있다고 가정해 보겠습니다.

1
2
# generate dataset
dataset = 0.5 + rand(1000) * 0.5

부트스트랩 절차를 100번 수행하고 대체를 통해 데이터 세트에서 1,000개의 관측치 샘플을 그립니다. 모집단의 평균을 부트스트랩 표본에서 계산할 통계로 추정합니다. 이것은 쉽게 모델 평가가 될 수 있습니다.

1
2
3
4
5
6
7
8
9
# bootstrap
scores = list()
for _ in range(100):
 # bootstrap sample
 indices = randint(0, 1000, 1000)
 sample = dataset[indices]
 # calculate and store statistic
 statistic = mean(sample)
 scores.append(statistic)

부트스트랩 통계 샘플이 있으면 중심 경향을 계산할 수 있습니다. 우리는 분포를 가정하지 않으므로 중앙값 또는 50번째 백분위수를 사용합니다.

1
print(‘median=%.3f’ % median(scores))

그런 다음 중앙값을 중심으로 관측된 통계 값의 중간 95%로 신뢰 구간을 계산할 수 있습니다.

1
2
# calculate 95% confidence intervals (100 – alpha)
alpha = 5.0

먼저, 원하는 더 낮은 백분위수가 선택한 신뢰 구간을 기반으로 계산됩니다. 그런 다음 이 백분위수에서의 관측치가 부트스트랩 통계량 표본에서 검색됩니다.

1
2
3
4
# calculate lower percentile (e.g. 2.5)
lower_p = alpha / 2.0
# retrieve observation at lower percentile
lower = max(0.0, percentile(scores, lower_p))

신뢰 구간의 상한에 대해서도 동일한 작업을 수행합니다.

1
2
3
4
# calculate upper percentile (e.g. 97.5)
upper_p = (100 – alpha) + (alpha / 2.0)
# retrieve observation at upper percentile
upper = min(1.0, percentile(scores, upper_p))

전체 예제는 다음과 같습니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
# bootstrap confidence intervals
from numpy.random import seed
from numpy.random import rand
from numpy.random import randint
from numpy import mean
from numpy import median
from numpy import percentile
# seed the random number generator
seed(1)
# generate dataset
dataset = 0.5 + rand(1000) * 0.5
# bootstrap
scores = list()
for _ in range(100):
 # bootstrap sample
 indices = randint(0, 1000, 1000)
 sample = dataset[indices]
 # calculate and store statistic
 statistic = mean(sample)
 scores.append(statistic)
print(’50th percentile (median) = %.3f’ % median(scores))
# calculate 95% confidence intervals (100 – alpha)
alpha = 5.0
# calculate lower percentile (e.g. 2.5)
lower_p = alpha / 2.0
# retrieve observation at lower percentile
lower = max(0.0, percentile(scores, lower_p))
print(‘%.1fth percentile = %.3f’ % (lower_p, lower))
# calculate upper percentile (e.g. 97.5)
upper_p = (100 – alpha) + (alpha / 2.0)
# retrieve observation at upper percentile
upper = min(1.0, percentile(scores, upper_p))
print(‘%.1fth percentile = %.3f’ % (upper_p, upper))

예제를 실행하면 2.5번째, 50번째(중앙값) 및 97.5번째 백분위수를 포함한 부트스트랩 샘플 통계의 분포가 요약됩니다.

1
2
3
50th percentile (median) = 0.750
2.5th percentile = 0.741
97.5th percentile = 0.757

그런 다음 이러한 관측치를 사용하여 다음과 같은 표본 분포에 대한 주장을 할 수 있습니다.

0.741에서 0.757 사이의 범위가 실제 통계량 평균을 포함할 확률은 95%입니다.

확장

이 섹션에는 탐색할 수 있는 자습서를 확장하기 위한 몇 가지 아이디어가 나열되어 있습니다.

자체 소규모 인위적인 테스트 데이터 세트에서 각 신뢰 구간 방법을 테스트합니다.
각 신뢰 구간 방법의 사용을 보여주는 3개의 연구 논문을 찾으십시오.
머신러닝 기술 점수의 지정된 샘플에 대한 부트스트랩 신뢰 구간을 계산하는 함수를 개발합니다.

추가 정보

이 섹션에서는 더 자세히 알아보려는 경우 주제에 대한 더 많은 리소스를 제공합니다.

게시물

책

논문

API

기사

요약

이 튜토리얼에서는 신뢰 구간과 실제로 신뢰 구간을 계산하는 방법을 알아보았습니다.

특히 다음 내용을 배웠습니다.

신뢰 구간은 모집단 모수 추정치의 한계입니다.
그 분류 방법의 추정된 기술에 대한 신뢰 구간은 직접 계산될 수 있습니다.
임의의 모집단 통계량에 대한 신뢰 구간은 부트스트랩을 사용하여 분포가 없는 방식으로 추정할 수 있습니다.

Tags:

Confidence Intervals,Machine learning