머신러닝의 편향-분산 트레이드 오프에 대한 짧은 소개

29 12월

머신러닝의 편향-분산 트레이드 오프에 대한 짧은 소개

by Nepirity

in Technology

Comments

지도 학습 알고리즘은 Bias-Variance 트레이드오프의 렌즈를 통해 가장 잘 이해할 수 있습니다.

이 게시물에서는 Bias-Variance 트레이드 오프와 이를 사용하여 머신러닝 알고리즘을 더 잘 이해하고 데이터에서 더 나은 성능을 얻는 방법을 알아봅니다.

편향(Bias)과 분산(Variance) 개요

지도 학습에서 알고리즘은 학습 데이터에서 모델을 학습합니다.

지도 학습 알고리즘의 목표는 입력 데이터(X)가 지정된 출력 변수(Y)에 대한 매핑 함수(f)를 가장 잘 추정하는 것입니다. 매핑 함수는 주어진 지도 학습 알고리즘이 근사화하는 것을 목표로 하는 함수이기 때문에 종종 대상 함수라고 합니다.

모든 머신러닝 알고리즘에 대한 예측 오류는 세 부분으로 나눌 수 있습니다.

편향 오류
분산 오류
환원 불가능한 오류

환원 불가능한 오류는 사용되는 알고리즘에 관계없이 줄일 수 없습니다. 문제의 선택한 프레이밍에서 발생한 오류이며 입력 변수를 출력 변수에 매핑하는 데 영향을 미치는 알 수 없는 변수와 같은 요인으로 인해 발생할 수 있습니다.

이 게시물에서는 머신러닝 알고리즘으로 영향을 미칠 수 있는 두 부분에 중점을 둘 것입니다. 편향 오차와 분산 오차입니다.

편향 오류

편향은 대상 함수를 더 쉽게 배울 수 있도록 모델에 의해 만들어진 가정을 단순화하는 것입니다.

일반적으로 선형 알고리즘은 편향이 높기 때문에 빠르게 배우고 이해하기 쉽지만 일반적으로 유연성이 떨어집니다. 결과적으로 알고리즘 편향의 단순화된 가정을 충족하지 못하는 복잡한 문제에 대한 예측 성능이 낮습니다.

낮은 편향: 대상 함수의 형태에 대한 가정을 덜 제안합니다.
높은 편향: 대상 함수의 형태에 대한 더 많은 가정을 제안합니다.

낮은 편향 머신러닝 알고리즘의 예로는 의사 결정 트리, k-최근접 이웃 및 지원 벡터 머신이 있습니다.

고편향 머신러닝 알고리즘의 예로는 선형 회귀, 선형 판별 분석 및 로지스틱 회귀가 있습니다.

분산 오류

분산은 다른 훈련 데이터가 사용된 경우 목표 함수의 추정치가 변경되는 양입니다.

대상 함수는 머신러닝 알고리즘에 의한 학습 데이터에서 추정되므로 알고리즘에 약간의 차이가 있을 것으로 예상해야 합니다. 이상적으로는 한 학습 데이터 세트에서 다음 학습 데이터 세트로 너무 많이 변경되지 않아야 하며, 이는 알고리즘이 입력과 출력 변수 간의 숨겨진 기본 매핑을 선택하는 데 능숙하다는 것을 의미합니다.

분산이 높은 머신러닝 알고리즘은 학습 데이터의 세부 사항에 크게 영향을 받습니다. 이는 훈련의 세부 사항이 매핑 기능을 특성화하는 데 사용되는 매개 변수의 수와 유형에 영향을 미친다는 것을 의미합니다.

낮은 분산: 훈련 데이터 세트의 변경과 함께 대상 함수의 추정치에 대한 작은 변경을 제안합니다.
높은 분산: 훈련 데이터 세트의 변경으로 대상 함수의 추정치에 대한 큰 변경을 제안합니다.

일반적으로 유연성이 많은 비선형 머신러닝 알고리즘은 분산이 높습니다. 예를 들어, 의사 결정 트리는 분산이 높으며, 이는 사용 전에 트리를 정리하지 않은 경우 훨씬 더 높습니다.

저분산 머신러닝 알고리즘의 예로는 선형 회귀, 선형 판별 분석 및 로지스틱 회귀가 있습니다.

고분산 머신러닝 알고리즘의 예로는 의사 결정 트리, k-최근접 이웃 및 지원 벡터 머신이 있습니다.

Bias-Variance 트레이드오프

감독되는 머신러닝 알고리즘의 목표는 낮은 편향과 낮은 분산을 달성하는 것입니다. 차례로 알고리즘은 좋은 예측 성능을 달성해야 합니다.

위의 예에서 일반적인 추세를 볼 수 있습니다.

선형 머신러닝 알고리즘은 종종 높은 편향을 갖지만 분산은 낮습니다.
비선형 머신러닝 알고리즘은 종종 편향은 낮지만 분산은 높습니다.

머신러닝 알고리즘의 매개 변수화는 종종 편향과 분산의 균형을 맞추기 위한 싸움입니다.

다음은 특정 알고리즘에 대한 Bias-Variance 트레이드오프를 구성하는 두 가지 예입니다.

k-최근접 이웃 알고리즘은 편향이 낮고 분산이 높지만, k 값을 늘리면 예측에 기여하는 이웃 수가 증가하고 결과적으로 모델의 편향이 증가하여 트레이드 오프를 변경할 수 있습니다.
서포트 벡터 머신 알고리즘은 편향이 낮고 분산이 높지만, 훈련 데이터에서 허용되는 마진의 위반 횟수에 영향을 미치는 C 파라미터를 늘려 편향를 증가시키지만 분산을 감소시킴으로써 트레이드 오프를 변경할 수 있습니다.

머신러닝에서 편향과 분산 사이의 관계를 피할 수는 없습니다.

편향을 늘리면 분산이 감소합니다.
분산을 늘리면 편향이 줄어듭니다.

이 두 가지 관심사와 사용자가 선택한 알고리즘 및 구성 방법에 따라 문제에 대한 절충안이 서로 다른 균형을 찾습니다.

실제로는 실제 기본 목표 함수를 모르기 때문에 실제 편향 및 분산 오차 항을 계산할 수 없습니다. 그럼에도 불구하고 프레임워크로서 편향과 분산은 예측 성능을 추구하는 머신러닝 알고리즘의 동작을 이해하는 도구를 제공합니다.

추가 정보

이 섹션에는 편향, 분산 및 편향-분산 트레이드오프에 대해 자세히 알아보려는 경우 몇 가지 권장 리소스가 나열되어 있습니다.

요약

이 게시물에서는 머신러닝 알고리즘에 대한 편향, 분산 및 편향-분산 절충을 발견했습니다.

이제 다음 사항을 알고 있습니다.

편향은 목표 함수를 더 쉽게 근사할 수 있도록 모델에 의해 만들어진 가정을 단순화하는 것입니다.
분산은 서로 다른 훈련 데이터에 따라 목표 함수의 추정치가 변경되는 양입니다.
트레이드 오프는 편향으로 인한 오차와 분산 사이의 긴장입니다.

Tags:

Machine learning