머신러닝을 위해 확률을 배우는 5가지 이유
확률은 불확실성을 정량화하는 수학 분야입니다.
그것은 부인할 수 없이 머신러닝 분야의 기둥이며 많은 사람들이 시작하기 전에 공부해야 할 전제 조건으로 권장합니다. 이것은 오해의 소지가 있는 조언인데, 일단 확률은 실무자가 그것을 해석할 응용 머신러닝 프로세스의 맥락을 갖게 되면 더 의미가 있기 때문입니다.
이 게시물에서는 머신러닝 실무자가 기술과 능력을 향상시키기 위해 확률을 연구해야 하는 이유를 알아봅니다.
이 게시물을 읽은 후 다음을 알게 될 것입니다.
- 모든 사람이 확률을 배워야 하는 것은 아닙니다. 머신러닝을 배우는 여정의 어느 단계에 있는지에 따라 다릅니다.
- 많은 알고리즘은 Naive Bayes 및 확률론적 그래픽 모델과 같은 확률의 도구와 기술을 사용하여 설계되었습니다.
- 많은 머신러닝 알고리즘의 훈련의 기초가 되는 최대 가능성 프레임 워크는 확률 분야에서 비롯됩니다.
개요
이 자습서는 다음과 같이 일곱 부분으로 나뉩니다.
- 확률을 배우지 않는 이유
- 클래스 멤버쉽에는 확률 예측이 필요합니다.
- 일부 알고리즘은 확률을 사용하여 설계되었습니다.
- 모델은 확률적 프레임워크를 사용하여 학습됩니다.
- 모델은 확률적 프레임워크로 조정할 수 있습니다.
- 확률론적 측정은 모델 기술을 평가하는 데 사용됩니다.
- 또 하나의 이유
확률을 배우지 않는 이유
확률을 배워야 하는 이유를 살펴보기 전에 먼저 배우지 말아야 하는 이유를 간단히 살펴보겠습니다.
응용 머신러닝을 막 시작하는 경우 확률을 연구해서는 안된다고 생각합니다.
- 필수는 아닙니다. 머신러닝을 문제 해결 도구로 사용하기 위해 일부 머신러닝 알고리즘의 기초가 되는 추상적인 이론이 반드시 필요하지는 않습니다.
- 느립니다. 머신러닝을 시작하기 전에 전체 관련 분야를 연구하는 데 몇 달에서 몇 년이 걸리면 예측 모델링 문제를 해결할 수 있다는 목표를 달성하는 데 지연이 발생합니다.
- 거대한 분야입니다. 모든 확률이 이론적 머신러닝과 관련이 있는 것은 아니며 적용된 머신러닝은 말할 것도 없습니다.
응용 머신러닝을 시작하기 위한 광범위한 접근 방식을 권장합니다.
저는 이것을 결과 우선 접근법이라고 부릅니다. 여기에서 도구(예: scikit-learn 및 Python의 Pandas)를 사용하여 예측 모델링 문제(예: 결과를 얻는 방법)를 통해 작업하는 단계를 배우고 연습하는 것으로 시작합니다.
그런 다음 이 프로세스는 알고리즘의 작동 방식과 궁극적으로 알고리즘의 기초가 되는 수학과 같은 지식을 점진적으로 심화하기 위한 골격과 컨텍스트를 제공합니다.
예측 모델링 문제를 해결하는 방법을 알고 나면 확률에 대한 이해를 심화해야 하는 이유를 살펴보겠습니다.
1. 클래스 멤버쉽은 확률을 예측해야 합니다.
분류 예측 모델링 문제는 예제에 지정된 레이블이 할당된 문제입니다.
여러분이 잘 알고 있을 수 있는 예는 꽃에 대한 네 가지 측정값이 있고 목표는 알려진 세 가지 다른 아이리스 꽃 품중 하나를 관측에 할당하는 것입니다.
각 관측치에 클래스 레이블을 직접 할당하는 것으로 문제를 모델링 할 수 있습니다.
- 입력: 꽃의 측정값입니다.
- 출력: 하나의 아이리스 종.
보다 일반적인 접근 방식은 문제를 확률적 클래스 멤버로 구성하여 알려진 각 클래스에 속하는 관측치의 확률을 예측하는 것입니다.
- 입력: 꽃의 측정값입니다.
- 출력: 각 아이리스 종에 대한 구성원 자격.
문제를 클래스 멤버쉽의 예측으로 프레이밍하면 모델링 문제가 단순화되고 모델이 더 쉽게 학습할 수 있습니다. 이를 통해 모델은 데이터의 모호성을 캡처할 수 있으므로 사용자가 도메인의 컨텍스트에서 확률을 해석하는 것과 같은 프로세스 다운스트림이 허용됩니다.
확률은 확률이 가장 큰 클래스를 선택하여 선명한 클래스 레이블로 변환할 수 있습니다. 확률은 확률 보정 프로세스를 사용하여 스케일링하거나 변환할 수도 있습니다.
모델에 의해 만들어진 예측의 문제 해석에 대한 클래스 멤버 프레임의 이러한 선택은 확률에 대한 기본적인 이해를 필요로 합니다.
2. 모델은 확률을 사용하여 설계됩니다.
확률에서 도구와 방법을 활용하도록 특별히 설계된 알고리즘이 있습니다.
여기에는 Naive Bayes 알고리즘과 같은 개별 알고리즘이 포함되며,Bayes 정리를 사용하여 일부 단순화 된 가정을 사용하여 구성됩니다.
선형회귀 알고리즘은 예측의 평균 제곱오차를 최소화하는 확률적 모델로 볼 수 있고, 로지스틱 회귀 알고리즘은 양수 클래스 레이블을 예측하는 음의 로그 가능성을 최소화하는 확률적 모델로 볼 수 있습니다.
- 선형 회귀
- 로지스틱 회귀
또한 확률론적 그래픽 모델 (그래픽 모델 또는 PGM이라고도 하며 Bayes Theorem을 중심으로 설계됨)과 같은 전체 연구 분야로 확장됩니다.
주목할 만한 그래픽 모델은 베이지안 신념 네트워크 또는 Bayes Nets로, 변수 간의 조건부 종속성을 캡처 할 수 있습니다.
3. 모델은 확률적 프레임워크로 훈련됩니다.
많은 머신러닝 모델은 확률적 프레임워크에서 설계된 반복 알고리즘을 사용하여 학습됩니다.
일반적인 확률 모델링 프레임워크의 몇 가지 예는 다음과 같습니다.
아마도 가장 일반적인 것은 최대 우도 추정의 프레임 워크이며 때로는 MLE로 단락됩니다. 이것은 관찰된 데이터가 주어지면 모델 매개변수(예: 가중치)를 추정하기 위한 프레임워크입니다.
이것은 선형 회귀 모델의 일반 최소 제곱 추정치와 로지스틱 회귀에 대한 로그 손실 추정치의 기초가 되는 프레임워크입니다.
기대-최대화 알고리즘 또는 줄여서 EM은 비지도 데이터 클러스터링에 자주 사용되는 최대우도 추정을 위한 접근 방식입니다(예:k-평균 클러스터링 알고리즘이라고도 하는 k 클러스터에 대한 k 평균 추정).
클래스 구성원을 예측하는 모형의 경우, 최대우도 추정은 관측된 확률 분포와 예측된 확률 분포 간의 차이 또는 발산을 최소화하기 위한 프레임워크를 제공합니다. 이것은 로지스틱 회귀 및 딥러닝 신경망과 같은 분류 알고리즘에 사용됩니다.
예를 들어 교차 엔트로피를 통해 엔트로피를 사용하여 훈련하는 동안 확률 분포의 이러한 차이를 측정하는 것이 일반적입니다. 엔트로피, KL 발산을 통해 측정된 분포 및 교차 엔트로피의 차이는 확률 이론을 직접 기반으로하는 정보 이론 분야에서 나온 것입니다. 예를 들어, 엔트로피는 확률의 음수 로그로 직접 계산됩니다.
따라서 교차 엔트로피 손실 최소화와 같은 정보 이론의 이러한 도구는 모델 추정을 위한 또 다른 확률론적 프레임워크로 볼 수 있습니다.
- 최소 교차 엔트로피 손실 추정
4. 모델은 확률론적 프레임 워크로 조정됩니다.
머신러닝 모델의 하이퍼파라미터(예: kNN의 경우 k 또는 신경망의 학습률)를 조정하는 것이 일반적입니다.
일반적인 접근 방식에는 하이퍼파라미터의 그리드 검색 범위 또는 무작위로 샘플링된 하이퍼파라미터 조합이 포함됩니다.
베이지안 최적화는 더 나은 성능을 가져올 가능성이 가장 높은 구성을 기반으로 가능한 구성의 공간을 직접 검색하는 하이퍼 매개 변수 최적화에 더 효율적입니다. 이름에서 알 수 있듯이 이 접근 방식은 가능한 구성의 공간을 샘플링 할 때Bayes 정리에서 고안되고 활용되었습니다.
베이지안 최적화에 대한 자세한 내용은 다음 자습서를 참조하세요.
5. 모델은 확률론적 측정으로 평가됩니다.
확률 예측이 이루어지는 알고리즘의 경우 모델의 성능을 요약하기 위해 평가 측정이 필요합니다.
예측된 확률을 기반으로 모델의 성능을 요약하는 데 사용되는 측정값이 많이 있습니다. 일반적인 예는 다음과 같습니다.
- 로그 손실(교차 엔트로피라고도 함).
- 브라이어 점수 및 브라이어 스킬 점수
예측 확률을 평가하기 위한 메트릭에 대한 자세한 내용은 다음 자습서를 참조하세요.
단일 확률 점수가 예측되는 이진 분류 작업의 경우 수신기 작동 특성 또는 ROC를 구성하여 예측을 해석할 때 사용할 수 있는 다양한 컷오프를 탐색할 수 있으며, 이는 차례로 다른 절충을 초래합니다. ROC 곡선 아래의 면적 또는 ROC AUC도 집계 측도로 계산할 수 있습니다. 양수 클래스에 적용되는 관련 방법은 정밀도-재현율 곡선과 곡선 아래 영역입니다.
- ROC 곡선 및 ROC AUC
- 정밀도-재현율 곡선 및 AUC
이러한 곡선과 사용 시기에 대한 자세한 내용은 자습서를 참조하세요.
이러한 채점 방법의 선택과 해석에는 확률 이론에 대한 기본적인 이해가 필요합니다.
또 하나의 이유
한 가지 이유를 더 들 수 있다면 재미있기 때문입니다.
정말입니다.
확률을 배우는 것, 적어도 실용적인 예제와 실행 코드로 가르치는 방식은 매우 재미있습니다. 실제 데이터에서 작업이 어떻게 작동하는지 확인할 수 있게 되면 종종 매우 직관적이지 않은 주제에 대한 강력한 직관을 개발할 수 있습니다.
추가 정보
이 섹션에서는 더 자세히 알아보려는 경우 주제에 대한 더 많은 리소스를 제공합니다.
책
- 패턴 인식 및 머신러닝, 2006.
- 머신러닝: 확률론적 관점, 2012.
- 머신러닝, 1997.
게시물
- 파이썬의 확률 채점 방법에 대한 간략한 소개
- Python에서 분류를 위해 ROC 곡선과 정밀도 재현율 곡선을 사용하는 방법과 시기
- 딥러닝 신경망을 훈련시킬 때 손실 함수를 선택하는 방법
기사
요약
이 게시물에서는 머신러닝 실무자로서 확률에 대한 이해를 심화해야 하는 이유를 알아보았습니다.
특히 다음 내용을 배웠습니다.
- 모든 사람이 확률을 배워야 하는 것은 아닙니다. 머신러닝을 배우는 여정의 어느 단계에 있는지에 따라 다릅니다.
- 많은 알고리즘은 Naive Bayes 및 확률론적 그래픽 모델과 같은 확률의 도구와 기술을 사용하여 설계되었습니다.
- 많은 머신러닝 알고리즘의 훈련의 기초가 되는 최대 가능성 프레임워크는 확률 분야에서 비롯됩니다.