머신러닝의 불확실성에 대한 짧은 소개

응용 머신러닝에는 불확실성 관리가 필요합니다.

머신러닝 프로젝트에는 특정 데이터 값의 차이, 도메인에서 수집된 데이터 샘플 및 이러한 데이터에서 개발된 모델의 불완전한 특성을 포함하여 많은 불확실성 원인이 있습니다.

예측 모델링을 위한 머신러닝에 내재된 불확실성 관리는 불확실성을 처리하도록 특별히 설계된 분야인 확률의 도구와 기술을 통해 달성할 수 있습니다.

이 게시물에서는 머신러닝의 불확실성 문제를 발견하게 될 것입니다.

이 게시물을 읽은 후 다음을 알게 될 것입니다.

  • 불확실성은 머신러닝 초보자, 특히 개발자에게 가장 큰 어려움의 원인입니다.
  • 데이터의 노이즈, 도메인의 불완전한 적용 범위 및 불완전한 모델은 머신러닝에서 불확실성의 세 가지 주요 원인을 제공합니다.
  • 확률은 적용된 머신러닝에서 불확실성을 정량화, 처리 및 활용하기 위한 기초와 도구를 제공합니다.

개요

이 자습서는 다음과 같이 다섯 부분으로 나뉩니다.

  • 머신러닝의 불확실성
  • 관측의 노이즈
  • 도메인의 불완전한 적용 범위
  • 문제의 불완전한 모델
  • 불확실성을 관리하는 방법

머신러닝의 불확실성

응용 머신러닝은 불확실성에 익숙해져야 합니다.

불확실성은 불완전하거나 불완전한 정보로 작업하는 것을 의미합니다.

불확실성은 머신러닝 분야의 기본이지만 초보자, 특히 개발자 출신인 경우 가장 어려움을 초래하는 측면 중 하나입니다.

소프트웨어 엔지니어와 개발자에게 컴퓨터는 결정론적입니다. 당신은 프로그램을 작성하고 컴퓨터는 당신이 말한 것을 실행합니다. 알고리즘은 공간 또는 시간 복잡성을 기반으로 분석되며 실행 속도 또는 메모리 제약과 같이 프로젝트에 가장 중요한 것을 최적화하도록 선택할 수 있습니다.

머신러닝을 사용한 예측 모델링에는 회귀 문제의 경우 숫자 또는 분류 문제의 경우 클래스 레이블과 같은 입력의 예를 출력에 매핑하는 모델을 피팅하는 작업이 포함됩니다.

당연히 초보자는 다음과 같은 합리적인 질문을합니다.

  • 내가 사용해야 하는 가장 좋은 기능은 무엇입니까?
  • 내 데이터 세트에 가장 적합한 알고리즘은 무엇입니까?

이러한 질문에 대한 답은 알려지지 않았으며 적어도 정확히는 알 수 없을 수도 있습니다.

컴퓨터 과학의 많은 분야는 대부분 완전히 결정론적이고 확실한 엔티티를 다룹니다. […] 많은 컴퓨터 과학자와 소프트웨어 엔지니어가 비교적 깨끗하고 특정 환경에서 작업한다는 점을 감안할 때 머신러닝이 확률 이론을 많이 사용한다는 것은 놀라운 일입니다.

— 페이지 54,딥 러닝, 2016.

이것은 초보자에게 어려움의 주요 원인입니다.

답을 알 수없는 이유는 불확실성 때문이며, 해결책은 특정 예측 문제에 대해 충분하거나 충분한 기능 세트 및 / 또는 알고리즘이 발견 될 때까지 서로 다른 솔루션을 체계적으로 평가하는 것입니다.

머신러닝에는 세 가지 주요 불확실성 원인이 있으며 다음 섹션에서는 세 가지 가능한 원인을 차례로 살펴보겠습니다.


관측의 노이즈

도메인의 관찰은 선명하지 않습니다. 대신 노이즈가 포함되어 있습니다.

도메인의 관찰은 종종 “인스턴스” 또는 “샘플“이라고 하며 한 행의 데이터입니다. 측정된 것 또는 수집된 것입니다. 대상 또는 주제를 설명하는 데이터입니다. 모델에 대한 입력과 예상 출력입니다.

예를 들어 하나의 아이리스 꽃의 측정값 집합과 학습 데이터의 경우 측정된 꽃 종류를 들 수 있습니다.

예측이 필요한 새로운 데이터의 경우 꽃의 종이 없는 측정일 뿐입니다.

잡음은 관측치의 변동성을 나타냅니다.

가변성은 “정상보다 크거나 작은 꽃”과 같이 자연스러울 수 있습니다. 측정할 때 실수가 있거나 기록할 때 오타와 같은 오류일 수도 있습니다.

이러한 가변성은 입력 또는 측정 뿐만 아니라 출력에도 영향을 미칩니다. 예를 들어, 관측치에 잘못된 클래스 레이블이 있을 수 있습니다.

즉, 도메인에 대한 관측치가 있지만 약간의 변동성 또는 임의성을 예상해야 합니다.

현실 세계, 그리고 실제 데이터는 혼란스럽거나 불완전합니다. 실무자로서 우리는 데이터에 회의적이며 이러한 불확실성을 예상하고 활용할 수 있는 시스템을 개발해야 합니다.

이것이 데이터 통계를 검토하고 정상범위에서 벗어나 있거나 특별한 경우(소위 데이터 정리)를 식별하는 데 도움이 되는 시각화를 만드는 데 많은 시간을 소비하는 이유입니다.​


도메인의 불완전한 적용 범위

모델을 학습하는 데 사용되는 도메인의 관찰은 샘플이며 정의상 불완전합니다.

통계에서 랜덤 표본은 체계적인 편향 없이 도메인에서 선택한 관측치의 모음을 나타냅니다. 항상 약간의 편견이 있을 것입니다.

예를 들어, 한 정원에서 무작위로 선택된 꽃의 크기를 측정하도록 선택할 수 있습니다. 꽃은 무작위로 선택되지만 범위는 하나의 정원으로 제한됩니다. 범위는 한 도시, 국가 전체, 대륙 등의 정원으로 늘릴 수 있습니다.

표본이 데이터 또는 모델이 사용될 작업 또는 프로젝트를 대표하도록 표본에 적절한 수준의 분산 및 편향이 필요합니다.

우리는 머신러닝 모델을 훈련하고 평가하기 위해 적절하게 대표적인 무작위 관찰 샘플을 수집하거나 얻는 것을 목표로 합니다. 종종 우리는 샘플링 프로세스를 거의 통제하지 못합니다. 대신 데이터베이스 또는 CSV 파일에 액세스하고 우리가 가진 데이터는 작업해야하는 데이터입니다.

모든 경우에 모든 관측치를 가질 수는 없습니다. 그랬다면 예측 모델이 필요하지 않을 것입니다.

이것은 항상 관찰되지 않은 경우가 있음을 의미합니다. 우리가 다룬 적 없는 문제 도메인의 일부가 있을 것입니다. 모델이 일반화되도록 아무리 잘 권장하더라도 학습 데이터 세트의 사례와 그렇지 않은 두드러진 사례를 다룰 수 있기를 바랄 뿐입니다.

이것이 데이터 세트를 학습 세트와 테스트 세트로 분할하거나 k-fold 교차 검증과 같은 리샘플링 방법을 사용하는 이유입니다. 데이터 세트의 대표성에 대한 불확실성을 처리하고 해당 절차에 사용되지 않은 데이터에 대한 모델링 절차의 성능을 추정하기 위해 이 작업을 수행합니다.


문제의 불완전한 모델

머신러닝 모델에는 항상 약간의 오류가 있습니다.

이것은 종종 “모든 모델이 잘못되었습니다” 또는 George Box의 격언으로 더 완벽하게 요약됩니다.

모든 모델이 잘못되었지만 일부는 유용합니다.

이는 모델, 아티팩트에만 적용되는 것이 아니라 데이터 선택 및 준비, 학습 하이퍼 매개 변수 선택, 모델 예측 해석을 포함하여 모델을 준비하는 데 사용되는 전체 절차에 적용됩니다.

모델 오류는 예상과 상당히 다른 회귀 문제의 수량을 예측하거나 예상과 일치하지 않는 클래스 레이블을 예측하는 것과 같은 불완전한 예측을 의미할 수 있습니다.

이러한 유형의 예측 오류는 관찰의 노이즈와 도메인의 불완전한 적용 범위 모두에서 방금 논의한 데이터에 대한 불확실성을 고려할 때 예상됩니다.

또 다른 유형의 오류는 누락 오류입니다. 우리는 새로운 사례로 일반화하기 위해 세부 사항을 생략하거나 추상화합니다. 이는 학습 데이터에 고도로 특수화될 수 있는 복잡한 모델과 달리 더 간단하지만 데이터의 세부 사항에 더 강력한 모델을 선택하여 달성됩니다. 따라서 모델이 새로운 사례에 더 잘 일반화되고 전반적인 성능이 더 나을 것이라는 기대로 학습 데이터 세트에서 오류를 만드는 것으로 알려진 모델을 선택할 수 있습니다.

대부분의 경우, 실제 규칙이 결정론적이고 모델링 시스템이 복잡한 규칙을 수용할 수 있는 충실도를 가지고 있더라도 복잡하지만 확실한 규칙보다는 단순하지만 불확실한 규칙을 사용하는 것이 더 실용적입니다.

— 페이지 55,딥 러닝, 2016.

그럼에도 불구하고 예측이 필요합니다.

모델이 오류를 범할 것이라는 것을 알고 있기 때문에 충분히 좋은 모델을 찾아 이러한 불확실성을 처리합니다. 이것은 종종 순진한 방법이나 다른 확립된 학습 모델 (예 : 좋은 상대적 성과)과 비교하여 숙련된 모델을 선택하는 것으로 해석됩니다


불확실성을 관리하는 방법

적용된 머신러닝의 불확실성은 확률을 사용하여 관리됩니다.

확률은 불확실성을 처리, 조작 및 활용하도록 설계된 수학 분야입니다.

패턴 인식 분야의 핵심 개념은 불확실성입니다. 이는 측정에 대한 노이즈와 데이터 세트의 유한 크기를 통해 발생합니다. 확률 이론은 불확실성의 정량화 및 조작을 위한 일관된 프레임워크를 제공하고 패턴 인식의 중심 토대 중 하나를 형성합니다.

— 페이지 12, 패턴 인식 및 머신러닝, 2006.

사실, 확률 이론은 인공 지능의 더 넓은 분야의 핵심입니다.

에이전트는 확률 및 결정 이론의 방법을 사용하여 불확실성을 처리할 수 있지만 먼저 경험을 통해 세계에 대한 확률론적 이론을 배워야합니다.

— 페이지 802, 인공 지능: 현대적인 접근 방식, 3판, 2009.

확률의 방법과 도구는 머신러닝으로 해결되는 예측 모델링 문제의 무작위 또는 확률적 특성에 대한 기초와 사고 방식을 제공합니다. 예를 들어:

  • 잡음이 있는 관측치의 관점에서, 확률과 통계는 도메인에서 관측치에 있는 변수의 기대값, 변동성을 이해하고 정량화하는 데 도움이 됩니다.
  • 도메인의 불완전한 적용 범위 측면에서 확률은 도메인에서 예상되는 관측치의 분포와 밀도를 이해하고 정량화하는 데 도움이 됩니다.
  • 모델 오차 측면에서 확률은 새로운 데이터에 적용될 때 예측 모델의 예상 능력과 성능 분산을 이해하고 정량화하는 데 도움이 됩니다.

그러나 확률은 선형 회귀, 로지스틱 회귀, 인공 신경망 등과 같은 모델 뒤에 있는 최대우도 추정이라고 하는 많은 머신러닝 모델의 반복 학습을 위한 기반을 제공하기 때문에 이것은 시작에 불과합니다.

확률은 또한 Naive Bayes와 같은 특정 알고리즘뿐만 아니라 베이지안 신념 네트워크와 같은 그래픽 모델과 같은 머신러닝 연구의 전체 하위 분야를 개발하기위한 기초를 제공합니다.

확률론적 방법은 데이터 마이닝 및 머신러닝을 위한 수많은 기술의 기초를 형성합니다.

— 페이지 336, 데이터 마이닝: 실용적인 머신러닝 도구 및 기술. 4판, 2016.

응용 머신러닝에서 사용하는 절차는 우리가 논의한 불확실성의 원인을 해결하기 위해 신중하게 선택되지만 절차가 선택된 이유를 이해하려면 확률 및 확률 이론에 대한 기본적인 이해가 필요합니다.


추가 정보

이 섹션에서는 더 자세히 알아보려는 경우 주제에 대한 더 많은 리소스를 제공합니다.

기사


요약

이 게시물에서는 머신러닝의 불확실성 문제를 발견했습니다.

특히 다음 내용을 배웠습니다.

  • 불확실성은 머신러닝 초보자, 특히 개발자에게 가장 큰 어려움의 원인입니다.
  • 데이터의 노이즈, 도메인의 불완전한 적용 범위 및 불완전한 모델은 머신러닝에서 불확실성의 세 가지 주요 원인을 제공합니다.
  • 확률은 적용된 머신러닝에서 불확실성을 정량화, 처리 및 활용하기 위한 기초와 도구를 제공합니다.
네피리티
No Comments

Sorry, the comment form is closed at this time.