검색 문제로서의 응용 머신러닝에 대한 짧은 소개

15 12월

검색 문제로서의 응용 머신러닝에 대한 짧은 소개

by Nepirity

in Technology

Comments

응용 머신러닝은 주어진 문제에 대한 완벽한 학습 시스템을 설계하는 것이 다루기 어렵기 때문에 어렵습니다.

문제에 가장 적합한 훈련 데이터나 알고리즘은 없으며 최선을 다해 발견해야 합니다..

머신러닝의 적용은 주어진 프로젝트에 사용할 수 있는 지식과 리소스가 주어지면 입력과 출력을 가장 잘 매핑하기 위한 검색 문제로 생각됩니다.

이 게시물에서는 검색 문제로서의 응용 머신러닝의 개념화를 발견합니다.

이 게시물을 읽은 후 다음을 알게 될 것입니다.

적용된 머신러닝은 입력에서 출력으로 알려지지 않은 기본 매핑 함수를 근사화하는 문제입니다.
데이터 선택 및 알고리즘 선택과 같은 설계 결정은 궁극적으로 선택할 수 있는 가능한 매핑 함수의 범위를 좁힙니다.
검색으로서의 머신러닝의 개념화는 앙상블의 사용, 알고리즘의 현장 검사 및 알고리즘이 학습 할 때 일어나는 일에 대한 이해를 합리화하는 데 도움이 됩니다.

개요

이 게시물은 다음과 같이 다섯 부분으로 나뉩니다.

함수 근사 문제
검색으로서의 함수 근사
데이터 선택
알고리즘 선택
검색으로서의 머신러닝의 의미

함수 근사 문제

응용 머신러닝은 특정 학습 문제를 해결하기위한 학습 시스템의 개발입니다.

학습 문제는 입력 데이터와 출력 데이터로 구성된 관찰과 둘 사이의 알려지지 않았지만 일관된 관계가 특징입니다.

학습 시스템의 목표는 출력 변수를 알 수 없는 도메인에서 가져온 새 인스턴스에 대해 숙련된 예측을 수행할 수 있도록 입력 데이터와 출력 데이터 간의 일반화된 매핑을 학습하는 것입니다.

머신러닝에 대한 통계적 관점인 통계적 학습에서 문제는 주어진 입력 데이터(X)와 관련 출력 데이터(y)의 매핑 함수(f)의 학습으로 구성됩니다.

1
y = f(X)

우리는 X와 y의 샘플을 가지고 있으며 f와 같은 f에 가까운 함수를 생각해내기 위해 최선을 다하여 미래에 새로운 예제(Xhat)가 주어지면 예측(yhat)을 할 수 있습니다.

1
yhat = fprime(Xhat)

따라서 응용 머신러닝은 함수 근사의 문제로 생각할 수 있습니다.

입력에서 출력으로의 매핑으로서의 머신러닝

학습된 매핑은 불완전합니다.

학습 시스템을 설계하고 개발하는 문제는 입력 변수를 출력 변수에 매핑하는 알려지지 않은 기본 함수의 유용한 근사치를 학습하는 문제입니다.

우리는 함수의 형태를 알지 못합니다, 왜냐하면 우리가 그렇게한다면, 우리는 학습 시스템이 필요하지 않을 것이기 때문입니다. 솔루션을 직접 지정할 수 있습니다.

우리는 진정한 기본 함수를 모르기 때문에 근사화해야 하며, 이는 학습 시스템이 실제 매핑에 얼마나 가까운 근사치인지 알지 못하거나 결코 알 수 없음을 의미합니다.

검색으로서의 함수 근사

우리는 우리의 목적에 충분한 진정한 기본 함수의 근사치를 찾아야합니다.

학습 프로세스에 오류를 도입하여 프로세스를 더 어렵게 만들고 결과적으로 매핑의 유용성을 떨어뜨릴 수 있는 많은 노이즈 소스가 있습니다. 예를 들어:

학습 문제의 틀 선택.
시스템을 훈련시키는 데 사용되는 관측치의 선택입니다.
학습 데이터를 준비하는 방법의 선택입니다.
예측 모델에 대한 표현 형식의 선택.
학습 데이터에 모델을 맞추기 위한 학습 알고리즘의 선택입니다.
예측 기술을 평가할 성능 측정값의 선택입니다.

학습 시스템 개발에는 많은 결정 포인트가 있으며 사전에 알려진 답변은 없음을 알 수 있습니다.

학습 문제에 대해 가능한 모든 학습 시스템을 각 결정 지점이 검색 범위를 좁히는 거대한 검색 공간으로 생각할 수 있습니다.

입력에서 출력까지 가능한 모든 매핑 기능의 검색 공간

예를 들어, 학습 문제가 꽃의 종을 예측하는 것이라면 수백만 개의 가능한 학습 시스템 중 하나를 다음과 같이 좁힐 수 있습니다.

종 클래스 레이블(예: 분류)을 예측하는 것으로 문제를 구성하도록 선택합니다.
주어진 종과 유사한 종의 측정을 선택하십시오.
훈련 데이터를 수집하기 위해 측정할 특정 nursery에서 꽃을 선택하십시오.
이해 관계자에게 예측을 설명할 수 있도록 의사 결정 트리 모델 표현을 선택합니다.
의사 결정 트리 모델에 맞는 CART 알고리즘을 선택합니다.
분류 정확도를 선택하여 모델의 기술을 평가합니다.

또한 학습 시스템 개발과 관련된 많은 결정에 대해 자연스러운 계층 구조가있을 수 있으며, 각 결정은 우리가 구축 할 수있는 가능한 학습 시스템의 공간을 더욱 좁힙니다.

이 축소는 실제로 사용할 수있는 유용한 매핑에 더 가까워지는 것을 목표로 가능한 학습 시스템의 한 하위 집합을 다른 하위 집합보다 의도적으로 선택하는 유용한 편향을 도입합니다. 이 편향은 문제 프레이밍의 최상위 수준과 머신러닝 알고리즘 또는 알고리즘 구성의 선택과 같은 낮은 수준 모두에 적용됩니다.

데이터 선택

학습 문제의 선택된 프레임과 시스템 교육에 사용되는 데이터는 학습 시스템 개발에서 큰 레버리지 포인트입니다.

모든 데이터에 액세스 할 수있는 것은 아닙니다 : 즉 모든 입력 및 출력 쌍입니다. 그렇게 했다면 새 입력 관측치에 대한 출력 예측을 만들기 위해 예측 모델이 필요하지 않을 것입니다.

몇 가지 입력-출력 쌍이 있습니다. 그렇지 않으면 예측 모델을 학습하는 데 사용할 데이터가 없습니다.

그러나 데이터가 많고 학습을 위해 일부만 선택해야 할 수도 있습니다. 또는 마음대로 데이터를 생성할 수 있는 자유가 있고 무엇을 얼마나 많이 생성하거나 수집해야 하는지에 대한 도전을 받을 수도 있습니다.

학습 시스템을 모델링하기 위해 선택한 데이터는 사용 가능한 데이터와 모델이 미래에 예측을 수행할 것으로 예상되는 데이터 모두에 대한 입력 데이터와 출력 데이터 간의 관계를 충분히 캡처해야 합니다.

문제에 대한 모든 데이터의 우주에서 훈련 데이터 선택

알고리즘 선택

모델의 표현과 학습 데이터에 모델을 피팅하는 데 사용되는 알고리즘을 선택해야 합니다. 이것은 다시 학습 시스템 개발에 대한 또 다른 큰 지렛대입니다.

문제에 대한 모든 알고리즘의 우주에서 알고리즘 선택

종종 이 결정은 알고리즘 선택으로 단순화되지만, 프로젝트 이해 관계자가 프로젝트에 제약 조건을 부과하는 것이 일반적이지만, 예를 들어 모델이 예측을 설명할 수 있는 경우 최종 모델 표현의 형태와 검색할 수 있는 매핑 범위에 제약 조건을 부과합니다.

입력에서 출력으로의 대략적인 매핑 선택의 효과

검색으로서의 머신러닝의 의미

검색 문제로 학습 시스템을 개발하는 이러한 개념화는 응용 머신러닝에서 많은 관련 문제를 명확히 하는 데 도움이 됩니다.

이 섹션에서는 몇 가지 내용을 살펴봅니다.

반복적으로 학습하는 알고리즘

매핑을 학습하는 데 사용되는 알고리즘은 추가 제약 조건을 부과하며, 선택한 알고리즘 구성과 함께 모델이 적합할 때 가능한 후보 매핑의 공간을 탐색하는 방법을 제어합니다(예: 반복적으로 학습하는 머신러닝 알고리즘의 경우).

여기에서 우리는 머신러닝 알고리즘에 의한 훈련 데이터에서 학습하는 행위가 사실상 학습 시스템에 대한 가능한 매핑의 공간을 탐색하고 있음을 알 수 있으며, 희망적으로 열악한 매핑에서 더 나은 매핑 (예 : hill climbing)으로 이동합니다.

학습 알고리즘이 데이터에 반복적으로 학습하는 효과

이는 특정 학습 데이터에 대한 모델 표현을 최대한 활용하기 위해 머신러닝 알고리즘의 핵심에서 최적화 알고리즘의 역할에 대한 개념적 근거를 제공합니다.

앙상블의 이론적 근거

또한 서로 다른 모델 표현이 가능한 모든 함수 매핑의 공간에서 상당히 다른 위치를 차지하고 예측을 할 때 상당히 다른 동작을 수행한다는 것을 알 수 있습니다 (예 : 상관되지 않은 예측 오류).

이것은 서로 다르지만 숙련된 예측 모델의 예측을 결합하는 앙상블 방법의 역할에 대한 개념적 근거를 제공합니다.

여러 최종 모델의 예측 결합에 대한 해석

현장 검사의 근거

다른 표현을 가진 다른 알고리즘은 가능한 함수 매핑의 공간에서 다른 위치에서 시작할 수 있으며 공간을 다르게 탐색합니다.

이러한 알고리즘이 탐색하는 제한된 공간이 적절한 프레이밍과 양호한 데이터로 잘 지정되어 있다면 대부분의 알고리즘은 양호하고 유사한 매핑 함수를 발견할 가능성이 높습니다.

또한 학습 데이터의 좋은 프레이밍과 신중한 선택이 어떻게 현대의 강력한 머신러닝 알고리즘 제품군에서 찾을 수 있는 후보 매핑의 공간을 열 수 있는지 알 수 있습니다.

이것은 주어진 머신러닝 문제에 대한 알고리즘 모음을 확인하고 가장 유망한 것을 두 배로 늘리거나 가장 간결한 솔루션 (예 : 오컴의 면도날)을 선택하기위한 근거를 제공합니다.

추가 정보

이 섹션에서는 더 자세히 알아보려는 경우 주제에 대한 더 많은 리소스를 제공합니다.

요약

이 게시물에서는 응용 머신러닝의 개념화를 검색 문제로 발견했습니다.

특히 다음 내용을 배웠습니다.

적용된 머신러닝은 입력에서 출력으로 알려지지 않은 기본 매핑 함수를 근사화하는 문제입니다.
데이터 선택 및 알고리즘 선택과 같은 설계 결정은 궁극적으로 선택할 수 있는 가능한 매핑 함수의 범위를 좁힙니다.
검색으로서의 머신러닝의 개념화는 앙상블 사용, 알고리즘의 현장 검사 및 알고리즘이 학습 할 때 일어나는 일에 대한 이해를 합리화하는 데 도움이 됩니다.

Tags:

Machine learning