파라메트릭(Parametric)과 비파라메트릭(Nonparametric) 머신러닝 알고리즘

파라메트릭 알고리즘이란 무엇이며 비파라메트릭적 머신러닝 알고리즘과 어떻게 다릅니까?

이 게시물에서는 파라메트릭 머신러닝 알고리즘과 비파라메트릭 머신러닝 알고리즘의 차이점을 알아보겠습니다.



함수 학습

머신러닝은 입력 변수(X)를 출력 변수(Y)에 매핑하는 함수(f)를 학습하는 것으로 요약할 수 있습니다.

Y = f (x)

알고리즘은 훈련 데이터에서 이 목표 매핑 함수를 학습합니다.

함수의 형태를 알 수 없으므로 머신러닝 실무자로서 우리의 임무는 다양한 머신러닝 알고리즘을 평가하고 기본 함수를 근사화하는 데 어느 것이 더 나은지 확인하는 것입니다.

다른 알고리즘은 함수의 형태와 학습 방법에 대해 다른 가정이나 편향을 만듭니다.



파라메트릭 머신러닝 알고리즘

가정은 학습 과정을 크게 단순화 할 수 있지만 학습 할 수있는 내용을 제한 할 수도 있습니다. 함수를 알려진 형식으로 단순화하는 알고리즘을 파라메트릭 머신러닝 알고리즘이라고 합니다.

고정된 크기의 파라미터 집합(훈련 예제의 수에 관계없이)으로 데이터를 요약하는 학습 모델을 파라메트릭 모델이라고 합니다. 파라메트릭 모델에 얼마나 많은 데이터를 던지더라도 필요한 매개변수의 수에 대한 마음은 바뀌지 않습니다.

— 인공 지능: 현대적인 접근 방식, 페이지 737

알고리즘에는 다음 두 단계가 포함됩니다.

  1. 함수에 대한 양식을 선택합니다.
  2. 훈련 데이터에서 함수에 대한 계수를 학습합니다.

매핑 함수의 이해하기 쉬운 함수 형식은 선형 회귀에서 사용되는 선입니다.

b0 + b1*x1 + b2*x2 = 0

여기서 b0, b1 및 b2는 절편과 기울기를 제어하는 선의 계수이고 x1 및 x2는 두 개의 입력 변수입니다.

선의 기능적 형태를 가정하면 학습 과정이 크게 단순화됩니다. 이제 우리가해야 할 일은 선 방정식의 계수를 추정하는 것이며 문제에 대한 예측 모델이 있습니다.

종종 가정 된 함수 형식은 입력 변수의 선형 조합이며 이러한 매개 변수 머신러닝 알고리즘은 종종 “선형 머신러닝 알고리즘“이라고도 합니다.

문제는 실제 알려지지 않은 기본 함수가 선과 같은 선형 함수가 아닐 수 있다는 것입니다. 거의 한 줄일 수 있으며 올바르게 작동하려면 입력 데이터를 약간 변환해야 합니다. 또는 가정이 잘못되어 접근 방식이 좋지 않은 결과를 낳는 선과 같지 않을 수 있습니다.

파라메트릭 머신러닝 알고리즘의 몇 가지 예는 다음과 같습니다.

  • 로지스틱 회귀
  • 선형 판별 분석
  • 퍼셉트론
  • 나이브 베이즈
  • 간단한 신경망

파라메트릭 머신러닝 알고리즘의 이점:

  • 더 간단함: 이러한 방법은 결과를 이해하고 해석하기가 더 쉽습니다.
  • 속도: 파라메트릭 모델은 데이터에서 매우 빠르게 학습할 수 있습니다.
  • 더 적은 데이터: 많은 학습 데이터가 필요하지 않으며 데이터에 대한 피팅이 완벽하지 않더라도 잘 작동할 수 있습니다.

파라메트릭 머신러닝 알고리즘의 한계:

  • 제한됨: 함수형 양식을 선택하면 이러한 메서드가 지정된 양식에 매우 제약을 받습니다.
  • 제한된 복잡성: 이 방법은 더 간단한 문제에 더 적합합니다.
  • 적합성 불량: 실제로 메서드는 기본 매핑 함수와 일치하지 않을 수 있습니다.


비파라메트릭적 머신러닝 알고리즘

매핑 함수의 형태에 대해 강력한 가정을 하지 않는 알고리즘을 비파라메트릭적 머신러닝 알고리즘이라고 합니다. 가정하지 않음으로써 학습 데이터에서 모든 기능적 형태를 자유롭게 배울 수 있습니다.

비파라메트릭 방법은 데이터가 많고 사전 지식이 없고 올바른 기능을 선택하는 것에 대해 너무 많이 걱정하고 싶지 않을 때 유용합니다.

— 인공 지능: 현대적인 접근 방식, 페이지 757

비파라메트릭 방법은 매핑 함수를 구성할 때 훈련 데이터를 가장 잘 맞추는 동시에 보이지 않는 데이터로 일반화하는 일부 기능을 유지하려고 합니다. 따라서 많은 기능적 형태에 맞출 수 있습니다.

이해하기 쉬운 비파라메트릭 모델은 새 데이터 인스턴스에 대해 k개의 가장 유사한 훈련 패턴을 기반으로 예측을 수행하는 k-최근접 이웃 알고리즘입니다. 이 메서드는 유사한 출력 변수를 가질 가능성이 있는 가까운 패턴 이외의 매핑 함수의 형태에 대해 아무 것도 가정하지 않습니다.

널리 사용되는 비파라메트릭적 머신러닝 알고리즘의 몇 가지 예는 다음과 같습니다.

  • k-최근접 이웃
  • CART 및 C4.5와 같은 의사 결정 트리
  • 지원 벡터 기계

비파라메트릭적 머신러닝 알고리즘의 이점:

  • 유연성 : 많은 기능적 형태에 맞출 수 있습니다.
  • : 기본 함수에 대한 가정(또는 약한 가정)이 없습니다.
  • 성능: 예측을 위한 더 높은 성능 모델을 생성할 수 있습니다.

비파라메트릭적 머신러닝 알고리즘의 한계:

  • 더 많은 데이터: 매핑 함수를 추정하기 위해 더 많은 훈련 데이터가 필요합니다.
  • 느림: 훈련할 매개변수가 훨씬 더 많은 경우가 많기 때문에 훈련 속도가 훨씬 느립니다.
  • 과적합: 훈련 데이터에 과적합할 위험이 더 높으며 특정 예측이 수행되는 이유를 설명하기가 더 어렵습니다.

추가 정보

이 섹션에는 파라메트릭 머신러닝 알고리즘과 비파라메트릭 머신러닝 알고리즘의 차이점에 대해 자세히 알아보려는 경우 몇 가지 리소스가 나열되어 있습니다.





요약

이 게시물에서는 파라메트릭 머신러닝 알고리즘과 비파라메트릭 머신러닝 알고리즘의 차이점을 알아보았습니다.

모수 메서드는 입력 변수를 출력 변수에 매핑하는 것에 대해 큰 가정을 하고 결과적으로 훈련 속도가 더 빠르고, 더 적은 데이터가 필요하지만 강력하지는 않을 수 있다는 것을 배웠습니다.

또한 비파라메트릭적 방법은 대상 함수에 대한 가정을 거의 또는 전혀 하지 않으므로 더 많은 데이터가 필요하고 학습 속도가 느리고 모델 복잡성이 높지만 더 강력한 모델을 생성할 수 있다는 것도 배웠습니다.

네피리티
No Comments

Sorry, the comment form is closed at this time.