머신러닝 문제에 스팟 체킹 알고리즘을 적용해야 하는 이유

스팟 검사 알고리즘은 머신러닝 문제에 대한 다양한 알고리즘을 빠르게 평가하여 어떤 알고리즘에 집중하고 무엇을 버려야 하는지 알 수 있도록 하는 것입니다.


이 게시물에서는 스팟 검사 알고리즘의 3가지 이점, 다음 문제에 대한 스팟 검사를 위한 5가지 팁 및 알고리즘 제품군에서 스팟 검사를 위해 사용할 수 있는 가장 인기 있는 10가지 데이터 마이닝 알고리즘에 대해 알아봅니다.


스팟 검사 알고리즘

스팟 검사 알고리즘은 적용된 머신러닝 프로세스의 일부입니다. 새로운 문제에서는 문제의 구조를 선택하는 데 적합한 알고리즘 유형 또는 클래스와 그렇지 않은 알고리즘을 신속하게 결정해야합니다.

현장 검사의 대안은 시도할 수 있는 방대한 수의 알고리즘과 알고리즘 유형에 압도 당하여 시도하지 않거나 과거에 효과가 있었던 것을 사용하는 것입니다. 이로 인해 시간이 낭비되고 수준 이하의 결과가 발생합니다.


스팟 검사 알고리즘의 이점

머신러닝 문제에 대한 스팟 검사 알고리즘의 3가지 주요 이점은 다음과 같습니다.

  • 속도 : 다양한 알고리즘을 시도하고, 매개 변수를 조정하고, 어떤 알고리즘이 문제에 잘 맞을지 생각하는 데 많은 시간을 할애할 수 있습니다. 저 역시 체계적이지 않았기 때문에 동일한 알고리즘을 반복해서 테스트하곤 했습니다. 한 번의 현장 확인 실험으로 몇 시간, 며칠, 심지어 몇 주 동안 시간을 절약할 수 있습니다.
  • 목표 : 이전에 당신에게 잘 작동했던 것을 따르는 경향이 있습니다. 우리는 우리가 가장 좋아하는 알고리즘 (또는 알고리즘)을 선택하여 우리가 보는 모든 문제에 적용합니다. 머신러닝의 힘은 주어진 문제에 접근하는 다양한 방법이 있다는 것입니다. 스팟 체크 실험을 사용하면 문제의 구조를 선택하는 데 가장 적합한 알고리즘을 자동으로 객관적으로 발견하여 주의를 집중할 수 있습니다.
  • 결과: 스팟 검사 알고리즘은 사용 가능한 결과를 빠르게 제공합니다. 첫 번째 스팟 실험에서 충분히 좋은 솔루션을 발견할 수 있습니다. 또는 데이터 세트가 주류 알고리즘이 잘 수행하기에 충분한 구조를 노출하지 않는다는 것을 빠르게 배울 수 있습니다. 스팟 검사는 주어진 모델을 앞으로 이동하여 최적화할지 또는 뒤로 이동하여 문제 표시를 다시 검토할지 결정하는 데 필요한 결과를 제공합니다.


저는 당신의 문제에 대한 주류 알고리즘을 즉석 검사하는 것이 쉬운 첫 번째 단계라고 생각합니다.


스팟 검사 알고리즘을 위한 팁

알고리즘을 스팟 체크할 때 유용하고 실행 가능한 결과를 얻을 수 있도록 수행할 수 있는 몇 가지 작업이 있습니다.

다음은 문제에 대한 임의 추출 머신러닝 알고리즘을 최대한 활용할 수 있도록 하는 5가지 팁입니다.

  • 알고리즘 다양성 : 알고리즘 유형의 적절한 혼합을 원합니다. 인스턴스 기반 메소드 (라이브 LVQ 및 knn), 함수 및 커널 (예 : 신경망, 회귀 및 SVM), 규칙 시스템 (예 : 의사 결정 테이블 및 RIPPER) 및 의사 결정 트리 (예 : CART, ID3 및 C4.5)를 포함하고 싶습니다.
  • 공식 실험 : 너무 많은 것들을 시도하지 마십시오. 비공식적인 방식으로 많은 다른 것들을 시도하고 문제에 대한 알고리즘을 실험해 보고 싶은 큰 유혹이 있습니다. 현장 검사의 아이디어는 문제를 잘 해결하는 방법을 빠르게 얻는 것입니다. 실험을 디자인하고 실행한 다음 결과를 분석합니다. 체계적이어야 합니다. 나는 통계적으로 유의미한 승리 (쌍별 비교)로 알고리즘의 순위를 매기고 튜닝의 기초로 상위 3-5 위를 취하는 것을 좋아합니다.
  • 점프 오프 포인트 : 최고 성능의 알고리즘은 문제의 해결책이 아닌 출발점입니다. 효과적인 것으로 표시된 알고리즘은 작업에 가장 적합한 알고리즘이 아닐 수 있습니다. 그것들은 문제에서 잘 수행되는 알고리즘 유형에 대한 유용한 포인터가 될 가능성이 가장 높습니다. 예를 들어, kNN이 잘 작동한다면 생각할 수 있는 모든 인스턴스 기반 방법과 kNN의 변형에 대한 후속 실험을 고려하십시오.
  • 짧은 목록 작성: 다양한 알고리즘을 배우고 시도하면서 임의 추출 검사 실험에 사용하는 알고리즘 제품군에 새 알고리즘을 추가할 수 있습니다. 알고리즘의 특히 강력한 구성을 발견하면이를 일반화하고 내 제품군에 포함시켜 다음 문제에 대해 내 제품군을보다 강력하게 만드는 것을 좋아합니다.


임의 추출 검사 실험을 위한 알고리즘 제품군 구축을 시작하십시오.


상위 10개 알고리즘

2008 년에 “데이터 마이닝의 상위 10 개 알고리즘“이라는 제목의 논문이 발표되었습니다. 누가 그런 타이틀을 지나칠 수 있겠습니까? 또한 “데이터 마이닝의 상위 10 가지 알고리즘“이라는 책으로 바뀌었고 또 다른 “머신러닝 실행“의 구조에 영감을 주었습니다.

이것은 다음 머신러닝 문제를 확인하기 위해 알고리즘의 짧은 목록을 시작하는 데 좋은 논문이 될 수 있습니다. 논문에 나열된 데이터 마이닝을위한 상위 10 개 알고리즘은 다음과 같습니다.

  • C4.5 이것은 의사 결정 트리 알고리즘이며 유명한 C5.0 및 ID3 알고리즘과 같은 하위 메서드를 포함합니다.
  • k-means. 이동 클러스터링 알고리즘입니다.
  • Support Vector Mahines. 이것은 정말 거대한 연구 분야입니다.
  • Apriori. 이것은 규칙 추출을위한 이동 알고리즘입니다.
  • k-평균과 함께 이동 클러스터링 알고리즘입니다.
  • EM.  k-평균과 함께 이동 클러스터링 알고리즘입니다.
  • PageRank. 그래프 기반 문제는 거의 건드리지 않습니다.
  • AdaBoost. 이것은 실제로 앙상블 방법을 강화하는 제품군입니다.
  • knn (k-nearest neighbor). 간단하고 효과적인 인스턴스 기반 방법.
  • Navie Bayes. 데이터에 대한 Bayes 정리의 간단하고 강력한 사용.
  • CART (분류 및 회귀 트리) 또 다른 트리 기반 방법.


이 주제에 대한 훌륭한 Quora 질문이 있어 문제에 시도할 알고리즘 아이디어를 얻을 수 있습니다.


리소스

네피리티
No Comments

Sorry, the comment form is closed at this time.