응용 통계와 머신러닝간의 밀접한 관계
머신러닝 실무자는 알고리즘의 전통과 모델 해석 가능성과 같은 다른 관심사보다 결과 및 모델 기술에 실용적인 초점을 가지고 있습니다.
통계학자들은 응용 통계와 통계 학습이라는 이름으로 거의 동일한 유형의 모델링 문제를 연구합니다. 수학적 배경에서 온 그들은 모델의 동작과 예측의 설명 가능성에 더 중점을 둡니다.
동일한 문제에 대한 두 접근 방식 간의 매우 밀접한 관계는 두 분야가 서로에게서 배울 것이 많다는 것을 의미합니다. 통계학자들이 알고리즘 방법을 고려해야 하는 것은 고전적인 “두 문화” 논문에서 언급되었습니다. 머신러닝 실무자는 또한 주의를 기울이고 열린 마음을 유지하며 응용 통계에서 용어와 관련 방법을 모두 배워야 합니다.
이 게시물에서는 머신러닝과 통계 학습이 밀접하게 관련되어 있지만 동일한 문제에 대한 서로 다른 관점이라는 것을 알게 될 것입니다.
이 게시물을 읽은 후 다음을 알게 될 것입니다.
- “머신러닝“과 “예측 모델링”은 알고리즘 방법과 모델 기술에 중점을 둔 데이터 모델링에 대한 컴퓨터 과학 관점입니다.
- “통계“와 “통계 학습“은 데이터 모델과 적합성에 중점을 둔 데이터 모델링에 대한 수학적 관점입니다.
- 머신러닝 실무자는 열린 마음을 유지하고 방법을 활용하고 응용 통계 및 통계 학습의 밀접하게 관련된 분야의 용어를 이해해야 합니다.
머신러닝
머신러닝은 인공 지능의 하위 분야이며 컴퓨터 과학의 광범위한 분야와 관련이 있습니다.
예측을 위해 머신러닝 모델을 개발할 때는 알고리즘, 코드 및 결과에 중점을 둡니다.
머신러닝은 Tom Mitchell의 고전적인 1997 교과서의 정의에서 볼 수 있듯이 예측을하기 위해 모델을 개발하는 것보다 훨씬 광범위합니다.
머신러닝 분야는 경험에 따라 자동으로 개선되는 컴퓨터 프로그램을 구성하는 방법에 대한 질문과 관련이 있습니다.
— 페이지 xv, 머신러닝, 1997.
여기서 우리는 연구 관점에서 머신러닝이 실제로 컴퓨터 프로그램으로 학습하는 연구임을 알 수 있습니다. 이러한 학습 프로그램 중 일부는 예측 모델링 문제에 유용하고 일부는 실제로 통계와 같은 다른 분야에서 차용되었습니다.
선형 회귀가 완벽한 예입니다. 이것은 선이나 평면을 실제 값 데이터에 맞추는 데 사용되는 (당시: 초기) 통계 분야에서 100년 이상 된 방법입니다. 머신러닝 관점에서, 우리는 도메인의 예제에 대한 응답으로 가중치 (계수)를 학습하는 시스템으로 간주합니다.
인공 지능 및 머신러닝 분야에서 때로는 통계학자에 의해 많은 방법이 개발되어 예측 모델링 작업에 매우 유용합니다. 좋은 예는 통계의 고전적인 방법과 유사하지 않은 분류 및 회귀 트리입니다.
예측 모델링
실무자에게 머신러닝의 유용한 부분은 예측 모델링이라고 할 수 있습니다.
이는 통계와 머신러닝의 차이점을 명시적으로 무시합니다. 또한 통계(데이터 이해)와 머신러닝(소프트웨어 학습 이해)의 더 넓은 목표를 무시하고 이름에서 알 수 있듯이 예측을 하는 모델을 개발하는 데에만 관심이 있습니다.
예측 모델링이라는 용어는 머신러닝, 패턴 인식 및 데이터 마이닝과 같은 연관성을 유발할 수 있습니다. 실제로 이러한 연관성은 적절하며 이러한 용어가 암시하는 방법은 예측 모델링 프로세스의 필수적인 부분입니다. 그러나 예측 모델링은 데이터 내에서 패턴을 발견하기 위한 도구와 기술 이상의 것을 포함합니다. 예측 모델링의 관행은 아직 볼 수 없는 미래의 데이터에 대한 모델의 예측 정확도를 이해하고 정량화할 수 있는 방식으로 모델을 개발하는 프로세스를 정의합니다.
— 페이지 vii,응용 예측 모델링, 2013
예측 모델링은 모델 기술의 일부 측정과 관련하여 가능한 최상의 결과를 얻기 위해 모델 개발에 초점을 맞춥니다. 이 실용적인 접근 방식은 종종 거의 모든 것을 희생시키면서 최대 기술 또는 최소 오류의 형태로 결과를 추구한다는 것을 의미합니다.
우리가 프로세스, 머신러닝 또는 예측 모델링이라고 부르는 것은 중요하지 않습니다. 어떤 의미에서 그것은 마케팅 및 그룹 식별입니다. 결과를 얻고 가치를 제공하는 것은 실무자에게 더 중요합니다.
통계적 학습
데이터 세트로 작업하고 예측 모델을 개발하는 프로세스도 통계의 작업입니다.
통계학자는 전통적으로 활동을 응용 통계라고 불렀을 수 있습니다.
통계는 수학의 하위 분야이며, 이 유산은 잘 정의되고 신중하게 선택된 방법에 초점을 맞춥니 다. 특정 모델이 선택된 이유뿐만 아니라 특정 예측이 이루어지는 방법과 이유를 이해해야 합니다.
이러한 관점에서 종종 모델 기술이 중요하지만 모델의 해석 가능성보다 덜 중요합니다.
그럼에도 불구하고 현대 통계 학자들은 “통계 학습”이라는 응용 통계의 하위 분야로서 새로운 관점을 공식화했습니다. 모델 기술이 중요한 “예측 모델링“과 동일한 통계일 수 있지만 학습 모델의 신중한 선택 및 도입에 더 중점을 둘 수 있습니다.
통계적 학습은 복잡한 데이터 세트를 모델링하고 이해하기 위한 도구 집합을 나타냅니다. 통계학에서 최근에 개발된 영역이며 컴퓨터 과학, 특히 머신러닝의 병렬 개발과 혼합됩니다.
— 페이지 vii, R의 응용 프로그램을 사용한 통계 학습 소개, 2013.
통계학에서 분야와 하위 분야 사이에 아이디어가 분출하고 있음을 알 수 있습니다. 머신러닝 실무자는 문제에 대한 머신러닝과 통계 기반 접근 방식을 모두 알고 있어야 합니다. 이는 두 영역에서 서로 다른 용어를 사용할 때 특히 중요합니다.
통계학 과정에서 머신러닝에 발을 들여놓은 통계학자인 Rob Tibshirani는 통계의 용어를 머신러닝의 용어에 매핑하는 용어집을 제공합니다.
이는 머신러닝 실무자가 예측 모델링에 집중하고 원산지에 관계없이 방법, 아이디어 및 용어에 개방적인 상태를 유지해야 할 필요성이 더 깊음을 강조합니다. 이것은 생물 정보학 및 계량 경제학과 같은 현대 분야에 적용될 수 있지만 밀접하게 관련되고 훨씬 오래된 통계 분야에 더 많이 적용됩니다.
두 문화
최근에, 그리고 아마도 지금도 여전히 응용 통계학자들은 머신러닝 분야와 모든 비용의 결과 예측 모델링의 실행을 살펴보았습니다.
두 분야 모두 엄청난 가치를 제공하지만 예측 모델링의 동일한 일반적인 문제의 미묘하게 다른 맛일 수 있습니다.
위에서 언급한 의사 결정 트리와 최근에 딥 러닝으로 레이블이 변경된 인공 신경망과 같은 머신러닝의 컴퓨터 과학 관점에서 모델링하는 데 실질적이고 가치 있는 기여가 이루어졌습니다.
머신러닝 실무자가 응용 통계 및 통계 학습을 주시해야하는 것처럼 통계학자는 머신러닝을 주시해야합니다.
이 요청은 Leo Breiman의 “통계 모델링 : 두 문화“라는 제목의 2001년 논문에서 명확하게 이루어졌습니다.
이 책에서 그는 통계학자의 “데이터 모델링 문화”를 머신러닝이 속한 다른 모든 분야의 “알고리즘 모델링 문화“와 대조합니다. 그는 이러한 문화를 입력에 출력에 매핑하는 동일한 문제에 대해 생각하는 방식으로 강조하며, 통계적 접근 방식은 적합성 테스트의 장점에 초점을 맞추고 알고리즘 접근 방식은 예측 정확도에 중점을 둡니다.
그는 통계 분야가 관련성을 잃고 알고리즘 접근 방식을 무시함으로써 방법의 취약성으로 어려움을 겪을 것이라고 제안합니다. 그가 “데이터 모델”이라고 부르는 고전적인 접근 방식은 실무자가 모델을 생성했을 수 있는 데이터 및 프로세스보다는 모델의 동작(예: 로지스틱 회귀)을 선택하고 초점을 맞추는 미묘하지만 중요한 초점 전환입니다.
이는 데이터에 맞게 모델을 선택하거나 조정하는 대신 데이터를 모델에 맞게 만드는 데 초점을 맞추는 것으로 특징 지어질 수 있습니다(아마도 불공평하게).
통계 커뮤니티는 데이터 모델의 거의 독점적 인 사용에 전념해 왔습니다. 이러한 노력은 관련 없는 이론, 의심스러운 결론으로 이어졌으며 통계학자들이 광범위한 흥미로운 현재 문제에 대해 연구하지 못하게 했습니다. […] 분야로서의 목표가 데이터를 사용하여 문제를 해결하는 것이라면 데이터 모델에 대한 독점적 의존에서 벗어나 보다 다양한 도구 세트를 채택해야 합니다.
그것은 중요한 논문이며, 여전히 관련성이 있으며 이미 15년이 지났지만 훌륭한 읽을 거리입니다.
통계학자에 의한 “통계적 학습“과 같은 하위 분야의 출현은 진전이 이루어지고 있음을 시사합니다.
추가 정보
이 섹션에서는 더 자세히 알아보려는 경우 주제에 대한 더 많은 리소스를 제공합니다.
- 통계 모델링 : 두 문화, 2001.
- 통계 대 머신러닝, 싸움!, 2008.
- 두 문화: 통계 대 머신러닝? 교차 검증
- 용어집: 머신러닝 대 통계, 현대 응용 통계: 통계 학습의 요소.
요약
이 게시물에서는 머신러닝과 통계 학습이 밀접하게 관련되어 있지만 동일한 문제에 대한 서로 다른 관점이라는 것을 발견했습니다.
특히 다음 내용을 배웠습니다.
- “머신러닝“과 “예측 모델링”은 알고리즘 방법과 모델 기술에 중점을 둔 데이터 모델링에 대한 컴퓨터 과학 관점입니다.
- “통계“와 “통계 학습“은 데이터 모델과 적합성에 중점을 둔 데이터 모델링에 대한 수학적 관점입니다.
- 머신러닝 실무자는 열린 마음을 유지하고 방법을 활용하고 응용 통계 및 통계 학습의 밀접하게 관련된 분야의 용어를 이해해야 합니다.