머신러닝에서 통계가 중요한 이유

통계는 데이터에 대한 중요한 질문에 대한 답변을 얻기 위해 사용할 수 있는 도구 모음입니다.

기술 통계 방법을 사용하여 원시 관측치를 이해하고 공유할 수 있는 정보로 변환할 수 있습니다. 추론 통계 방법을 사용하여 작은 데이터 샘플에서 전체 도메인으로 추론할 수 있습니다.

이 게시물에서는 일반적으로 통계가 중요한 이유와 머신러닝 및 일반적으로 사용 가능한 방법 유형을 명확하게 발견하게 될 것입니다.

이 게시물을 읽은 후 다음을 알게 될 것입니다.

  • 통계는 일반적으로 응용 머신러닝 분야의 전제 조건으로 간주됩니다.
  • 관측치를 정보로 변환하고 관측치 표본에 대한 질문에 답하는 데 도움이 되는 통계가 필요합니다.
  • 통계는 데이터를 요약하고 관찰 샘플이 주어진 도메인의 속성을 정량화하기 위해 수백 년에 걸쳐 개발된 도구 모음입니다.

통계는 필수 전제 조건입니다.

머신러닝과 통계는 밀접하게 관련된 두 가지 연구 분야입니다. 통계학자들은 머신러닝을 컴퓨터 과학 중심의 이름이 아닌 “응용 통계” 또는 “통계 학습“이라고 부를 정도입니다.

머신러닝은 독자가 통계에 대한 배경 지식이 있다고 가정하고 초보자에게 거의 보편적으로 제공됩니다. 몇 가지 체리 픽 예제로 이 콘크리트를 만들 수 있습니다.

응용 예측 모델링“이라는 제목의 인기 있는 응용 머신러닝 책의 시작 부분에서 이 인용문을 살펴보십시오.

… 독자는 분산, 상관 관계, 단순 선형 회귀 및 기본 가설 검정(예: p-값 및 검정 통계량)을 포함한 기본 통계에 대한 지식이 있어야 합니다.

— 페이지 vii,응용 예측 모델링, 2013

다음은 인기있는 “통계 학습 입문” 책의 또 다른 예입니다.

우리는 독자가 통계학에서 적어도 하나의 초등 과정을 가질 것으로 기대합니다.

— 페이지 9, R의 응용 프로그램을 사용한 통계 학습 소개, 2013.

통계가 전제 조건이 아닌 경우에도 널리 읽히는 “프로그래밍 집단 지성“의 인용문에서 볼 수 있듯이 몇 가지 사전 지식이 필요합니다.

… 이 책은 당신이 […] 또는 통계에 대한 사전 지식이 있다고 가정하지 않습니다. […] 그러나 삼각법과 기본 통계에 대한 지식이 있으면 알고리즘을 이해하는 데 도움이 됩니다.

— 페이지 xiii,집단 지성 프로그래밍: 스마트 웹 2.0 애플리케이션 구축, 2007.

머신러닝을 이해하려면 통계에 대한 몇 가지 기본적인 이해가 필요합니다.

왜 그런지 알기 위해서는 먼저 통계 분야가 필요한 이유를 이해해야 합니다.


왜 통계를 배우는가?

관찰 결과는 데이터이지만 정보나 지식은 아닙니다.

데이터는 다음과 같은 질문을 제기합니다.

  • 가장 일반적이거나 예상되는 관찰은 무엇입니까?
  • 관측치의 한계는 무엇입니까?
  • 데이터는 어떻게 생겼습니까?

단순해 보이지만 관찰을 우리가 사용하고 공유할 수 있는 정보로 전환하려면 이러한 질문에 답해야 합니다.

비가공 데이터 외에도 관찰을 수행하기 위해 실험을 설계할 수 있습니다. 이러한 실험 결과에서 다음과 같은 더 정교한 질문이 있을 수 있습니다.

  • 어떤 변수가 가장 관련성이 높습니까?
  • 두 실험 간의 결과 차이는 무엇입니까?
  • 차이가 실제입니까 아니면 데이터의 노이즈의 결과입니까?

이 유형의 질문은 중요합니다. 결과는 프로젝트, 이해관계자 및 효과적인 의사 결정에 중요합니다.

데이터에 대한 질문의 답을 찾으려면 통계적 방법이 필요합니다.

머신러닝 모델을 학습하는 데 사용되는 데이터를 이해하고 다양한 머신러닝 모델을 테스트한 결과를 해석하려면 통계적 방법이 필요하다는 것을 알 수 있습니다.

이것은 예측 모델링 프로젝트의 각 단계에서 통계적 방법을 사용해야 하기 때문에 빙산의 일각에 불과합니다.


통계란 무엇입니까?

통계는 수학의 하위 분야입니다.

데이터로 작업하고 데이터를 사용하여 질문에 답하는 방법 모음을 나타냅니다.

통계는 수수께끼 같은 질문에 대해 수치적 추측을 하는 기술입니다. […] 이 방법은 질문에 대한 답을 찾고 있는 사람들에 의해 수백 년에 걸쳐 개발되었습니다.

— 페이지 xiii,통계, 제4판, 2007.

통계는 초보자에게 크고 무정형으로 보일 수 있는 데이터 작업을 위한 여러 메서드로 구성되어 있습니다. 통계에 속하는 방법과 다른 연구 분야에 속하는 방법 사이의 경계를 보는 것은 어려울 수 있습니다. 종종 기술은 통계의 고전적인 방법과 기능 선택 또는 모델링에 사용되는 최신 알고리즘일 수 있습니다.

통계에 대한 실무 지식에는 깊은 이론 지식이 필요하지 않지만 통계와 확률 간의 관계에서 중요하고 소화하기 쉬운 정리가 귀중한 토대를 제공 할 수 있습니다.

두 가지 예는 큰 수의 법칙과 중심 극한 정리를 포함합니다. 첫 번째는 더 큰 샘플이 종종 더 나은 이유를 이해하는 데 도움이 되고 두 번째는 샘플 간의 예상 값(예: 평균값)을 비교할 수 있는 방법에 대한 기초를 제공합니다.

우리가 실제로 사용하는 통계 도구에 관해서는 통계 분야를 두 가지 큰 방법 그룹, 즉 데이터 요약을 위한 기술 통계와 데이터 샘플에서 결론을 도출하기 위한 추론 통계로 나누는 것이 도움이 될 수 있습니다.

통계를 통해 연구원은 많은 사람들로부터 정보 또는 데이터를 수집한 다음 일반적인 경험을 요약할 수 있습니다. […] 통계는 그룹간의 일반적인 차이에 대한 결론에 도달하는 데에도 사용됩니다. […] 통계를 사용하여 두 변수의 점수가 관련되어 있는지 확인하고 예측할 수도 있습니다.

페이지 ix-x,일반 영어 통계, 제 3 판, 2010.


기술 통계

기술 통계는 관찰을 우리가 이해하고 공유할 수 있는 정보로 요약하는 방법을 말합니다.

일반적으로 기술 통계는 공통 기대값(예: 평균 또는 중앙값) 및 데이터의 산포(예: 분산 또는 표준 편차)와 같은 데이터 표본의 속성을 요약하기 위해 데이터 표본에 대한 통계적 값을 계산하는 것으로 생각합니다.

기술 통계는 데이터 샘플을 시각화하는 데 사용할 수 있는 그래픽 방법도 포함할 수 있습니다. 차트와 그래픽은 관측치의 형태 또는 분포 뿐만 아니라 변수가 서로 어떻게 관련될 수 있는지에 대한 유용한 정성적 이해를 제공할 수 있습니다.


추론 통계

추론 통계는 샘플이라고 하는 더 작은 획득된 관측치 집합에서 도메인 또는 모집단의 속성을 정량화하는 데 도움이 되는 방법의 멋진 이름입니다.

일반적으로 추론 통계는 모집단 분포에서 기대값 또는 산포량과 같은 수량을 추정하는 것으로 생각합니다.

보다 정교한 통계적 추론 도구를 사용하여 가정이 주어진 데이터 샘플을 관찰할 가능성을 정량화 할 수 있습니다. 이들은 종종 통계적 가설 테스트를 위한 도구라고 하며, 테스트의 기본 가정을 귀무 가설이라고 합니다.

우리가 가정할 수 있는 가설의 범위와 테스트 결과가 정확하다는 검정력이나 가능성을 높이기 위해 데이터에 부과할 수 있는 제약 조건을 고려할 때 추론 통계 방법의 많은 예가 있습니다.

추가 정보

이 섹션에서는 더 자세히 알아보려는 경우 주제에 대한 더 많은 리소스를 제공합니다.

기사


요약

이 게시물에서는 통계가 일반적으로 그리고 머신러닝에 중요한 이유와 일반적으로 사용 가능한 방법 유형을 명확하게 발견했습니다.

특히 다음 내용을 배웠습니다.

  • 통계는 일반적으로 응용 머신러닝 분야의 전제 조건으로 간주됩니다.
  • 관측치를 정보로 변환하고 관측치 표본에 대한 질문에 답하는 데 도움이 되는 통계가 필요합니다.
  • 통계는 데이터를 요약하고 관찰 샘플이 주어진 도메인의 속성을 정량화하기 위해 수백 년에 걸쳐 개발된 도구 모음입니다.
네피리티
No Comments

Sorry, the comment form is closed at this time.