Machine learning Tag

Bootstrap method는  모집단에 대한 통계를 추정하는 데 사용되는 리샘플링 기술로서 대체(replacement)를 사용하여 데이터 세트를 샘플링하는 방식입니다.이는 평균 또는 표준 편차와 같은 요약 통계량을 추정하는 데 사용할 수 있습니다. 응용 머신러닝에서 학습 데이터에 포함되지 않은 데이터에 대한 예측을 수행할 때 머신러닝 모델의 기술을 추정하는 데 사용됩니다.머신러닝 모델 기술 추정 결과의 바람직한 속성은 추정된 기술이 교차 검증과 같은 다른 method에서는 쉽게 사용할 수 없는 기능인 신뢰 구간으로 제공될 수...

Read More

데이터는 응용 머신러닝의 통화(currency)입니다. 따라서 효과적으로 수집하고 사용하는 것이 중요합니다.데이터 샘플링은 모집단 모수를 추정할 목적으로 도메인에서 관측치를 선택하는 통계적 방법을 나타냅니다. 데이터 리샘플링은 수집된 데이터 세트를 경제적으로 사용하여 모집단 매개변수의 추정치를 개선하고 추정의 불확실성을 정량화하는 데 도움이 되는 방법을 말합니다.데이터 샘플링과 데이터 리샘플링은 모두 예측 모델링 문제에 필요한 방법입니다.이 자습서에서는 데이터를 수집하고 최대한 활용하기 위한 통계 샘플링 및 통계적 리샘플링 방법을 알아봅니다.이 자습서를 완료하면 다음을 알 수 있습니다.표본...

Read More

데이터 샘플은 도메인에서 생성되거나 프로세스에서 생성될 수 있는 모든 가능한 관측치의 광범위한 모집단의 스냅샷입니다.흥미롭게도 많은 관측치는 정규 분포 또는 더 공식적으로 가우스 분포라고 하는 일반적인 패턴이나 분포에 적합합니다. 가우스 분포에 대해 많이 알려져 있으며, 따라서 가우스 데이터와 함께 사용할 수있는 통계 및 통계 방법의 전체 하위 필드가 있습니다.이 자습서에서는 가우스 분포, 가우스 분포를 식별하는 방법 및 이 분포에서 추출한 데이터의 주요 요약 통계를 계산하는 방법을...

Read More

데이터 세트의 변수 간에 복잡하고 알 수 없는 관계가 있을 수 있습니다.데이터 세트의 변수가 서로 의존하는 정도를 발견하고 정량화하는 것이 중요합니다. 이 지식은 선형 회귀와 같은 머신러닝 알고리즘의 기대치를 충족하도록 데이터를 더 잘 준비하는 데 도움이 될 수 있으며, 이러한 상호 종속성이 있을 경우 성능이 저하됩니다.이 자습서에서는 상관 관계가 변수 간의 관계에 대한 통계적 요약이며 다양한 유형의 변수 및 관계에 대해 상관 관계를 계산하는 방법을 알 수...

Read More

때로는 차트 및 플롯과 같은 시각적 형태로 볼 수 있을 때까지는 데이터가 의미가 없습니다.자신과 다른 사람을 위해 데이터 샘플을 빠르게 시각화 할 수 있는 것은 응용 통계와 응용 머신러닝 모두에서 중요한 기술입니다.이 튜토리얼에서는 Python에서 데이터를 시각화 할 때 알아야 할 5가지 유형의 플롯과 이를 사용하여 자신의 데이터를 더 잘 이해하는 방법을 알아봅니다.이 자습서를 완료하면 다음을 알 수 있습니다.선 플롯(Line plot)을 사용하여 시계열 데이터를 차트로 만들고...

Read More

데이터 요약은 몇 가지 통계 값만으로 데이터 샘플의 모든 값을 설명하는 편리한 방법을 제공합니다.평균과 표준 편차는 가우스 분포로 데이터를 요약하는 데 사용되지만, 데이터 표본에 비가우스 분포가 있는 경우 의미가 없거나 오해의 소지가 있을 수도 있습니다.이 자습서에서는 특정 데이터 분포를 가정하지 않고 데이터 샘플의 분포를 설명하기 위한 5자리 숫자 요약을 발견합니다.이 자습서를 완료하면 다음을 알 수 있습니다.평균 및 표준 편차 계산과 같은 데이터 요약은 가우스 분포에만...

Read More

통계는 머신러닝에 대한 더 깊은 이해를 위한 전제 조건으로 널리 받아들여지는 수학 분야입니다.통계학은 많은 난해한 이론과 발견이 있는 큰 분야이지만, 머신러닝 실무자에게는 현장에서 가져온 너트와 볼트 도구와 표기법이 필요합니다. 통계가 무엇인지에 대한 견고한 기초가 있으면 좋은 부분이나 관련성 있는 부분에만 집중할 수 있습니다.이 집중 코스에서는 7일 만에 머신러닝에 사용되는 통계 방법을 시작하고 자신 있게 읽고 구현하는 방법을 알아봅니다.이 집중 코스는 누구를 위한 것입니까?시작하기 전에 올바른 위치에...

Read More

통계와 머신러닝은 매우 밀접하게 관련된 두 분야입니다.사실, 둘 사이의 경계는 때때로 매우 흐릿할 수 있습니다. 그럼에도 불구하고 통계 분야에 분명히 속하는 방법이 있는데, 이는 유용할 뿐만 아니라 머신러닝 프로젝트를 수행할 때 매우 중요합니다.머신러닝 예측 모델링 프로젝트를 효과적으로 수행하려면 통계적 방법이 필요하다고 말할 수 있습니다.이 게시물에서는 예측 모델링 문제의 주요 단계에서 유용하고 필요한 통계적 방법의 구체적인 예를 발견하게 됩니다.이 게시물을 완료하면 다음을 알 수 있습니다.탐색적 데이터 분석, 데이터...

Read More

머신러닝 실무자는 알고리즘의 전통과 모델 해석 가능성과 같은 다른 관심사보다 결과 및 모델 기술에 실용적인 초점을 가지고 있습니다.통계학자들은 응용 통계와 통계 학습이라는 이름으로 거의 동일한 유형의 모델링 문제를 연구합니다. 수학적 배경에서 온 그들은 모델의 동작과 예측의 설명 가능성에 더 중점을 둡니다.동일한 문제에 대한 두 접근 방식 간의 매우 밀접한 관계는 두 분야가 서로에게서 배울 것이 많다는 것을 의미합니다. 통계학자들이 알고리즘 방법을 고려해야 하는 것은 고전적인...

Read More

교차 엔트로피는 일반적으로 머신러닝에서 손실 함수로 사용됩니다.교차 엔트로피는 엔트로피를 기반으로 하고 일반적으로 두 확률 분포의 차이를 계산하는 정보 이론 분야의 척도입니다. 두 확률 분포 사이의 상대 엔트로피를 계산하는 KL 발산과는 밀접한 관련이 있지만 다른 반면, 교차 엔트로피는 분포 사이의 총 엔트로피를 계산하는 것으로 생각할 수 있습니다.교차 엔트로피는 또한 로지스틱 손실이라 불리는 로그 손실과 관련이 있으며 종종 혼동됩니다. 두 측정값이 서로 다른 소스에서 파생되었지만 분류 모델의 손실 함수로 사용되는...

Read More