머신러닝 학습 어떻게 시작할까? 4. 툴 선택하기 : Python ecosystem (중급자용)

개발자에서 머신러닝 실무자까지 14일 만에


파이썬은 응용 머신러닝을 위해 가장 빠르게 성장하는 플랫폼 중 하나입니다.

이 미니 코스에서는 14일 안에 Python을 사용하여 예측 모델링 머신러닝 프로젝트를 시작하고, 정확한 모델을 구축하고, 자신 있게 예측 모델링 머신러닝 프로젝트를 완료하는 방법을 발견하게 될 것입니다.

단계별 자습서와 모든 예제에 대한 Python 소스 코드 파일을 포함하여 파이썬을 사용한 머신러닝 숙달이라는 새로운 책으로 프로젝트를 시작하십시오.

이제 시작해 보겠습니다.

  • 2016년 10월 업데이트: sklearn v0.18에 대한 예제가 업데이트되었습니다.
  • 2018년 2월 업데이트: Python 및 라이브러리 버전을 업데이트합니다.
  • 2018년 3월 업데이트 : 일부 데이터 세트를 다운로드하기위한 대체 링크가 추가되었습니다.
  • 2019년 5월 업데이트 : scikit-learn의 최신 버전에 대한 경고 메시지가 수정되었습니다.
  • 2020년 10월 업데이트 : 아나콘다에 대한 깨진 링크가 업데이트되었습니다.



이 미니 코스는 누구를 위한 것인가요?

시작하기 전에 올바른 위치에 있는지 확인해 보겠습니다.

아래 목록은이 과정이 누구를 위해 설계되었는지에 대한 몇 가지 일반적인 지침을 제공합니다.

이 점과 정확히 일치하지 않으면 당황하지 말고, 그 영역을 조금 더 연구하면 됩니다.

  • 짧은 코드를 작성하는 방법을 알고 있는 개발자. 즉, 기본 구문을 알고 나면 Python과 같은 새로운 프로그래밍 언어를 선택하는 것이 큰 문제가 아닙니다. 당신이 천재적인 재능을 가지고 있다기보다는 약간의 노력으로 기본적인 C와 같은 언어를 따를 수 있다는 것을 의미합니다.
  • 머신러닝을 약간 알고있는 개발자. 교차 검증, 일부 알고리즘 및 바이어스 분산 트레이드 오프와 같은 머신러닝의 기본 사항을 알고 있습니다. 그것은 당신이 머신러닝 박사 학위를 가지고 있다는 뜻이 아니라, 단지 당신이 몇몇 랜드마크를 알고 있거나 어디에서 찾아야 하는지 알고 있다는 것을 의미합니다.

이 미니 코스는 파이썬이나 머신러닝에 관한 교과서가 아니지만 당신을 머신러닝을 조금 알고 있는 수준의 개발자에서 Python 생태계를 사용하여 원하는 결과를 얻을 수 있는 개발자로 만들어 줄 것입니다.

 

미니 코스 개요

이 미니 코스는 14강으로 나뉩니다.

하루에 한 번의 수업을 완료할 수도 있고 (권장사항) 하루에 모든 수업을 완료 할 수도 있습니다. 그것은 오직 당신의 시간과 열정에 달려 있습니다.

다음은 파이썬으로 머신러닝을 시작하고 결과를 만들어낼 수 있는 14개 레슨입니다.

  • 1강 : 파이썬과 SciPy 생태계를 다운로드하고 설치.
  • 2강 : 파이썬, NumPy, Matplotlib 및 팬더를 탐색.
  • 3강 : CSV에서 데이터 로드.
  • 4강 : 설명 통계로 데이터를 이해.
  • 5강 : 시각화를 사용하여 데이터를 이해.
  • 6강 : 데이터 전처리를 통해 모델링을 준비.
  • 7강 : 리샘플링 방법을 사용하여 알고리즘을 평가.
  • 8강 : 알고리즘 평가 메트릭.
  • 9강 : 스팟 체크 알고리즘.
  • 10강 : 모델 비교 및 선택.
  • 11강 : 알고리즘 튜닝을 통해 정확성 향상.
  • 12강 : 앙상블 예측으로 정확성 향상.
  • 13강 : 모델을 마무리하고 저장.
  • 14강 : Hello World 종단간 프로젝트.

각 수업에는 60 초 또는 최대 30 분이 걸릴 수 있습니다. 시간을 내서 자신의 페이스대로 수업을 완료하십시오. 

수업을 통해 당신이 스스로 일하는 방법을 찾기를 기대합니다. 저는 당신에게 힌트를 줄 것이지만, 각 수업의 요점 중 일부는 파이썬 플랫폼에 대해 도움을 받기 위해 어디로 가야 하는지 배우도록 만드는 것입니다 (Hint. 이 블로그에 모든 직접적인 답변이 있으며 검색 기능을 사용해서 더 빠르게 찾을 수 있습니다).

저는 당신이 자신감과 관성을 키우기를 원하기 때문에 초기 수업에서 더 많은 도움을 제공할 것입니다.


끈질기게 매달리고, 포기하지 마십시오!


1강 : Python과 SciPy 다운로드 및 설치

플랫폼에 액세스 해야만  Python에서 머신러닝을 시작할 수 있습니다.

오늘의 수업은 간단합니다. 당신의 컴퓨터에 파이썬 3.6 플랫폼을 다운로드하여 설치하는 것입니다.

파이썬 홈페이지를 방문하여 원하는 운영 체제 (Linux, OS X 또는 Windows) 용 Python을 다운로드하고 설치 하십시오. OS X의 macports 또는 RedHat Linux의 yum과 같은 플랫폼별 패키지 관리자를 사용해야 할 수도 있습니다. 또한 SciPy 플랫폼과 scikit-learn 라이브러리를 설치해야합니다. 파이썬을 설치하는 데 사용한 것과 동일한 접근 방식을 사용하는 것이 좋습니다.

Anaconda로 모든 것을 한 번에 (훨씬 쉽게) 설치할 수 있습니다. 초보자에게 권장됩니다.

명령줄에 “python”을 입력하여 처음으로 파이썬을 시작하십시오.

아래 코드를 사용하여 필요한 모든 것의 버전을 확인하십시오.

오류가 있으면 중지하십시오. 이제 그들을 고칠 때입니다.

도움이 필요하신가요? 이 자습서를 참조하십시오.


2강 : 파이썬, NumPy, Matplotlib 및 팬더를 둘러보십시오.

기본 Python 스크립트를 읽고 쓸 수 있어야 합니다.

개발자는 새로운 프로그래밍 언어를 매우 빠르게 선택할 수 있습니다. 파이썬은 대소문자를 구분하고 주석에 해시 (#)를 사용하고 공백을 사용하여 코드 블록을 나타냅니다.

오늘의 과제는 파이썬 인터랙티브 환경에서 파이썬 프로그래밍 언어의 기본 구문과 중요한 SciPy 데이터 구조를 연습하는 것입니다.

  • 연습 할당, 파이썬에서 목록 및 흐름 제어 작업.
  • NumPy 배열로 작업하는 것을 연습하십시오.
  • Matplotlib에서 간단한 플롯을 만드는 연습을 하십시오.
  • 팬더 시리즈 및 데이터 프레임 작업을 연습하십시오.

예를 들어, 다음은 팬더 데이터 프레임을 만드는 간단한 예입니다.


3강 : CSV에서 데이터 로드

머신러닝 알고리즘에는 데이터가 필요합니다. CSV 파일에서 자신의 데이터를 로드 할 수 있지만 파이썬에서 머신러닝을 시작할 때는 표준 머신러닝 데이터 세트에 대해 연습해야 합니다.

오늘 수업의 과제는 Python에 데이터를 로드하고 표준 머신러닝 데이터 세트를 찾아 로드하는 것입니다.

UCI 머신러닝 리포지토리에서 다운로드하고 연습할 수 있는 CSV 형식의 우수한 표준 머신러닝 데이터 세트가 많이 있습니다.

  • 표준 라이브러리에서 CSV.reader()를 사용하여 CSV 파일을 파이썬에 로드하는 연습을 하십시오.
  • NumPy 및 numpy.loadtxt() 함수를 사용하여 CSV 파일을 로드하는 연습을 하십시오.
  • 팬더와 pandas.read_csv() 함수를 사용하여 CSV 파일을 로드하는 연습을 하십시오.


아래는 UCI 머신러닝 저장소에서 직접 팬더를 사용하여 당뇨병 데이터 세트의 Pima Indians을 로드하는 코드 조각입니다.


4강 : 설명 통계로 데이터 이해

일단 파이썬에 데이터를 로드하면 이해할 수 있어야 합니다. 데이터를 더 잘 이해할수록 모델을 더 정확하고 정확하게 만들 수 있습니다. 데이터를 이해하는 첫 번째 단계는 설명 통계를 사용하는 것입니다.

오늘 여러분의 교훈은 데이터를 이해하기 위해 설명적인 통계를 사용하는 방법을 배우는 것입니다. Pandas DataFrame에서 제공되는 도우미 함수를 사용하는 것이 좋습니다.

  • head() 함수를 사용하여 처음 몇 행을 살펴보는 데이터를 이해합니다.
  • shape 속성을 사용하여 데이터의 차원을 검토합니다.
  • dtypes 속성을 사용하여 각 속성의 데이터 형식을 살펴봅니다.
  • describe() 함수를 사용하여 데이터 분포를 검토합니다.
  • corr() 함수를 사용하여 변수 간의 쌍 상관 관계를 계산합니다.


아래 예제는 당뇨병 데이터 세트의 Pima Indians 발병을 로드하고 각 속성의 분포를 요약합니다.


5강 : 시각화를 통한 데이터 이해

당신은 데이터를 더 잘 이해하기 위해 시간을 할애해야 합니다. 데이터에 대한 이해를 높이는 두 번째 방법은 데이터 시각화 기술(예: 플로팅)을 사용하는 것입니다.

오늘 레슨은 파이썬에서 플로팅을 사용하여 속성과 그 상호 작용을 이해하는 방법을 배우는 것입니다. 다시 말하지만, Pandas DataFrame에서 제공되는 도우미 함수를 사용하는 것이 좋습니다.

  • hist() 함수를 사용하여 각 속성의 히스토그램을 만듭니다.
  • plot(kind=’box’) 함수를 사용하여 각 속성의 상자 및 수염 플롯을 만듭니다.
  • pandas.scatter_matrix() 함수를 사용하여 모든 속성의 쌍 산점도를 만듭니다.

예를 들어 아래 코드 조각은 당뇨병 데이터 세트를 로드하고 데이터 세트의 산점도 매트릭스를 만듭니다.

 


네피리티
No Comments

Sorry, the comment form is closed at this time.