머신러닝 학습 어떻게 시작할까? 4. 툴 선택하기 : Python ecosystem (중급자용)

Technology

_ 2022년 09월 26일_ NEPIRITY

머신러닝 학습 어떻게 시작할까? 4. 툴 선택하기 : Python ecosystem (중급자용)

개발자에서 머신러닝 실무자까지 14일 만에

파이썬은 응용 머신러닝을 위해 가장 빠르게 성장하는 플랫폼 중 하나입니다.

이 미니 코스에서는 14일 안에 Python을 사용하여 예측 모델링 머신러닝 프로젝트를 시작하고, 정확한 모델을 구축하고, 자신 있게 예측 모델링 머신러닝 프로젝트를 완료하는 방법을 발견하게 될 것입니다.

단계별 자습서와 모든 예제에 대한 Python 소스 코드 파일을 포함하여 파이썬을 사용한 머신러닝 숙달이라는 새로운 책으로 프로젝트를 시작하십시오.

이제 시작해 보겠습니다.

2016년 10월 업데이트: sklearn v0.18에 대한 예제가 업데이트되었습니다.
2018년 2월 업데이트: Python 및 라이브러리 버전을 업데이트합니다.
2018년 3월 업데이트 : 일부 데이터 세트를 다운로드하기위한 대체 링크가 추가되었습니다.
2019년 5월 업데이트 : scikit-learn의 최신 버전에 대한 경고 메시지가 수정되었습니다.
2020년 10월 업데이트 : 아나콘다에 대한 깨진 링크가 업데이트되었습니다.

이 미니 코스는 누구를 위한 것인가요?

시작하기 전에 올바른 위치에 있는지 확인해 보겠습니다.

아래 목록은이 과정이 누구를 위해 설계되었는지에 대한 몇 가지 일반적인 지침을 제공합니다.

이 점과 정확히 일치하지 않으면 당황하지 말고, 그 영역을 조금 더 연구하면 됩니다.

짧은 코드를 작성하는 방법을 알고 있는 개발자. 즉, 기본 구문을 알고 나면 Python과 같은 새로운 프로그래밍 언어를 선택하는 것이 큰 문제가 아닙니다. 당신이 천재적인 재능을 가지고 있다기보다는 약간의 노력으로 기본적인 C와 같은 언어를 따를 수 있다는 것을 의미합니다.
머신러닝을 약간 알고있는 개발자. 교차 검증, 일부 알고리즘 및 바이어스 분산 트레이드 오프와 같은 머신러닝의 기본 사항을 알고 있습니다. 그것은 당신이 머신러닝 박사 학위를 가지고 있다는 뜻이 아니라, 단지 당신이 몇몇 랜드마크를 알고 있거나 어디에서 찾아야 하는지 알고 있다는 것을 의미합니다.

이 미니 코스는 파이썬이나 머신러닝에 관한 교과서가 아니지만 당신을 머신러닝을 조금 알고 있는 수준의 개발자에서 Python 생태계를 사용하여 원하는 결과를 얻을 수 있는 개발자로 만들어 줄 것입니다.

미니 코스 개요

이 미니 코스는 14강으로 나뉩니다.

하루에 한 번의 수업을 완료할 수도 있고 (권장사항) 하루에 모든 수업을 완료 할 수도 있습니다. 그것은 오직 당신의 시간과 열정에 달려 있습니다.

다음은 파이썬으로 머신러닝을 시작하고 결과를 만들어낼 수 있는 14개 레슨입니다.

1강 : 파이썬과 SciPy 생태계를 다운로드하고 설치.
2강 : 파이썬, NumPy, Matplotlib 및 팬더를 탐색.
3강 : CSV에서 데이터 로드.
4강 : 설명 통계로 데이터를 이해.
5강 : 시각화를 사용하여 데이터를 이해.
6강 : 데이터 전처리를 통해 모델링을 준비.
7강 : 리샘플링 방법을 사용하여 알고리즘을 평가.
8강 : 알고리즘 평가 메트릭.
9강 : 스팟 체크 알고리즘.
10강 : 모델 비교 및 선택.
11강 : 알고리즘 튜닝을 통해 정확성 향상.
12강 : 앙상블 예측으로 정확성 향상.
13강 : 모델을 마무리하고 저장.
14강 : Hello World 종단간 프로젝트.

각 수업에는 60 초 또는 최대 30 분이 걸릴 수 있습니다. 시간을 내서 자신의 페이스대로 수업을 완료하십시오.

수업을 통해 당신이 스스로 일하는 방법을 찾기를 기대합니다. 저는 당신에게 힌트를 줄 것이지만, 각 수업의 요점 중 일부는 파이썬 플랫폼에 대해 도움을 받기 위해 어디로 가야 하는지 배우도록 만드는 것입니다 (Hint. 이 블로그에 모든 직접적인 답변이 있으며 검색 기능을 사용해서 더 빠르게 찾을 수 있습니다).

저는 당신이 자신감과 관성을 키우기를 원하기 때문에 초기 수업에서 더 많은 도움을 제공할 것입니다.

끈질기게 매달리고, 포기하지 마십시오!

1강 : Python과 SciPy 다운로드 및 설치

플랫폼에 액세스 해야만 Python에서 머신러닝을 시작할 수 있습니다.

오늘의 수업은 간단합니다. 당신의 컴퓨터에 파이썬 3.6 플랫폼을 다운로드하여 설치하는 것입니다.

파이썬 홈페이지를 방문하여 원하는 운영 체제 (Linux, OS X 또는 Windows) 용 Python을 다운로드하고 설치 하십시오. OS X의 macports 또는 RedHat Linux의 yum과 같은 플랫폼별 패키지 관리자를 사용해야 할 수도 있습니다. 또한 SciPy 플랫폼과 scikit-learn 라이브러리를 설치해야합니다. 파이썬을 설치하는 데 사용한 것과 동일한 접근 방식을 사용하는 것이 좋습니다.

Anaconda로 모든 것을 한 번에 (훨씬 쉽게) 설치할 수 있습니다. 초보자에게 권장됩니다.

명령줄에 “python”을 입력하여 처음으로 파이썬을 시작하십시오.

아래 코드를 사용하여 필요한 모든 것의 버전을 확인하십시오.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# Python version
import sys
print(‘Python: {}’.format(sys.version))
# scipy
import scipy
print(‘scipy: {}’.format(scipy.__version__))
# numpy
import numpy
print(‘numpy: {}’.format(numpy.__version__))
# matplotlib
import matplotlib
print(‘matplotlib: {}’.format(matplotlib.__version__))
# pandas
import pandas
print(‘pandas: {}’.format(pandas.__version__))
# scikit-learn
import sklearn
print(‘sklearn: {}’.format(sklearn.__version__))

오류가 있으면 중지하십시오. 이제 그들을 고칠 때입니다.

도움이 필요하신가요? 이 자습서를 참조하십시오.

Anaconda를 사용하여 머신러닝 및 딥 러닝을위한 Python 환경을 설정하는 방법

2강 : 파이썬, NumPy, Matplotlib 및 팬더를 둘러보십시오.

기본 Python 스크립트를 읽고 쓸 수 있어야 합니다.

개발자는 새로운 프로그래밍 언어를 매우 빠르게 선택할 수 있습니다. 파이썬은 대소문자를 구분하고 주석에 해시 (#)를 사용하고 공백을 사용하여 코드 블록을 나타냅니다.

오늘의 과제는 파이썬 인터랙티브 환경에서 파이썬 프로그래밍 언어의 기본 구문과 중요한 SciPy 데이터 구조를 연습하는 것입니다.

연습 할당, 파이썬에서 목록 및 흐름 제어 작업.
NumPy 배열로 작업하는 것을 연습하십시오.
Matplotlib에서 간단한 플롯을 만드는 연습을 하십시오.
팬더 시리즈 및 데이터 프레임 작업을 연습하십시오.

예를 들어, 다음은 팬더 데이터 프레임을 만드는 간단한 예입니다.

1
2
3
4
5
6
7
8
# dataframe
import numpy
import pandas
myarray = numpy.array([[1, 2, 3], [4, 5, 6]])
rownames = [‘a’, ‘b’]
colnames = [‘one’, ‘two’, ‘three’]
mydataframe = pandas.DataFrame(myarray, index=rownames, columns=colnames)
print(mydataframe)

3강 : CSV에서 데이터 로드

머신러닝 알고리즘에는 데이터가 필요합니다. CSV 파일에서 자신의 데이터를 로드 할 수 있지만 파이썬에서 머신러닝을 시작할 때는 표준 머신러닝 데이터 세트에 대해 연습해야 합니다.

오늘 수업의 과제는 Python에 데이터를 로드하고 표준 머신러닝 데이터 세트를 찾아 로드하는 것입니다.

UCI 머신러닝 리포지토리에서 다운로드하고 연습할 수 있는 CSV 형식의 우수한 표준 머신러닝 데이터 세트가 많이 있습니다.

표준 라이브러리에서 CSV.reader()를 사용하여 CSV 파일을 파이썬에 로드하는 연습을 하십시오.
NumPy 및 numpy.loadtxt() 함수를 사용하여 CSV 파일을 로드하는 연습을 하십시오.
팬더와 pandas.read_csv() 함수를 사용하여 CSV 파일을 로드하는 연습을 하십시오.

아래는 UCI 머신러닝 저장소에서 직접 팬더를 사용하여 당뇨병 데이터 세트의 Pima Indians을 로드하는 코드 조각입니다.

1
2
3
4
5
6
# Load CSV using Pandas from URL
import pandas
url = “https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv”
names = [‘preg’, ‘plas’, ‘pres’, ‘skin’, ‘test’, ‘mass’, ‘pedi’, ‘age’, ‘class’]
data = pandas.read_csv(url, names=names)
print(data.shape)

4강 : 설명 통계로 데이터 이해

일단 파이썬에 데이터를 로드하면 이해할 수 있어야 합니다. 데이터를 더 잘 이해할수록 모델을 더 정확하고 정확하게 만들 수 있습니다. 데이터를 이해하는 첫 번째 단계는 설명 통계를 사용하는 것입니다.

오늘 여러분의 교훈은 데이터를 이해하기 위해 설명적인 통계를 사용하는 방법을 배우는 것입니다. Pandas DataFrame에서 제공되는 도우미 함수를 사용하는 것이 좋습니다.

head() 함수를 사용하여 처음 몇 행을 살펴보는 데이터를 이해합니다.
shape 속성을 사용하여 데이터의 차원을 검토합니다.
dtypes 속성을 사용하여 각 속성의 데이터 형식을 살펴봅니다.
describe() 함수를 사용하여 데이터 분포를 검토합니다.
corr() 함수를 사용하여 변수 간의 쌍 상관 관계를 계산합니다.

아래 예제는 당뇨병 데이터 세트의 Pima Indians 발병을 로드하고 각 속성의 분포를 요약합니다.

1
2
3
4
5
6
7
# Statistical Summary
import pandas
url = “https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv”
names = [‘preg’, ‘plas’, ‘pres’, ‘skin’, ‘test’, ‘mass’, ‘pedi’, ‘age’, ‘class’]
data = pandas.read_csv(url, names=names)
description = data.describe()
print(description)

5강 : 시각화를 통한 데이터 이해

당신은 데이터를 더 잘 이해하기 위해 시간을 할애해야 합니다. 데이터에 대한 이해를 높이는 두 번째 방법은 데이터 시각화 기술(예: 플로팅)을 사용하는 것입니다.

오늘 레슨은 파이썬에서 플로팅을 사용하여 속성과 그 상호 작용을 이해하는 방법을 배우는 것입니다. 다시 말하지만, Pandas DataFrame에서 제공되는 도우미 함수를 사용하는 것이 좋습니다.

hist() 함수를 사용하여 각 속성의 히스토그램을 만듭니다.
plot(kind=’box’) 함수를 사용하여 각 속성의 상자 및 수염 플롯을 만듭니다.
pandas.scatter_matrix() 함수를 사용하여 모든 속성의 쌍 산점도를 만듭니다.

예를 들어 아래 코드 조각은 당뇨병 데이터 세트를 로드하고 데이터 세트의 산점도 매트릭스를 만듭니다.

1
2
3
4
5
6
7
8
9
# Scatter Plot Matrix
import matplotlib.pyplot as plt
import pandas
from pandas.plotting import scatter_matrix
url = “https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv”
names = [‘preg’, ‘plas’, ‘pres’, ‘skin’, ‘test’, ‘mass’, ‘pedi’, ‘age’, ‘class’]
data = pandas.read_csv(url, names=names)
scatter_matrix(data)
plt.show()

6강 : 데이터 전처리를 통한 모델링 준비

Raw data가 모델링에 가장 적합한 모양으로 설정되지 않을 수 있습니다. 때로는 데이터의 고유한 구조를 모델링 알고리즘에 가장 잘 표현하기 위해 데이터를 사전 처리해야합니다. 오늘 수업에서는 scikit-learn에서 제공하는 전처리 기능을 사용합니다.

scikit-learn 라이브러리는 데이터 변환을 위한 두 가지 표준 숙어를 제공합니다. 각 변환은 다양한 상황에서 유용합니다: 적합 및 다중 변환 및 결합된 맞춤 및 변환.

모델링을 위해 데이터를 준비하는 데 사용할 수 있는 많은 기술이 있습니다. 예를 들어, 다음 중 일부를 시도해 보십시오.

스케일 및 중심 옵션을 사용하여 수치 데이터(예: 평균 0 및 표준 편차 1)를 표준화합니다.
range 옵션을 사용하여 수치 데이터(예: 0-1 범위)를 정규화 합니다.
Binarizing과 같은 고급 기능 엔지니어링을 살펴보십시오.

예를 들어, 아래 코드 조각은 당뇨병 데이터 세트의 Pima Indian 발병을 로드하고, 데이터를 표준화하는 데 필요한 매개 변수를 계산한 다음 입력 데이터의 표준화된 사본을 만듭니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# Standardize data (0 mean, 1 stdev)
from sklearn.preprocessing import StandardScaler
import pandas
import numpy
url = “https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv”
names = [‘preg’, ‘plas’, ‘pres’, ‘skin’, ‘test’, ‘mass’, ‘pedi’, ‘age’, ‘class’]
dataframe = pandas.read_csv(url, names=names)
array = dataframe.values
# separate array into input and output components
X = array[:,0:8]
Y = array[:,8]
scaler = StandardScaler().fit(X)
rescaledX = scaler.transform(X)
# summarize transformed data
numpy.set_printoptions(precision=3)
print(rescaledX[0:5,:])

7강 : 리샘플링 방법을 사용한 알고리즘 평가

머신러닝 알고리즘을 학습하는 데 사용되는 데이터 세트를 학습 데이터 세트라고 합니다. 알고리즘을 학습하는 데 사용되는 데이터 세트는 새 데이터 모델의 정확도에 대해 신뢰할 수 있는 추정치를 제공하는 데 사용할 수 없습니다. 모델을 만드는 전체 아이디어는 새로운 데이터에 대한 예측을 수행하는 것이기 때문에 이것은 큰 문제입니다.

리샘플링 방법이라는 통계 방법을 사용하여 학습 데이터 세트를 하위 집합으로 분할할 수 있으며, 일부는 모델을 학습하는 데 사용되며 다른 일부는 보류되어 보이지 않는 데이터에 대한 모델의 정확도를 추정하는 데 사용됩니다.

오늘 수업의 목표는 scikit-learn에서 사용할 수있는 다양한 리샘플링 방법을 사용하여 연습하는 것입니다. 예를 들어 :

데이터 세트를 학습 및 테스트 집합으로 분할합니다.
k-fold 교차 검증을 사용하여 알고리즘의 정확도를 추정합니다.
원 아웃 교차 유효성 검사를 사용하여 알고리즘의 정확도를 추정합니다.

아래 코드 조각은 scikit-learn을 사용하여 10 배 교차 검증을 사용한 당뇨병 데이터 세트의 Pima Indians 발병에 대한 로지스틱 회귀 알고리즘의 정확성을 추정합니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
# Evaluate using Cross Validation
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
url = “https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv”
names = [‘preg’, ‘plas’, ‘pres’, ‘skin’, ‘test’, ‘mass’, ‘pedi’, ‘age’, ‘class’]
dataframe = read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
kfold = KFold(n_splits=10, random_state=7, shuffle=True)
model = LogisticRegression(solver=‘liblinear’)
results = cross_val_score(model, X, Y, cv=kfold)
print(“Accuracy: %.3f%% (%.3f%%)” % (results.mean()*100.0, results.std()*100.0))

실행 결과 어떤 정확도를 얻을 수 있었나요?

8강 : 알고리즘 평가 메트릭

데이터 세트에서 머신러닝 알고리즘의 기술을 평가하는 데 사용할 수 있는 다양한 메트릭이 있습니다.

cross_validation.cross_val_score() 함수를 통해 scikit-learn에서 테스트 도구에 사용되는 메트릭을 지정할 수 있으며 회귀 및 분류 문제에 기본값을 사용할 수 있습니다. 오늘 수업의 목표는 scikit-learn 패키지에서 사용할 수있는 다양한 알고리즘 성능 메트릭을 사용하여 연습하는 것입니다.

분류 문제에 대해 정확도 및 LogLoss 메트릭을 사용하는 연습을 합니다.
혼동 행렬과 분류 보고서를 생성하는 연습을 합니다.
회귀 문제에 대해 RMSE 및 RSquared 메트릭을 사용하는 연습을 합니다.

아래 코드 조각은 당뇨병 데이터 세트의 Pima Indians 발병에 대한 LogLoss 메트릭을 계산하는 방법을 보여줍니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# Cross Validation Classification LogLoss
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
url = “https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv”
names = [‘preg’, ‘plas’, ‘pres’, ‘skin’, ‘test’, ‘mass’, ‘pedi’, ‘age’, ‘class’]
dataframe = read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
kfold = KFold(n_splits=10, random_state=7)
model = LogisticRegression(solver=‘liblinear’)
scoring = ‘neg_log_loss’
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(“Logloss: %.3f (%.3f)”) % (results.mean(), results.std())

어떤 로그 손실이 발생했습니까?

9강 : 스팟 체크 알고리즘

어떤 알고리즘이 데이터에 가장 잘 작동하는지 미리 알 수 없습니다. 시행 착오 과정을 통해 발견해야 합니다. 저는 이것을 스팟 체크 알고리즘이라고 부릅니다. scikit-learn 라이브러리는 많은 머신러닝 알고리즘 및 도구에 대한 인터페이스를 제공하여 이러한 알고리즘의 예상 정확도를 비교합니다.

이 단원에서는 다양한 머신러닝 알고리즘을 스팟 체크하는 연습을 해야 합니다.

데이터 세트에서 선형 알고리즘을 스팟 체크합니다(예: 선형 회귀, 로지스틱 회귀 및 선형 판별 분석).
데이터 세트에서 일부 비선형 알고리즘 (예 : KNN, SVM 및 CART)을 스팟 확인합니다.
데이터 세트에서 몇 가지 정교한 앙상블 알고리즘 (예 : 무작위 포리스트 및 확률적 그라디언트 부스팅)을 스팟 체크하십시오.

예를 들어 아래 스 니펫은 Boston House Price 데이터 세트에서 K-Nearest Neighbors 알고리즘을 스팟 체크합니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# KNN Regression
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsRegressor
url = “https://raw.githubusercontent.com/jbrownlee/Datasets/master/housing.data”
names = [‘CRIM’, ‘ZN’, ‘INDUS’, ‘CHAS’, ‘NOX’, ‘RM’, ‘AGE’, ‘DIS’, ‘RAD’, ‘TAX’, ‘PTRATIO’, ‘B’, ‘LSTAT’, ‘MEDV’]
dataframe = read_csv(url, delim_whitespace=True, names=names)
array = dataframe.values
X = array[:,0:13]
Y = array[:,13]
kfold = KFold(n_splits=10, random_state=7)
model = KNeighborsRegressor()
scoring = ‘neg_mean_squared_error’
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

어떤 제곱 오류가 발생했습니까?

10강 : 모델 비교 및 선택

데이터 세트에서 머신러닝 알고리즘을 확인하는 방법을 알았으므로 이제 여러 알고리즘의 예상 성능을 비교하고 최상의 모델을 선택하는 방법을 알아야 합니다. 오늘 수업에서는 파이썬의 머신러닝 알고리즘의 정확도와 scikit-learn을 비교하는 연습을 할 것입니다.

데이터 세트에서 선형 알고리즘을 서로 비교합니다.
데이터 세트에서 비선형 알고리즘을 서로 비교합니다.
동일한 알고리즘의 서로 다른 구성을 서로 비교합니다.
알고리즘을 비교하는 결과의 플롯을 만듭니다.

아래 예제는 당뇨병 데이터 세트의 Pima Indians 발병에 대한 로지스틱 회귀 및 선형 판별 분석을 서로 비교합니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
# Compare Algorithms
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
# load dataset
url = “https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv”
names = [‘preg’, ‘plas’, ‘pres’, ‘skin’, ‘test’, ‘mass’, ‘pedi’, ‘age’, ‘class’]
dataframe = read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# prepare models
models = []
models.append((‘LR’, LogisticRegression(solver=‘liblinear’)))
models.append((‘LDA’, LinearDiscriminantAnalysis()))
# evaluate each model in turn
results = []
names = []
scoring = ‘accuracy’
for name, model in models:
	kfold = KFold(n_splits=10, random_state=7)
	cv_results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
	results.append(cv_results)
	names.append(name)
	msg = “%s: %f (%f)” % (name, cv_results.mean(), cv_results.std())
	print(msg)

어떤 알고리즘이 더 나은 결과를 얻었습니까? 더 잘할 수 있습니까?

11강 : 알고리즘 튜닝을 통한 정확도 향상

데이터 세트에서 잘 작동하는 하나 또는 두 개의 알고리즘을 찾은 후에는 해당 모델의 성능을 향상시킬 수 있습니다.

알고리즘의 성능을 높이는 한 가지 방법은 매개 변수를 특정 데이터 세트로 조정하는 것입니다.

scikit-learn 라이브러리는 머신러닝 알고리즘에 대한 매개 변수 조합을 검색하는 두 가지 방법을 제공합니다. 오늘 수업의 목표는 각각을 연습하는 것입니다.

지정한 그리드 검색을 사용하여 알고리즘의 매개 변수를 조정합니다.
무작위 검색을 사용하여 알고리즘의 매개 변수를 조정합니다.

아래 사용 스 니펫은 당뇨병 데이터 세트의 Pima Indians 발병에 대한 리지 회귀 알고리즘에 대한 그리드 검색을 사용하는 예입니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# Grid Search for Algorithm Tuning
from pandas import read_csv
import numpy
from sklearn.linear_model import Ridge
from sklearn.model_selection import GridSearchCV
url = “https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv”
names = [‘preg’, ‘plas’, ‘pres’, ‘skin’, ‘test’, ‘mass’, ‘pedi’, ‘age’, ‘class’]
dataframe = read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
alphas = numpy.array([1,0.1,0.01,0.001,0.0001,0])
param_grid = dict(alpha=alphas)
model = Ridge()
grid = GridSearchCV(estimator=model, param_grid=param_grid, cv=3)
grid.fit(X, Y)
print(grid.best_score_)
print(grid.best_estimator_.alpha)

어떤 매개 변수가 최상의 결과를 얻었습니까?

12강 : 앙상블 예측으로 정확성 향상

모델의 성능을 향상시킬 수 있는 또 다른 방법은 여러 모델의 예측을 결합하는 것입니다.

일부 모델은 배깅을 위한 랜덤 포리스트와 부스팅을 위한 확률적 그래디언트 부스팅과 같은 내장 기능을 제공합니다. 투표라고 불리는 또 다른 유형의 앙상블링을 사용하여 여러 다른 모델의 예측을 함께 결합 할 수 있습니다.

오늘 수업에서는 앙상블 방법을 사용하여 연습합니다.

무작위 숲과 여분의 나무 알고리즘으로 앙상블을 포장하는 연습을하십시오.
그라디언트 부스트 머신과 AdaBoost 알고리즘으로 앙상블을 부스트하는 연습을 해보세요.
여러 모델의 예측을 결합하여 투표 앙상블을 연습하십시오.

아래 코드 조각은 당뇨병 데이터 세트의 Pima Indians 발병에 대한 랜덤 포레스트 알고리즘 (의사 결정 트리의 앙상블)을 사용하는 방법을 보여줍니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
# Random Forest Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
url = “https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv”
names = [‘preg’, ‘plas’, ‘pres’, ‘skin’, ‘test’, ‘mass’, ‘pedi’, ‘age’, ‘class’]
dataframe = read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
num_trees = 100
max_features = 3
kfold = KFold(n_splits=10, random_state=7)
model = RandomForestClassifier(n_estimators=num_trees, max_features=max_features)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

더 나은 앙상블을 고안 할 수 있습니까?

13강 : 모델 완성 및 저장

머신러닝 문제에서 성능이 좋은 모델을 찾은 후에는 이를 마무리해야 합니다.

오늘 수업에서는 모델 완성과 관련된 작업을 연습합니다. 새 데이터(학습 및 테스트 중에 볼 수 없는 데이터)에 대해 모델을 사용하여 예측을 수행하는 연습을 합니다. 학습된 모델을 파일에 저장하고 다시 로드하는 연습을 합니다.

예를 들어 아래 코드 조각은 로지스틱 회귀 모델을 만들어 파일에 저장한 다음 나중에 로드하고 보이지 않는 데이터에 대한 예측을 수행하는 방법을 보여 줍니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
# Save Model Using Pickle
from pandas import read_csv
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
import pickle
url = “https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv”
names = [‘preg’, ‘plas’, ‘pres’, ‘skin’, ‘test’, ‘mass’, ‘pedi’, ‘age’, ‘class’]
dataframe = read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
test_size = 0.33
seed = 7
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=test_size, random_state=seed)
# Fit the model on 67%
model = LogisticRegression(solver=‘liblinear’)
model.fit(X_train, Y_train)
# save the model to disk
filename = ‘finalized_model.sav’
pickle.dump(model, open(filename, ‘wb’))
 
# some time later…
 
# load the model from disk
loaded_model = pickle.load(open(filename, ‘rb’))
result = loaded_model.score(X_test, Y_test)
print(result)

14강 : Hello World 종단간 프로젝트

이제 예측 모델링 머신러닝 문제의 각 작업을 완료하는 방법을 알아보았습니다. 오늘 수업에서는 조각을 모으고 표준 머신러닝 데이터 세트를 종단간 작업하는 연습을 해야 합니다. 홍채 데이터 세트를 종단 간 작업(머신러닝의 Hello World)

여기에는 다음 단계가 포함됩니다.

설명 통계 및 시각화를 사용하여 데이터를 이해합니다.
문제의 구조를 가장 잘 노출하기 위해 데이터를 전처리합니다.
자신의 테스트 도구를 사용하여 여러 알고리즘을 스팟 검사합니다.
알고리즘 매개 변수 튜닝을 사용하여 결과를 개선합니다.
앙상블 방법을 사용하여 결과를 개선합니다.
나중에 사용할 수 있도록 모델을 마무리합니다.

어떤 모델을 사용했고 어떤 결과를 얻었습니까?

당신이 얼마나 멀리 왔는지 보십시오

잠시 시간을내어 당신이 얼마나 멀리 왔는지 되돌아보십시오.

머신러닝에 대한 관심과 Python을 사용하여 머신러닝을 연습하고 적용 할 수 있기를 바라는 강한 열망으로 시작했습니다.
Python을 다운로드, 설치 및 시작했으며, 아마도 처음으로 언어의 구문에 익숙해지기 시작했습니다.
여러 가지 교훈을 통해 천천히 그리고 꾸준히 예측 모델링 머신러닝 프로젝트의 표준 작업이 Python 플랫폼에 매핑되는 방법을 배웠습니다.
Python을 사용하여 첫번째 머신러닝 문제를 종단간 해결한 일반적인 머신러닝 작업에 대한 레시피를 기반으로 구축합니다.
표준 템플릿을 사용하면 수집 한 조리법과 경험을 통해 새롭고 다른 예측 모델링 머신러닝 문제를 스스로 해결할 수 있습니다.

이것은 파이썬을 사용한 머신러닝 여정의 시작에 불과합니다. 계속 연습하고 기술을 개발하십시오.

Gallery

Contacts

Blog

머신러닝 학습 어떻게 시작할까? 4. 툴 선택하기 : Python ecosystem (중급자용)

개발자에서 머신러닝 실무자까지 14일 만에

이 미니 코스는 누구를 위한 것인가요?

미니 코스 개요

1강 : Python과 SciPy 다운로드 및 설치

2강 : 파이썬, NumPy, Matplotlib 및 팬더를 둘러보십시오.

3강 : CSV에서 데이터 로드

4강 : 설명 통계로 데이터 이해

5강 : 시각화를 통한 데이터 이해

6강 : 데이터 전처리를 통한 모델링 준비

7강 : 리샘플링 방법을 사용한 알고리즘 평가

10강 : 모델 비교 및 선택

11강 : 알고리즘 튜닝을 통한 정확도 향상

12강 : 앙상블 예측으로 정확성 향상

13강 : 모델 완성 및 저장

당신이 얼마나 멀리 왔는지 보십시오