머신러닝 학습 어떻게 시작할까? 4. 툴 선택하기 : Weka Workbench(초심자용)

14일 안에 머신러닝 실무자 되기


머신러닝은 멋진 연구분야입니다. 하지만 실제로 자신이 가진 문제를 해결하기 위해 어떻게 사용할까요? 머신러닝을 위해 데이터를 가장 잘 준비하는 방법, 사용할 알고리즘 또는 특정 모델을 선택하는 방법에 대해 혼란스러울 수 있습니다.

이 게시물에서는 단일 수학 방정식이나 프로그래밍 코드 라인없이 Weka 플랫폼을 사용하여 응용 머신러닝에 대한 집중 훈련을 진행해 보겠습니다.

이 미니 코스를 완료 한 후 :

  • 데이터 세트를 종단간 작업하고 예측 집합 또는 고성능 모델을 제공하는 방법을 알 수 있습니다.
  • Weka 머신러닝 워크벤치에서 알고리즘을 탐색하고 제어된 실험을 설계하는 방법을 알게 될 것입니다.
  • 문제에 대한 여러 뷰를 만들고, 여러 알고리즘을 평가하고, 통계를 사용하여 자신의 예측 모델링 문제에 가장 적합한 모델을 선택하는 방법을 알게 될 것입니다.


단계별 자습서와, 모든 예제에 대한 명확한 스크린 샷을 포함하는 저의 새로운 책 Weka와 함께 머신러닝 숙달  프로젝트를 시작해 보겠습니다.



이 미니 코스는 누구를 위한 것인가요?

시작하기 전에 올바른 위치에 있는지 확인해 보겠습니다. 아래 목록은 이 과정이 누구를 위해 설계되었는지에 대한 몇 가지 일반적인 지침을 제공합니다. 이 점과 정확히 일치하지 않으면 당황하지 말고, 그 영역을 조금 더 연구하면 됩니다.

당신은 약간의 머신러닝을 알고있는 개발자입니다. 즉, 교차 검증, 일부 알고리즘 및 편향 분산 트레이드 오프와 같은 머신러닝의 기본 사항 중 일부에 대해 알고 있습니다. 그것은 당신이 머신러닝 박사 학위라는 것을 의미하지는 않으며, 단지 랜드 마크를 알고 있거나 어디에서 찾아야 하는지 알고 있다는 것을 의미합니다.

한편, 이 미니 코스는 머신러닝에 대한 교과서가 아닙니다. 하지만 머신러닝을 약간 알고있는 개발자에서 Weka 플랫폼을 사용하여 처음부터 끝까지 데이터 세트를 통해 작업하고 일련의 예측 또는 고성능 모델을 제공할 수 있는 개발자로 발전해 나갈 수 있도록 도움을 줄 수 있습니다.


미니 코스 개요 (예상되는 것들)

이 미니 코스는 14 부분으로 나뉩니다. 각 수업은 약 30 분 정도 소요되도록 설계되었습니다. 당신은 훨씬 더 빨리 끝낼 수도 있지만 시간을 들여서 더 깊은 내용을 탐구해 볼 수도 있습니다. 즉, 당신의 선택에 따라 빨리 끝낼 수도 있고 천천히 끝낼 수도 있습니다. 가능하다면 조금 더 시간을 들여서 2주 동안 하루에 하나의 레슨을 진행하는 것을 추천합니다.

다음 14개의 레슨에서 다룰 주제는 다음과 같습니다.

  • 1강 : Weka를 다운로드하여 설치하십시오.
  • 2강: 표준 머신러닝 데이터 세트를 로드합니다.
  • 3강 : 설명 통계 및 시각화.
  • 4강: 데이터 크기 조정.
  • 5강 : 데이터에 대한 기능 선택을 수행하십시오.
  • 6강 : 웨카의 머신러닝 알고리즘.
  • 7강  : 모델 성능 추정.
  • 8강 : 데이터에 대한 기본 성능.
  • 9강 : 분류 알고리즘.
  • 10강 : 회귀 알고리즘.
  • 11강 : 앙상블 알고리즘.
  • 12강 : 알고리즘의 성능 비교.
  • 13강 : 알고리즘 파라미터 조정.
  • 14강 : 모델 저장.


앞으로의 과정은 재밌긴 하지만 약간의 수고가 필요합니다, 약간의 독서가 필요하고, Weka를 가지고 약간의 시간을 보내야 합니다. 응용 머신러닝을 올바르게 시작하고 싶습니까?

( :모든 답변은 검색 기능을 이용하여 찾을 수 있습니다.)


1강 : Weka 다운로드 및 설치

가장 먼저해야 할 일은 워크스테이션에 Weka 소프트웨어를 설치하는 것입니다.

Weka는 무료 오픈 소스 소프트웨어입니다. Java로 작성되었으며 다음을 포함하여 Java를 지원하는 모든 플랫폼에서 실행할 수 있습니다.

  • 윈도우.
  • 맥 OS X.
  • 리눅스.

Weka는 독립 실행형 소프트웨어 또는 Java와 함께 번들로 제공되는 버전으로 다운로드할 수 있습니다.

시스템에 Java가 아직 설치되어 있지 않은 경우 Java와 함께 번들로 제공되는 버전을 다운로드하여 설치하는 것이 좋습니다.

  1. 이 강의의 작업은 Weka 다운로드 페이지를 방문하여 워크 스테이션에 Weka를 다운로드하여 설치하는 것입니다.


2강 : 표준 머신러닝 데이터 세트 로드

이제 Weka를 설치했으므로 데이터를 로드해야 합니다.

Weka는 ARFF라는 기본 형식으로 데이터를로드 하도록 설계되었습니다. 각 속성(열)의 유형에 대한 추가 정보를 포함하는 수정된 CSV 형식입니다. Weka 설치에는 로드할 준비가 된 ARFF 형식의 여러 표준 머신러닝 데이터 세트가 있는 하위 디렉터리가 포함되어 있습니다. Weka는 또한 데이터베이스에서 뿐만 아니라 Raw CSV 파일로부터  데이터로드를 지원하며 필요에 따라 데이터를 ARFF로 변환합니다. 이 단원에서는 Weka 탐색기에서 표준 데이터 세트를 로드합니다.

  1. Weka를 시작하십시오 (새 아이콘을 클릭하십시오), 이것은 Weka GUI 선택기를 시작합니다.
  2. “탐색기”버튼을 클릭하면 Weka 탐색기 인터페이스가 열립니다.
  3. “파일 열기…”를 클릭합니다. 버튼을 누르고 Weka 설치의 데이터 / 디렉토리로 이동하여 diabetes.arff 데이터 세트를 로드하십시오.

Weka 설치시 데이터 / 디렉토리가 없거나 찾을 수 없는 경우 Weka 다운로드 웹페이지에서 압축을 풀고 데이터 / 디렉토리에 액세스하십시오.

방금 Weka에서 첫 번째 데이터 세트를 로드했습니다.

Data/ 디렉토리에 다른 데이터 세트 중 일부를 로드하십시오.

UCI 머신러닝 리포지토리에서 Raw CSV 파일을 다운로드하여 Weka에 로드해 보십시오.


3강 : 설명 통계 및 시각화

Weka에서 데이터를 로드할 수 있으면 살펴 보는 것이 중요합니다. Weka를 사용하면 데이터에서 계산된 설명 통계를 검토 할 수 있습니다. 또한 시각화 도구도 제공합니다. 이 단원에서는 Weka를 사용하여 데이터에 대해 자세히 알아봅니다.

  1. Weka GUI 선택기를 엽니다.
  2. Weka 탐색기를 엽니다.
  3. 데이터/diabetes.arff 데이터 세트를 로드합니다.
  4. “속성” 목록에서 다른 속성을 클릭하고 “선택한 속성” 창에서 세부 정보를 검토합니다.
  5. “모두 시각화” 버튼을 클릭하여 모든 속성 분포를 검토합니다.
  6. “시각화” 탭을 클릭하고 모든 속성에 대한 산점도 행렬을 검토합니다.

“전처리” 탭에서 다양한 속성에 대한 세부 정보를 검토하고 “시각화” 탭에서 산점도 행렬을 조정하는 데 익숙해지세요.


4강 : 데이터 크기 조정

Raw data는 모델링에 적합하지 않은 경우가 많습니다. 종종 속성의 크기를 조정하여 머신러닝 모델의 성능을 향상시킬 수 있습니다. 이 단원에서는 Weka의 데이터 필터를 사용하여 데이터 크기를 조정하는 방법을 배웁니다. 데이터 집합의 모든 특성을 정규화하여 일관된 0 대 1 범위로 크기를 다시 조정합니다.

  1. Weka GUI 선택기를 연 다음 Weka 탐색기를 엽니다.
  2. 데이터/diabetes.arff 데이터 세트를 로드합니다.
  3. “필터” 창에서 “선택” 버튼을 클릭하고 unsupervised.attribute.Normalize를 선택합니다.
  4. “적용”버튼을 클릭하십시오.


“선택한 속성” 창에서 각 속성에 대한 세부 정보를 검토하고 배율에 대한 변경 사항을 확인합니다. 표준화 필터와 같은 다른 데이터 필터를 사용하여 탐색합니다. 로드된 필터의 이름을 클릭하고 매개 변수를 변경하여 필터 구성을 살펴봅니다. 나중에 사용할 수 있도록 수정된 데이터 세트 저장을 테스트하려면 “전처리”탭의  “저장” 버튼을 클릭하여 테스트합니다.


5강 : 데이터에 대한 기능 선택 수행

데이터 세트의 모든 속성이 예측하려는 속성과 관련이 있을 수 있는 것은 아닙니다. 기능 선택을 사용하여 출력 변수와 가장 관련이 있는 속성을 식별할 수 있습니다. 이 단원에서는 다양한 기능 선택 방법을 사용하는 데 익숙해 지도록 합니다.

  1. Weka GUI 선택기를 연 다음 Weka 탐색기를 엽니다.
  2. 데이터/diabetes.arff 데이터 세트를 로드합니다.
  3. “속성 선택” 탭을 클릭합니다.
  4. “속성 평가자” 창에서 “선택” 버튼을 클릭하고 “상관 관계 속성Eval”을 선택합니다.
    1. 이 기능 선택 방법을 사용할 때 필요한 “Ranker” 검색 방법으로 변경하라는 대화 상자가 표시됩니다. “예” 버튼을 클릭합니다.
  5. “시작”버튼을 클릭하여 기능 선택 방법을 실행하십시오.

“속성 선택 출력” 창에서 출력을 검토하고 각 속성에 대한 상관 관계 점수(숫자가 클수록 관련성이 높은 기능을 나타냄)를 확인합니다. 정보 획득(엔트로피) 사용과 같은 다른 기능 선택 방법을 살펴봅니다.

“전처리” 탭과 “제거” 버튼에서 데이터 세트에서 제거할 기능 선택을 살펴보세요.


6강 : 웨카의 머신러닝 알고리즘

Weka 워크벤치의 주요 이점은 많은 수의 머신러닝 알고리즘이 제공된다는 것입니다.

머신러닝 알고리즘에 대한 방법을 알아야합니다.

이 단원에서는 Weka의 머신러닝 알고리즘에 대해 자세히 살펴봅니다.

  1. Weka GUI 선택기를 연 다음 Weka 탐색기를 엽니다.
  2. 데이터/diabetes.arff 데이터 세트를 로드합니다.
  3. “분류” 탭을 클릭합니다.
  4. “선택” 버튼을 클릭하고 알고리즘에 대한 다른 그룹화를 기록하십시오.
  5. 선택한 알고리즘의 이름을 클릭하여 구성합니다.
  6. 구성 창에서 “더보기” 버튼을 클릭하여 구현에 대해 자세히 알아보십시오.
  7. 구성 창에서 “기능” 버튼을 클릭하여 사용 방법에 대해 자세히 알아보십시오.
  8. 다른 구성을 저장하고 로드 할 수 있는 창의 “열기” 및 “저장” 버튼을 확인하십시오.
  9. 구성 매개 변수를 마우스로 가리키고 도구 설명 도움말을 확인합니다.
  10. “시작” 버튼을 클릭하여 알고리즘을 실행하십시오.

사용 가능한 알고리즘을 찾아봅니다. 데이터 세트가 분류(범주 예측) 또는 회귀(실제 값 예측) 유형 문제인지 여부에 따라 일부 알고리즘을 사용할 수 없습니다.

Weka에서 사용할 수 있는 다양한 알고리즘을 탐색하고 자세히 알아보세요.

알고리즘 선택 및 구성에 대한 신뢰도를 얻으십시오.


7강 : 모델 성능 추정

이제 다른 알고리즘을 선택하고 구성하는 방법을 알았으므로 알고리즘의 성능을 평가하는 방법을 알아야 합니다. 

이 단원에서는 Weka에서 알고리즘의 성능을 평가하는 다양한 방법에 대해 배우게 됩니다.

  1. Weka GUI 선택기를 연 다음 Weka 탐색기를 엽니다.
  2. 데이터/diabetes.arff 데이터 세트를 로드합니다.
  3. “분류” 탭을 클릭합니다.


“테스트 옵션” 창에는 알고리즘의 성능을 평가하는 데 사용할 수 있는 다양한 기술이 나열됩니다.

  • 골드 표준은 10 배 “교차 검증”입니다. 이 옵션은 기본적으로 선택되어 있습니다. 작은 데이터 세트의 경우 배수를 10에서 5 또는 3으로 조정할 수 있습니다.
  • 데이터 세트가 매우 크고 알고리즘을 신속하게 평가하려는 경우 “백분율 분할” 옵션을 사용할 수 있습니다. 기본적으로 이 옵션은 데이터 세트의 66%에서 학습하고 나머지 34%를 사용하여 모델의 성능을 평가합니다.
  • 또는 유효성 검사 데이터 세트를 포함하는 별도의 파일이 있는 경우 “제공된 테스트 집합” 옵션을 선택하여 모델을 평가할 수 있습니다. 모델은 전체 학습 데이터 세트에 대해 학습되고 별도의 데이터 세트에서 평가됩니다.
  • 마지막으로 전체 학습 데이터 세트에서 모델의 성능을 평가할 수 있습니다. 이는 예측 모델보다 설명에 더 관심이 있는 경우에 유용합니다.

“시작” 버튼을 클릭하여 선택한 테스트 옵션으로 주어진 알고리즘을 실행하십시오.

다양한 테스트 옵션으로 실험해 보십시오.

“추가 옵션…”을 클릭하여 제공된 구성에서 테스트 옵션을 더욱 구체화합니다.


8강 : 데이터에 대한 기준 성능

데이터 세트에서 여러 머신러닝 알고리즘을 평가하기 시작할 때 비교를 위한 기준이 필요합니다.

기준 결과는 주어진 알고리즘의 결과가 좋은지 나쁜지, 그리고 얼마나 많은지를 알 수있는 참조 지점을 제공합니다.

이 단원에서는 분류 및 회귀 알고리즘의 기준으로 사용할 수 있는 ZeroR 알고리즘에 대해 학습합니다.

  1. Weka GUI 선택기를 연 다음 Weka 탐색기를 엽니다.
  2. 데이터/diabetes.arff 데이터 세트를 로드합니다.
  3. “분류” 탭을 클릭합니다. ZeroR 알고리즘은 기본적으로 선택됩니다.
  4. “시작” 버튼을 클릭하십시오.


이렇게 하면 데이터 세트에서 10배 교차 유효성 검사를 사용하여 ZeroR 알고리즘이 실행됩니다.

제로 규칙이라고도 하는 ZeroR 알고리즘은 데이터 세트의 모든 알고리즘에 대한 성능 기준을 계산하는 데 사용할 수 있는 알고리즘입니다. 그것은 “최악의” 결과이며 더 나은 성능을 보여주는 알고리즘은 문제에 대한 기술을 가지고 있습니다.

분류 알고리즘에서 ZeroR 알고리즘은 항상 가장 풍부한 범주를 예측합니다. 데이터 세트에 동일한 수의 클래스가 있으면 첫 번째 범주 값을 예측합니다.

당뇨병 데이터 세트에서 이것은 65 %의 분류 정확도를 산출합니다.

회귀 문제의 경우 ZeroR 알고리즘은 항상 평균 출력 값을 예측합니다.

다양한 데이터 세트에서 ZeroR 알고리즘을 실험해 보십시오. 그것은 당신이 항상 기준을 개발하기 위해 다른 모든 사람들보다 먼저 실행해야 하는 알고리즘입니다.


9강 : 분류 알고리즘 둘러보기

Weka는 많은 수의 분류 알고리즘을 제공합니다.

이 단원에서는 분류 문제에 사용할 수 있는 5가지 상위 분류 알고리즘을 살펴봅니다.

  1. Weka GUI 선택기를 연 다음 Weka 탐색기를 엽니다.
  2. 데이터/diabetes.arff 데이터 세트를 로드합니다.
  3. “분류” 탭을 클릭합니다.
  4. “선택”버튼을 클릭하십시오.


분류에 사용할 수 있는 상위 5개의 알고리즘은 다음과 같습니다.

  • 로지스틱 회귀 (함수. 물류).
  • 순진한 베이즈 (베이. NaiveBayes).
  • k-가장 가까운 이웃 (게으른. IBk).
  • 분류 및 회귀 트리 (나무. 렙트리).
  • 지원 벡터 기계 (기능. SMO).


이러한 각 상위 알고리즘을 실험해 보십시오.

두 개 또는 그 이상의 클래스가 있는 다른 분류 데이터 세트에서 사용해 보십시오.


10강 : 회귀 알고리즘 둘러보기

분류 알고리즘은 Weka의 전문 분야이지만 이러한 알고리즘 중 많은 부분을 회귀에 사용할 수 있습니다. 회귀는 범주 (예 : “개”또는 “고양이”)를 예측하는 분류와 다른 실제 가치 결과 (예 : 달러 금액)의 예측입니다.

이 단원에서는 회귀 문제에 사용할 수 있는 5가지 상위 회귀 알고리즘을 발견하게 됩니다.

Weka 데이터 세트 다운로드 웹 페이지에서 표준 회귀 머신러닝 데이터 세트 제품군을 다운로드할 수 있습니다. 회귀 문제의 데이터 세트 숫자.jar 아카이브를 다운로드합니다.

  • “다양한 소스에서 얻은 37 회귀 문제가 포함 된 jar 파일”


좋아하는 압축 해제 프로그램을 사용하여 .jar 파일의 압축을 풀면 작업 할 수있는 37 회귀 문제가 포함 된 numeric / 라는 새 디렉토리가 생깁니다.

  1. Weka GUI 선택기를 연 다음 Weka 탐색기를 엽니다.
  2. 데이터/housing.arff 데이터 세트를 로드합니다.
  3. “분류” 탭을 클릭합니다.
  4. “선택” 버튼을 클릭하십시오.


회귀에 사용할 수 있는 상위 5개의 알고리즘은 다음과 같습니다.

  • 선형 회귀 (함수. 선형회귀).
  • 벡터 회귀 (함수)를 지원합니다. SMOReg).
  • k-가장 가까운 이웃 (게으른. IBk).
  • 분류 및 회귀 트리 (나무. 렙트리).
  • 인공 신경망 (기능. MultilayerPerceptron).


이러한 각 상위 알고리즘을 실험해 보십시오.

다른 회귀 데이터 세트에서 사용해보십시오.


11강 : 앙상블 알고리즘 둘러보기

Weka는 사용하기가 매우 쉽다는 점이 다른 플랫폼에 비해 가장 큰 장점일 수 있습니다.

이 외에도 Weka는 앙상블 머신러닝 알고리즘의 대규모 제품군을 제공하며 이는 다른 플랫폼에 비해 Weka의 두 번째 큰 이점일 수 있습니다.

Weka의 앙상블 알고리즘을 잘 사용하기 위해 시간을 할애할 가치가 있습니다. 이 단원에서는 사용할 수 있는 5가지 최고의 앙상블 머신러닝 알고리즘을 살펴보겠습니다.

  1. Weka GUI 선택기를 연 다음 Weka 탐색기를 엽니다.
  2. 데이터/diabetes.arff 데이터 세트를 로드합니다.
  3. “분류” 탭을 클릭합니다.
  4. “선택”버튼을 클릭하십시오.

사용할 수 있는 상위 5개의 앙상블 알고리즘은 다음과 같습니다.

  • 배깅 (메타. 배깅).
  • 랜덤 포레스트 (나무. 랜덤 포레스트).
  • AdaBoost (메타. AdaBoost).
  • 투표 (메타. 투표).
  • 스태킹 (메타. 스태킹).

이러한 각 상위 알고리즘을 실험해 보십시오.

이러한 앙상블 방법의 대부분은 하위 모델을 선택할 수 있습니다. 하위 모델의 다양한 조합을 사용하여 실험하십시오. 매우 다른 방식으로 작동하고 다른 예측을 생성하는 기술의 조합은 종종 더 나은 성능을 가져옵니다.

다른 분류 및 회귀 데이터 세트에서 사용해보십시오.


12강: 알고리즘의 성능 비교

Weka는 Weka 실험 환경이라는 알고리즘을 비교하기 위해 특별히 설계된 다른 도구를 제공합니다.

Weka 실험 환경을 사용하면 머신러닝 알고리즘으로 제어된 실험을 설계 및 실행한 다음 결과를 분석할 수 있습니다.

이 단원에서는 Weka에서 첫 번째 실험을 설계하고 Weka 실험 환경을 사용하여 머신러닝 알고리즘의 성능을 비교하는 방법을 알아봅니다.

  1. “Weka 선택기 GUI”를 엽니 다.
  2. “실험자”버튼을 클릭하여 “Weka 실험 환경”을 엽니다.
  3. “새로 만들기” 버튼을 클릭합니다.
  4. “새로 추가…”를 클릭합니다. “데이터 세트”창에서 버튼을 누르고 “데이터 / 당뇨병.arff”를 선택하십시오.
  5. “새로 추가…”를 클릭합니다. “알고리즘”창의 버튼을 누르고 “ZeroR”및 “IBk”를 추가하십시오.
  6. “실행”탭을 클릭하고 “시작”버튼을 클릭하십시오.
  7. “분석”탭을 클릭하고 “실험”버튼을 클릭 한 다음 “테스트 수행”버튼을 클릭하십시오.


방금 Weka에서 첫번째 통제 된 실험의 결과를 설계, 실행 및 분석했습니다.

ZeroR 알고리즘을 당뇨병 데이터 세트의 기본 구성으로 IBk 알고리즘과 비교했습니다.

결과는 IBK가 ZeroR보다 높은 분류 정확도를 가지며 이 차이가 통계적으로 유의미하다는 것을 보여줍니다 (결과 옆에있는 작은 “v” 문자).

실험을 확장하고 알고리즘을 더 추가하고 실험을 다시 실행합니다.

“분석” 탭의 “테스트 기준”을 변경하여 다른 결과와의 비교를 위한 참조로 사용되는 결과 집합을 변경합니다.


13강 : 알고리즘 파라미터 조정

머신러닝 알고리즘을 최대한 활용하려면 메서드의 매개 변수를 문제에 맞게 조정해야 합니다.

이 작업을 가장 잘 수행하는 방법을 미리 알 수 없으므로 다양한 매개 변수를 시도해야 합니다.

Weka 실험 환경을 사용하면 서로 다른 알고리즘 매개 변수의 결과와 차이가 통계적으로 유의한지 여부를 비교하기 위해 제어 실험을 설계할 수 있습니다.

이 단원에서는 k-가장 가까운 이웃 알고리즘의 매개 변수를 비교하는 실험을 설계합니다.

  1. “Weka 선택기 GUI”를 엽니 다.
  2. “실험자” 버튼을 클릭하여 “Weka 실험 환경”을 엽니 다.
  3. “새로 만들기” 버튼을 클릭합니다.
  4. “새로 추가…”를 클릭합니다. “데이터 세트” 창에서 버튼을 누르고 “데이터 / 당뇨병.arff”를 선택하십시오.
  5. “새로 추가…”를 클릭합니다. “알고리즘” 창의 버튼을 누르고 “IBk”알고리즘의 3 copes를 추가하십시오.
  6. 목록에서 각 IBk 알고리즘을 클릭하고 “선택한 편집 …”을 클릭하십시오. 버튼을 누르고 3 가지 알고리즘 각각에 대해 “KNN”을 1, 3, 5로 변경하십시오.
  7. “실행” 탭을 클릭하고 “시작” 버튼을 클릭하십시오.
  8. “분석” 탭을 클릭하고 “실험” 버튼을 클릭 한 다음 “테스트 수행” 버튼을 클릭하십시오.

방금 알고리즘 매개 변수를 비교하기 위해 제어된 실험의 결과를 설계, 실행 및 분석했습니다.

큰 K 값에 대한 결과가 기본값 1보다 우수하고 차이가 중요하다는 것을 알 수 있습니다.

KNN의 다른 구성 속성 변경을 탐색하고 머신러닝 알고리즘을 조정하기 위한 실험 개발에 대한 자신감을 구축하십시오.


14강 : 모델 저장

문제에 대해 최고 성능의 모델을 찾은 후에는 나중에 사용할 수 있도록 모델을 마무리해야 합니다.

이 마지막 단원에서는 최종 모델을 학습하고 나중에 사용할 수 있도록 파일에 저장하는 방법을 알아봅니다.

  1. Weka GUI 선택기를 연 다음 Weka 탐색기를 엽니다.
  2. 데이터/diabetes.arff 데이터 세트를 로드합니다.
  3. “분류” 탭을 클릭합니다.
  4. “테스트 옵션”을 “교육 세트 사용”으로 변경하고 “시작”버튼을 클릭하십시오.
  5. “결과 목록”의 결과를 마우스 오른쪽 버튼으로 클릭하고 “모델 저장”을 클릭하고 “당뇨병 최종”과 같은 파일 이름을 입력하십시오.


방금 전체 학습 데이터 세트에 대해 최종 모델을 학습하고 결과 모델을 파일에 저장했습니다.

이 모델을 Weka에 다시 로드하여 새 데이터에 대한 예측을 수행하는 데 사용할 수 있습니다.

  1. “결과 목록”을 마우스 오른쪽 버튼으로 클릭하고 “모델로드”를 클릭하고 모델 파일 ( “diabetes-final.model”)을 선택하십시오.
  2. “테스트 옵션”을 “제공된 테스트 세트”로 변경하고 data / diabetes.arff를 선택하십시오 (예측이 없는 새 파일일 수 있음)
  3. “테스트 옵션”에서 “추가 옵션”을 클릭하고 “출력 예측”을 “일반 텍스트”로 변경하십시오.
  4. 로드 된 모델을 마우스 오른쪽 버튼으로 클릭하고 “현재 테스트 세트에서 모델 다시 평가”를 선택하십시오.

이제 새 예측이 “분류자 출력” 창에 나열됩니다.

다양한 모델을 저장하고 완전히 새로운 데이터 세트에 대한 예측을 실험해 보십시오.


Weka 미니 코스 검토를 통한 머신러닝

축하합니다, 당신은 해냈습니다!

잠시 시간을 내어 얼마나 멀리 왔는지 되돌아 보십시오.

  • Weka Explorer와 Weka Experiment Environment를 시작하고 사용하는 방법을 처음 발견했습니다.
  • 데이터를 로드하고, 분석하고, 데이터 필터와 기능 선택을 사용하여 모델링을 위한 데이터를 준비했습니다.
  • 머신러닝 알고리즘 제품군과 성능을 평가하기 위해 제어된 실험을 설계하는 방법을 발견했습니다.


당신은 짧은 시간 안에 먼 길을 왔습니다. 이것은 Weka와 함께 응용 머신러닝에 대한 여행의 시작에 불과합니다. 계속 연습하고 기술을 개발하십시오.

이 미니 코스를 즐기셨습니까? 질문이나 고착점이 있습니까?
의견을 남기고 알려주세요.

네피리티
No Comments

Sorry, the comment form is closed at this time.