머신러닝 결과를 사용하는 방법
문제의 실행 가능한 모델을 찾고 조정했으면 해당 모델을 사용할 때입니다. 이유를 다시 살펴보고 해결하려는 문제에 대한 해결책이 필요한 형식을 상기시켜야 할 수도 있습니다.
결과로 작업을 수행할 때까지 문제가 해결되지 않습니다. 이 게시물에서는 질문에 대한 답변으로 결과를 제시하는 전술과 프로토타입 모델을 프로덕션 시스템으로 전환할 때 고려해야 할 사항을 알아봅니다.
해결하려는 문제의 유형에 따라 결과 표시가 매우 다릅니다. 머신러닝 노력의 결과를 활용하는 데는 두 가지 주요 측면이 있습니다.
- 결과 보고
- 시스템 운영화
결과 보고
좋은 모델과 충분한 결과를 발견한 후(경우에 따라 그렇지 않을 수도 있음) 배운 내용을 요약하여 이해 관계자에게 제시하고 싶을 것입니다. 이것은 자신, 고객 또는 귀하가 일하는 회사일 수 있습니다.
PowerPoint 템플릿을 사용하고 아래 나열된 섹션을 해결하십시오. 한 페이지를 작성하고 파트 섹션을 섹션 머리글로 사용할 수 있습니다. 튜토리얼 및 대회와 같이 자신을 위해 수행하는 작은 실험 프로젝트에서도 이 프로세스를 따르십시오. 프로젝트에 과도한 시간을 소비하기 쉽고 그 과정에서 배운 모든 훌륭한 것들을 포착하고 싶습니다.
다음은 프로젝트 결과를 보고할 때 완료할 수 있는 섹션입니다.
- 컨텍스트(이유): 문제가 존재하는 환경을 정의하고 연구 질문의 동기를 설정합니다.
- 문제(질문): 문제를 나가서 대답한 질문으로 간결하게 설명하십시오.
- 솔루션(답변): 솔루션을 이전 섹션에서 제기한 질문에 대한 답변으로 간결하게 설명합니다. 구체적이어야 합니다.
- 결과: 청중의 관심을 끄는 과정에서 발견한 항목의 글머리 기호 목록입니다. 데이터에서 발견한 것, 효과가 있거나 작동하지 않은 방법 또는 여정에서 달성한 모델 성능 이점일 수 있습니다.
- 제한 사항: 모델이 작동하지 않는 위치 또는 모델이 대답하지 않는 질문을 고려합니다. 이러한 질문을 부끄러워하지 말고 모델이 탁월하지 않은 위치를 정의할 수 있다면 모델이 뛰어난 위치를 정의하는 것이 더 신뢰할 수 있습니다.
- 결론(이유+질문+답변): 자신과 다른 사람들을 위해 기억하고 반복하기 쉬운 타이트한 작은 패키지에서 발견한 이유, 연구 질문 및 답변을 다시 방문하십시오.
당신이 발표하는 청중의 유형은 당신이 들어가는 세부 사항의 양을 정의합니다. 작은 사이드 프로젝트에서도 결과에 대한 보고서와 함께 프로젝트를 완료할 수 있는 규율이 있으면 현장에서의 학습이 가속화됩니다. 이러한 소규모 사이드 프로젝트에서는 사이드 프로젝트의 결과를 블로그나 커뮤니티와 공유하고 다음 프로젝트를 시작할 때 캡처하여 가져갈 수 있는 피드백을 이끌어내는 것이 좋습니다.
운영화
직면한 문제를 해결하는 데 충분히 좋은 모델을 찾았고 프로덕션에 적용하고 싶습니다. 이것은 재미있는 사이드 프로젝트의 경우 워크 스테이션에 운영 설치가 될 수 있으며 모델을 기존 엔터프라이즈 응용 프로그램에 통합하는 것까지 가능합니다. 범위는 엄청납니다. 이 섹션에서는 시스템을 프로덕션에 배치하기 전에 신중하게 고려할 수 있는 모델 운영에 대한 세 가지 주요 측면을 배웁니다.
신중하게 고려해야 할 세 가지 영역은 알고리즘 구현, 모델의 자동화된 테스트 및 시간에 따른 모델 성능 추적입니다. 이 세 가지 문제는 선택한 모델 유형에 영향을 줄 가능성이 큽니다.
알고리즘 구현
가장 성능이 좋은 방법을 찾기 위해 연구 라이브러리를 사용했을 가능성이 큽니다. 연구 라이브러리의 알고리즘 구현은 훌륭할 수 있지만 작업중인 특정 사례가 아닌 문제의 일반적인 경우를 위해 작성 될 수도 있습니다.
이러한 구현을 프로덕션에 직접 적용함으로써 발생할 수 있는 종속성과 기술적 부채에 대해 매우 열심히 생각하십시오. 사용하려는 메서드를 지원하는 프로덕션 수준 라이브러리를 찾는 것이 좋습니다. 이 시점에서 프로덕션 수준 라이브러리로 전환하는 경우 알고리즘 튜닝 프로세스를 반복해야 할 수 있습니다.
알고리즘을 직접 구현하는 것도 고려할 수 있습니다. 이 옵션은 선택한 알고리즘의 복잡성과 사용하는 구현 트릭에 따라 위험을 초래할 수 있습니다. 오픈 소스 코드를 사용하더라도 자신있게 내재화하고 재현하기가 매우 어려울 수 있는 복잡한 작업이 있을 수 있습니다.
모델 테스트
모델을 생성할 수 있는지 확인하고 최소 수준의 성능을 반복적으로 달성하는 자동화된 테스트를 작성합니다. 또한 데이터 준비 단계에 대한 테스트를 작성합니다. 테스트를 100% 재현할 수 있도록 각 단위 테스트 실행에 대해 알고리즘(난수 초기값)에서 사용하는 임의성을 제어할 수 있습니다.
추적
시간 경과에 따른 모델의 성능을 모니터링하고 정확도가 최소 수준 아래로 떨어지면 경보를 발생시키는 인프라를 추가합니다. 추적은 실시간으로 또는 별도의 환경에서 다시 생성된 모델의 라이브 데이터 샘플과 함께 발생할 수 있습니다. 발생한 경보는 데이터에서 모델에 의해 학습된 구조가 변경되었으며(개념 드리프트) 모델을 업데이트하거나 조정해야 할 수 있음을 나타낼 수 있습니다.
온라인 학습을 수행하고 자체적으로 업데이트할 수 있는 몇 가지 모델 유형이 있습니다. 프로덕션 환경에서 모델이 자체적으로 업데이트되도록 허용할 때는 신중하게 생각하십시오. 경우에 따라 모델 업데이트 프로세스를 관리하고 성능이 더 좋은 것으로 확인된 모델(내부 구성)을 전환하는 것이 더 현명할 수 있습니다.
요약
이 게시물에서는 결과를 제공 할 때까지 프로젝트가 완료된 것으로 간주되지 않는다는 것을 배웠습니다. 결과는 자신이나 고객에게 제시 될 수 있으며 결과를 발표 할 때 따라야 할 최소한의 구조가 있습니다. 또한 프로덕션 환경에서 학습된 모델을 사용할 때 세 가지 고려 사항, 특히 알고리즘 구현의 특성, 모델 테스트 및 진행 추적에 대해 배웠습니다