07
10월
실제 머신러닝 과제 둘러보기
in Technology
Comments
실제 사례는 머신러닝에 대한 추상적인 설명을 구체적으로 만듭니다.
이 게시물에서는 실제 머신러닝 문제를 둘러봅니다. 머신러닝이 교육, 과학, 기술 및 의학과 같은 분야에서 실제로 어떻게 사용될 수 있는지 알 수 있습니다. 나열된 각 머신러닝 문제에는 공개적으로 사용 가능한 데이터 세트에 대한 링크도 포함되어 있습니다. 즉, 특정한 머신러닝 문제에 관심이 있다면 데이터 세트를 다운로드하고 즉시 연습을 시작할 수 있습니다.
가장 인기있는 카글 데이터 세트
머신러닝 문제의 처음 10 가지 예는 또 다른 머신러닝 웹 사이트 Kaggle.com 에서 가져온 것입니다.
- 오토 그룹 제품 분류 챌린지. 제품 데이터의 주어진 기능은 제품을 9가지 제품 범주 중 하나로 분류합니다.
- 로스만 스토어 판매. 매장 전반의 제품에 대한 과거 판매 데이터를 감안할 때 향후 매출을 예측하십시오.
- 자전거 공유 수요. 매일 자전거 대여 및 날씨 기록을 감안할 때 미래의 일일 자전거 대여 수요를 예측합니다.
- 애널리틱스 에지. 새로운 시간에 대한 세부 사항을 감안할 때 기사는 어떤 뉴스 종이 기사가 인기가 있을지 예측합니다.
- 레스토랑 수익 예측. 레스토랑 사이트의 세부 사항을 감안할 때 주어진 해에 레스토랑의 수익을 예측합니다.
- 리버티 상호 그룹 : 부동산 검사 예측. 검사 된 속성의 세부 사항을 감안할 때 속성에 대한 위험 점수를 예측합니다.
- 스프링리프 마케팅 응답. 고객의 특징이 주어지면 마케팅 대상인지 아닌지를 예측합니다.
- 힉스 보슨 머신러닝 챌린지. 시뮬레이션된 입자 충돌에 대한 설명이 주어지면 이벤트가 힉스 보슨으로 붕괴되는지 여부를 예측합니다.
가장 인기 있는 연구 데이터 세트
다음 10가지 머신러닝 문제는 전통적으로 머신러닝 연구 커뮤니티에서 사용하는 머신러닝 데이터 세트를 호스팅하는 Irvine Machine Learning Repository 웹 사이트에서 가장 많이 사용됩니다.
- 아이리스 데이터 세트. 센티미터 단위의 꽃 측정 자료로 붓꽃의 종을 예측합니다.
- 성인 데이터 세트. 인구 조사 데이터로 개인의 연간소득이 $ 50,000 이상이 될 것으로 예측합니다.
- 와인 데이터 세트. 와인의 화학적 분석 자료로 바람의 방향을 예측합니다.
- 자동차 평가 데이터 세트. 자동차의 세부 데이터로 자동차의 예상 안전성을 예측합니다.
- 유방암 위스콘신 데이터 세트. 유방 조직에 대한 진단 검사 결과로 종양 여부를 예측합니다.
- 전복 데이터 세트. 전복의 사이즈로 전복의 나이를 예측합니다.
- 와인 품질 데이터 세트. 와인에 대한 측정 자료로 와인의 품질을 예측합니다.
- 심장 질환 데이터 세트. 환자에 대한 다양한 진단 테스트의 결과로 환자의 심장 질환의 양을 예측합니다.
- 포커 핸드 데이터 세트. 포커 플레이어의 손에 대한 데이터로 포커 실력을 예측합니다.
- 스마트 폰 데이터 세트를 사용한 인간 활동 인식. 스마트폰의 움직임 데이터로 스마트폰을 들고 있는 사람이 어떤 활동을 하고 있는지 예측합니다.
- 산불 데이터 세트. 기상 및 기타 요인으로 산불의 번져나간 지역을 예측합니다.
- 인터넷 광고 데이터 세트. 웹 페이지의 이미지 데이터로 이미지가 광고인지 여부를 예측합니다.
맺는 말
우리는 20 가지 실제 머신러닝 문제에 대해 알아 보았습니다. 이들은 전 세계의 과학 및 비즈니스 조직이 제기하거나 조사한 실제 문제입니다. 더욱 흥미로운 점은 이러한 다양한 문제가 공개적으로 사용 가능한 데이터 세트를 가지고 있으며 널리 연구된다는 것입니다. 즉, 지금 당장 데이터를 다운로드하고 자신의 모델을 구현하여 문제를 탐색하거나 종이 또는 블로그 게시물에서 다른 사람의 데이터를 재현할 수 있습니다.