나에게 중요한 과제로 머신러닝 작업하기
머신러닝을 스스로 공부할 때 동기를 유지하는 것은 어렵습니다.
표준 테스트 데이터 세트는 상당히 모호하고 당신의 일상생활과 동떨어져 있으며 때론 지루하기까지 합니다. 이 때 사용할 수 있는 중요한 방법은 당신에게 중요한 데이터 세트를 찾아 작업하는 것입니다.
이 글에서는 당신의 응용 머신러닝 학습을 동기부여하고 가속화시킬 수 있는 데이터 세트에 대해 이야기해 보겠습니다.
영향 문제
저는 이전에 당신에게 영향을 미치는 문제에 대해 작업하라고 이야기한 바 있습니다. 가장 큰 영향을 미치는 문제는 머신러닝 작업의 결과가 당신에게 직접적으로 영향을 미치는 문제입니다.
이것들은 당신의 개인적인 삶, 취미 또는 심지어 당신의 일과 관련된 문제일 수 있습니다. 그것들은 지금 당장 해결될 수도 있고 해결되지 않을 수도 있는 문제입니다. 문제의 크기와 범위는 중요하지 않습니다. 중요한 것은 결과입니다.
이것은 두 가지 이유로 강력한 방법입니다.
- 그것은 당신에게 객관적으로 문제를 다루고 합리적인 문제 해결 기술을 적용할 수 있는 권한을 부여하여 흥미로운 결과를 초래할 수 있습니다.
- 결과에 관심을 갖는 것은 새롭고 다른 방법을 배우고, 문제의 정의를 깊이 파고들고, 결과를 내도록 동기부여 할 가능성이 더 큽니다. 결과에 관심이 있기 때문에 프로젝트를 더 진지하게 다룰 것입니다.
몇 가지 추가 고려 사항이 있습니다.
- 데이터: 머신러닝 알고리즘은 데이터 문제를 모델링하며 모델링의 품질은 일반적으로 데이터 품질에 비례합니다. 액세스 권한이 있어야 하며 문제에 대한 데이터를 수집할 수 있어야 합니다.
- 공개: 데이터와 결과를 공개할 수 있습니까? 이 프로젝트를 머신러닝 포트폴리오의 일부로 사용하려는 경우 공개 가능 여부가 문제가 될 수 있습니다.
- 질문: 해결해야 할 문제가 있는지 확인하기 위해 질문으로 시작하십시오. 이 질문은 수집해야 할 데이터와 답변이 귀하에게 미칠 영향을 명확히 합니다.
다음 섹션에서는 머신러닝의 과제를 발견할 수 있는 삶의 세가지 영역을 살펴 보겠습니다.
집에서의 머신러닝
당신의 일상생활에 머신러닝 방법을 사용하여 모델링 할 수 있는 문제와 데이터 소스가 있습니까?
제 마음에 떠오르는 다섯 가지 예는 다음과 같습니다.
- 재테크 : 재테크의 일부 측면을 모델링 할 수 있습니다. 이것은 주간 지출 예측 또는 대규모 구매 예측과 같은 것일 수 있습니다. 그것은 또한 당신의 투자 포트폴리오와 관련된 것일 수도 있습니다.
- 이동 : 개인 운송의 일부 측면을 모델링할 수 있습니다. 이것은 특정 날짜에 출퇴근하는 기차 또는 버스, 출퇴근 시간 또는 직장 도착 시간 예측 또는 연료 소비와 같은 세부 사항일 수 있습니다.
- 음식: 당신이 소비하는 음식에 대해 뭔가를 모델링 할 수 있습니다. 이것은 수량, 칼로리, 간식 예측 또는 이번주에 구매해야 하는 것의 모델 일 수 있습니다.
- 미디어: TV, 영화, 책, 음악 또는 웹 사이트와 같은 미디어 소비를 모델링할 수 있습니다.
- 피트니스: 피트니스의 일부 측면을 모델링할 수 있습니다. 이것은 체중, BMI, 신체 측정 또는 윗몸 일으키기의 수 또는 모든 운동 루틴을 완료하는 시간과 같은 지구력의 측면일 수 있습니다. 어느날 체육관에 갈지 아닐지를 모델링하는 것은 어떨까요?
데이터에 액세스 할 수 있어야 하므로 데이터를 측정하고 수집하는 데 시간을 할애해야 할 것입니다.
취미로서 머신러닝
머신러닝 이외의 취미가 있습니까? 취미와 관련된 모델을 작업하기 위해 어떤 데이터를 수집할 수 있을지 생각해 보시기 바랍니다.
당신이 가지고 있거나 모델링하고 싶은 취미의 다섯 가지 예는 다음과 같습니다.
- 스포츠: 팀 또는 리그의 성과를 모델링할 수 있습니다. 당신은 스포츠팀에 속해 있을 수도 있으며, 개별 플레이어의 성과를 모델링하는 데 관심이 있을 수도 있습니다. 관심을 불러 일으킬 수 있는 스포츠의 결과에는 도박의 요소도 있습니다 (조심하십시오). 어쩌면 몇 주 동안 스포츠를 하는 어린이 또는 가족 구성원이 문제와 데이터 소스를 조금 더 많이 제공 할 수도 있습니다.
- 게임: 플레이하는 게임의 한 측면을 모델링할 수 있습니다. 이것은 보드 게임, 카드 게임 또는 컴퓨터 게임일 수 있습니다. 승패 결과, 특정 결과 점수 또는 게임 내의 특정 움직임을 모델링하고 예측할 수 있습니다.
- 예술 / 공예 : 아마추어 아티스트 또는 공예가이며 사진을 창작물의 공개 소셜 사진 앨범에 게시할 수 있습니다. 게시하는 특정 사진이 타사에 좋아하거나 흥미로운지 (보기 또는 댓글 형식으로) 모델링하고 예측할 수 있습니다. 비슷한 접근법이 통제 그룹 (가족 구성원?) 및 관심이나 품질 (그림, 음악 등)에 대한 주관적인 평가가 필요할 수 있는 다양한 다른 예술 형식에 직접 사용될 수 있습니다.
- 언어: 귀하, 친구 또는 가족 구성원이 학습하는 언어의 일부 측면을 모델링할 수 있습니다. 플래시 카드를 사용하는 경우 주어진 카드의 내용이 기억되는지 여부를 모델링하는 흥미로운 문제에 빠질 수 있습니다. 또한 획득한 새로운 작품의 비율과 오류의 빈도와 같은 언어 학습의 다른 측면을 모델링할 수 있습니다. 데이터 수집은 흥미로운 과제가 될 수 있습니다.
- 사진 : 조류 관찰자, 자연 애호가 또는 자연을 다양한 방식으로 촬영할 다른 이유가 있을 수 있습니다. 나뭇잎 / 새 / 동물의 사진을 그룹으로 분류하는 문제를 모델링 할 수 있습니다. 또한 주어진 사진에 애완견이나 자신의 얼굴과 같은 관심있는 물체가 포함되어 있는지 여부에 대한 문제를 모델링 할 수도 있습니다.
쉽게 그릴 수 있고 모델링 할 수 있는 데이터 세트가 있는 취미를 선택하세요.
직장에서의 머신러닝
직장 내 데이터에 액세스할 수 있습니까? 이것은 당신의 블로그이거나 온라인상의 어떤 것일 수도 있고, 당신이 만들거나 발표한 것에 대한 데이터일 수도 있습니다.
- 방문자 : 웹 사이트 방문에 대해 모델링 할 수 있습니까? (이것은 자신의 블로그 또는 웹 속성 일 수 있음). 아마도 플랫폼, 브라우저 등과 같은 방문자의 인구 통계학적 기능 또는 게시된 콘텐츠를 기반으로 한 기간의 방문자 출처 또는 페이지 뷰의 양일 수 있습니다.
- 고객: 방문자와 마찬가지로 고객의 속성을 모델링할 수 있습니까? 이는 구매 수량, 장바구니 내용, 구매 시간 또는 이와 유사한 인구 통계 정보 일 수 있습니다. 나는 당연한 것으로 여겨지는 사업에 대한 많은 새로운 지식 (데이터 지원)을 씻어낼 수 있기 때문에이 분야를 좋아합니다.
- 변환 : 모델링 할 수 있는 변환 품질입니까? 이것은 시간 또는 고객 인구 통계와 같은 전환의 측면 일 수 있습니다. 그것은 재판, 유료, 상향 판매와 같은 전환 체인의 예측 일 수 있습니다.
- 독점 데이터: 조직에서 만들거나 액세스할 수 있는 고유하거나 흥미로운 데이터입니다. 모델링할 가치가 있는 데이터에 대해 어떤 질문을 할 수 있습니까?
개인 정보 보호 문제 및 데이터 소유권에 유의하십시오. 데이터에 액세스하기 전에 권한이 필요할 수 있으며 결과를 기밀로 유지하거나 조직 내부에서만 사용해야 할 수 있습니다.