머신러닝 적용사례 제 8장. 글로벌 기업들의 머신러닝 활용 사례들
이번 글에서는 머신러닝의 구체적 활용사례를 기술하기보다 글로벌 기업들이 머신러닝을 활용해서 이룩한 성과를 간략하게 요약하겠습니다.
글을 읽어보시면 머신러닝을 활용할 수 있는 산업분야가 무척 다양함을 알 수 있습니다.
관련 산업에 종사하시는 분들께서 인사이트를 얻는 데 도움이 되었으면 하는 바람입니다.
빅데이터와 머신러닝에 대한 새롭고 흥미로운 내용을 준비하여 곧 다시 찾아 뵙겠습니다.
엔터테인먼트의 미래를 제공하는 Comcast
수백만 명의 고객을 개인화된 경험에 연결하는 글로벌 기술 및 미디어 회사인
Comcast는 방대한 데이터,
취약한 데이터 파이프라인 및 열악한 데이터 과학 협업으로 어려움을 겪었습니다.
Delta Lake 및
MLflow를 포함한
Databricks를 사용하여 페타바이트 규모의 데이터에 대한 고성능 데이터 파이프라인을 구축하고 수백 가지 모델의 수명 주기를 쉽게 관리하여 음성 인식 및 머신러닝을 활용하는 매우 혁신적이고 독특하며 수상 경력에 빛나는 뷰어 경험을 만들 수 있었습니다.
적용 사례
경쟁이 치열한 엔터테인먼트 산업에서는 일시 중지 버튼을 누를 시간이 없습니다.
Comcast는 데이터 수집에서 고객을 만족시키는 새로운 기능을 제공하는 머신러닝 모델 배포에 이르기까지 분석에 대한 전체 접근 방식을 현대화해야 한다는 것을 깨달았습니다.
솔루션 및 이점
통합된 분석 접근 방식으로 무장한
Comcast는 이제
AI 기반 엔터테인먼트의 미래로 빠르게 나아갈 수 있습니다.
n Emmy
수상 경력에 빛나는 시청자 경험:
Databricks는 참여를 높이는 지능형 음성 명령을 통해
Comcast가 수상 경력에 빛나는 매우 혁신적이고 혁신적인 시청자 경험을 제공할 수 있도록 지원합니다.
n 컴퓨팅 비용
10배 감소:
Delta Lake를 통해
Comcast는 데이터 수집을 최적화하여
640대의 시스템을
64대로 교체하면서 성능을 향상할 수 있었습니다.
팀은 분석에 더 많은 시간을 할애하고 인프라 관리에 더 적은 시간을 할애할 수 있습니다.
n 데이터 과학 생산성 향상:
Delta Lake의 업그레이드 및 사용은 단일 대화형 작업 공간을 통해 다양한 프로그래밍 언어를 지원함으로써 데이터 과학자 간의 글로벌 협업을 촉진했습니다.
또한
Delta Lake는 데이터 팀이 데이터 파이프라인 내의 어느 지점에서든 데이터를 사용할 수 있도록 하여 새로운 모델을 구축하고 교육하는 데 훨씬 더 빠르게 조치를 취할 수 있도록 했습니다.
n 더 빠른 모델 배포:
Comcast는 현대화를 통해 운영 팀이 서로 다른 플랫폼에 모델을 배포함에 따라 배포 시간을 몇 주에서 몇 분으로 단축했습니다.
Regeneron은 게놈 시퀀싱으로 약물 발견을 가속화합니다.
Regeneron의 사명은 유전체 데이터의 힘을 활용하여 도움이 필요한 환자에게 신약을 제공하는 것입니다.
그러나 이 데이터를 삶을 변화시키는 발견 및 표적 치료로 변환하는 것은 그 어느 때보다 어렵습니다.
열악한 처리 성능과 확장성 제한으로 인해 데이터 팀은 페타바이트 규모의 게놈 및 임상 데이터를 분석하는 데 필요한 것이 부족했습니다.
이제
Databricks를 통해 전체 게놈 데이터 세트를 신속하게 분석하여 새로운 치료제의 발견을 가속화할 수 있습니다.
적용 사례
현재 약물 개발 파이프라인에 있는 모든 실험 의약품의
95% 이상이 실패할 것으로 예상됩니다.
이러한 노력을 개선하기 위해
Regeneron Genetics Center는 400,000명 이상의 사람들의 시퀀싱된 엑솜과 전자 건강 기록을 짝지어 가장 포괄적인 유전학 데이터베이스 중 하나를 구축했습니다.
그러나 그들은 이 방대한 데이터 세트를 분석하는 수많은 문제에 직면했습니다.
n 게놈 및 임상 데이터는 고도로 분산되어 있어 전체
10TB 데이터 세트에 대해 모델을 분석하고 학습하기가 매우 어렵습니다.
n 800억 개 이상의 데이터 포인트에 대한 분석을 지원하기 위해 레거시 아키텍처를 확장하는 것은 어렵고 비용이 많이 듭니다.
n 데이터 팀은 분석에 사용할 수 있도록 데이터를
ETL하는 데 며칠을 보냈습니다.
솔루션 및 이점
Databricks는
Amazon Web Services에서 실행되는 통합 데이터 분석 플랫폼을 Regeneron에 제공하여 운영을 간소화하고 향상된 데이터 과학 생산성을 통해 약물 발견을 가속화합니다.
이를 통해 이전에는 불가능했던 새로운 방식으로 데이터를 분석할 수 있습니다.
n 가속화된 약물 표적 식별:
데이터 과학자와 전산 생물학자가 전체 데이터 세트에 대해 쿼리를 실행하는 데 걸리는 시간을
30분에서
3초로 단축하여
600배 개선되었습니다!
n 생산성 향상:
향상된 협업,
자동화된
DevOps 및 가속화된 파이프라인(ETL
2일 대
3주)을 통해 팀은 더 광범위한 연구를 지원할 수 있었습니다.
Nationwide는 보험 계리 모델링을 통해 보험을 재창조합니다.
데이터 가용성의 폭발적인 성장과 시장 경쟁의 증가로 인해 보험사는 고객에게 더 나은 가격을 제공해야 합니다.
다운스트림
ML에 대해 분석해야 할 수억 개의 보험 기록이 있는
Nationwide는 기존 배치 분석 프로세스가 느리고 부정확하여 청구 빈도와 심각도를 예측하는 데 제한된 통찰력을 제공한다는 것을 깨달았습니다.
Databricks를 통해 딥 러닝 모델을 대규모로 사용하여 보다 정확한 가격 예측을 제공함으로써 청구 수익을 늘릴 수 있었습니다.
적용 사례
정확한 보험 가격을 제공하는 핵심은 보험 청구 정보를 활용하는 것입니다.
그러나 청구가 드물고 예측할 수 없어 가격이 부정확해지기 때문에 변동성이 큰 보험 기록을 분석해야 했기 때문에 데이터 문제는 어려웠습니다.
솔루션 및 이점
Nationwide는
Databricks 통합 데이터 분석 플랫폼을 활용하여 데이터 수집에서 딥 러닝 모델 배포에 이르는 전체 분석 프로세스를 관리합니다.
완전 관리형 플랫폼은
IT 운영을 단순화하고 데이터 과학 팀을 위한 새로운 데이터 기반 기회를 열어주었습니다.
n 대규모 데이터 처리:
전체 데이터 파이프라인의 런타임이
34시간에서
4시간 미만으로 개선되어 성능이
9배 향상되었습니다.
n 더 빠른 기능화:
데이터 엔지니어링은
5시간에서 약
20분으로
15배 더 빠르게 기능을 식별할 수 있습니다.
n 더 빠른 모델 교육:
교육 시간을
50% 단축하여 새 모델의 출시 시간을 단축합니다.
n 향상된 모델 스코어링:
모델 스코어링이
3시간에서
5분 미만으로
60배 향상되었습니다.
Condé Nast는 데이터 및 AI 기반 경험으로 독자 참여도를 높입니다.
Condé Nast는
The New Yorker, Wired 및 Vogue를 포함하여 포트폴리오에서 가장 상징적인 잡지 제목을 포함하는 세계 최고의 미디어 회사 중 하나입니다.
이 회사는 데이터를 사용하여 인쇄,
온라인,
비디오 및 소셜 미디어에서
10억 명이 넘는 사람들에게 다가갑니다.
적용 사례
Condé Nast는 선도적인 미디어 퍼블리셔로서 포트폴리오에서
20개 이상의 브랜드를 관리합니다.
매달 웹 속성은
1억 회 이상의 방문과
8억 회 이상의 페이지 보기를 기록하여 엄청난 양의 데이터를 생성합니다.
데이터 팀은 머신러닝을 사용하여 개인화된 콘텐츠 추천 및 타겟 광고를 제공함으로써 사용자 참여를 개선하는 데 중점을 두고 있습니다.
솔루션 및 이점
Databricks는
Condé Nast에 운영을 간소화하고 우수한 성능을 제공하며 데이터 과학 혁신을 가능하게 하는 완전 관리형 클라우드 플랫폼을 제공합니다.
n 고객 참여 개선:
개선된 데이터 파이프라인을 통해
Condé Nast는 더 빠르고 정확하며 더 나은 콘텐츠 추천을 제공하여 사용자 경험을 개선할 수 있습니다.
n 확장성을 위해 구축됨:
데이터 세트는 더 이상
Condé Nast의 통찰력을 처리하고 수집하는 용량을 초과할 수 없습니다.
n 생산 중인 더 많은 모델:
MLflow를 사용하여
Condé Nast의 데이터 과학 팀은 제품을 더 빠르게 혁신할 수 있습니다.
그들은 프로덕션에
1,200개 이상의 모델을 배포했습니다.
Showtime은 ML을 활용하여 데이터 기반 콘텐츠 프로그래밍을 제공합니다.
SHOWTIME®은 수상 경력에 빛나는 오리지널 시리즈와
“Shameless”, “Homeland”, “Billions”, “The
Chi”, “Ray Donovan”, “SMILF”, “The Affair,”
“Patrick Melrose”, “Our Cartoon President”, “Twin
Peaks” 등.
적용 사례
Showtime의 데이터 전략 팀은 조직 전체에서 데이터 및 분석을 민주화하는 데 중점을 두고 있습니다.
그들은 엄청난 양의 구독자 데이터(예:
시청한 프로그램,
시간,
사용한 기기,
구독 기록 등)를 수집하고 머신러닝을 사용하여 구독자 행동을 예측하고 일정 및 프로그래밍을 개선합니다.
솔루션 및 이점
Databricks는
Showtime이 조직 전체에서 데이터 및 머신러닝을 민주화하여 보다 데이터 중심적인 문화를 조성하는 데 도움이 되었습니다.
n 6배 빨라진 파이프라인:
24시간 이상 걸리던 데이터 파이프라인이 이제
4시간 이내에 실행되어 팀이 더 빠르게 의사 결정을 내릴 수 있습니다.
n 인프라 복잡성 제거:
자동화된 클러스터 관리가 포함된 클라우드의 완전 관리형 플랫폼을 통해 데이터 과학 팀은 하드웨어 구성,
클러스터 프로비저닝,
디버깅 등이 아닌 머신러닝에 집중할 수 있습니다.
n 가입자 경험 혁신:
데이터 과학 협업 및 생산성이 향상되어 새로운 모델 및 기능의 출시 시간이 단축되었습니다.
팀은 더 빠르게 실험할 수 있어 구독자에게 더 좋고 개인화된 경험을 제공할 수 있습니다.
Shell은 보다 깨끗한 세상을 위한 에너지 솔루션으로 혁신합니다.
Shell은 석유 및 가스 탐사 및 생산 기술 분야에서 인정받는 개척자이며 세계 최고의 석유 및 천연 가스 생산업체,
가솔린 및 천연 가스 마케터,
석유화학 제조업체 중 하나입니다.
적용 사례
Shell은 생산을 유지하기 위해 전 세계 시설에
3,000개 이상의 다양한 예비 부품을 비축하고 있습니다.
가동 중단을 피하기 위해 적절한 부품을 적시에 사용할 수 있는 것이 중요하지만 마찬가지로 비용이 많이 들 수 있는 과잉 재고가 발생하지 않는 것도 중요합니다.
솔루션 및 이점
Databricks는 재고 및 공급망 관리를 개선하는 데 도움이 되는 클라우드 네이티브 통합 분석 플랫폼을
Shell에 제공합니다.
n 예측 모델링:
확장 가능한 예측 모델은
50개 이상의 위치에서
3,000개 이상의 재료 유형에 걸쳐 개발 및 배포됩니다.
n 역사적 분석:
각 재료 모델에는 문제의 역사적 분포를 캡처하기 위해
10,000개의
Markov Chain Monte Carlo 반복을 시뮬레이션하는 작업이 포함됩니다.
n 엄청난 성능 향상:
데이터 과학 팀은 성능 향상에 중점을 두고 인벤토리 분석 및 예측 시간을
Databricks의
50노드
Apache Spark™ 클러스터에서
48시간에서
45분으로 단축하여 성능이
32배 향상되었습니다.
n 지출 감소:
연간 수백만 달러에 해당하는 비용 절감.
Riot Games는 AI를 활용하여 게이머의 참여를 유도하고 고객 이탈을 줄입니다.
Riot Games의 목표는 세계에서 가장 플레이어 중심적인 게임 회사입니다.
2006년에 설립되어
LA에 기반을 둔
Riot Games는 리그 오브 레전드 게임으로 가장 잘 알려져 있습니다.
매달
1억 명이 넘는 게이머가 게임을 합니다.
적용 사례
네트워크 성능 모니터링을 통해 게임 경험을 개선하고 게임 내 욕설을 퇴치합니다.
솔루션 및 이점
Databricks를 통해
Riot Games는 확장 가능하고 빠른 분석을 제공하여 플레이어의 게임 경험을 개선할 수 있습니다.
n 게임 내 구매 경험 개선:
5000억 개 이상의 데이터 포인트를 기반으로 고유한 제안을 제공하는 추천 엔진을 신속하게 구축 및 생산할 수 있습니다.
이제 게이머는 원하는 콘텐츠를 더 쉽게 찾을 수 있습니다.
n 게임 지연 감소:
네트워크 문제를 실시간으로 감지하는
ML 모델을 구축하여
Riot Games가 플레이어에게 부정적인 영향을 미치기 전에 지연을 방지할 수 있습니다.
n 더 빠른 분석:
EMR에 비해 데이터 준비 및 탐색의 처리 성능이
50% 향상되어 분석 속도가 크게 빨라졌습니다.
Eneco는 ML을 사용하여 에너지 소비 및 운영 비용 절감합니다
Eneco는 사람들이 에너지 사용,
편안함,
가정 보안 등을 제어할 수 있도록 하는 스마트 에너지 관리 장치인
Toon의 기술 회사입니다.
Eneco의 스마트 장치는 유럽 전역의 수십만 가정에 있습니다.
따라서 가정 전체에 있는 가전 제품의 센서에서 수집한 페타바이트 규모의
IoT 데이터로 구성된 유럽 최대의 에너지 데이터 세트를 유지 관리합니다.
이 데이터를 바탕으로 개인화된 에너지 사용 권장 사항을 통해 에너지 소비를 줄이면서 고객이 보다 편안한 삶을 살 수 있도록 돕는 임무를 수행하고 있습니다.
적용 사례
개인화된 에너지 사용 권장 사항:
머신러닝 및
IoT 데이터를 활용하여 가정 내 에너지 소비를 줄이기 위한 개인화된 권장 사항을 제공하는 폐기물 검사기 앱을 강화합니다.
솔루션 및 이점
Databricks는 데이터 과학 및 엔지니어링 전반에 걸쳐 확장 가능하고 협업적인 환경을 조성한 통합 데이터 분석 플랫폼을
Eneco에 제공하여 데이터 팀이
Eneco의 고객에게
ML 기반 서비스를 보다 신속하게 혁신하고 제공할 수 있도록 합니다.
n 비용 절감:
Databricks가 제공하는 비용 절감 기능(예:
자동 크기 조정 클러스터 및 스팟 인스턴스)은
Eneco가 인프라 관리의 운영 비용을 크게 줄이는 동시에 많은 양의 데이터를 처리하는 데 도움이 되었습니다.
n 더 빠른 혁신:
레거시 아키텍처를 사용하여 개념 증명에서 프로덕션으로 이동하는 데
12개월 이상이 걸렸습니다.
이제
Databricks를 사용하면 동일한 프로세스에
8주 미만이 소요됩니다.
이를 통해
Eneco의 데이터 팀은 고객을 위한 새로운
ML 기반 기능을 훨씬 더 빠르게 개발할 수 있습니다.
n 에너지 소비 감소:
Eneco는 폐기물 검사기 앱을 통해 개인화된 권장 사항을 활용하여 절약할 수 있는
6,700만 킬로와트시 이상의 에너지를 식별했습니다.