Databricks事例紹介　～医療編～

投稿日 2020年9月4日
著者 azure-recipe-user
カテゴリー Databricks

はじめに

今回はDatabricksの医療業界での事例をご紹介させていただきます。
【掲載事例】
1.REGENERON
公式事例URL : https://databricks.com/customers/regeneron
2.SANFORD
公式事例URL : https://databricks.com/customers/sanford-health
3.OPTUM
公式事例URL : https://databricks.com/customers/optum

REGENERON

ユースケース

大容量のゲノムデータを分析し、新薬の開発を効率化しました。

課題

REGENERONでは新薬開発のために、
40万人分以上の遺伝子データを記録したデータベースを構築しました。
しかし、それらのデータを戦略的に活用するには以下の課題がありました。

ゲノムデータと臨床データが複雑に分散している
10TBのデータセットのETL処理だけで何日もかかる
データ量が多いため、モデルの分析およびトレーニングは困難を極めた

成果

データセット全体に対してのクエリ実行時間が30分から3秒に短縮(600倍の高速化)
共同作業環境を構築できたことで、エンジニアチームとしての生産性が向上
分析環境の管理を自動化
ETL処理全体が3週間から2日に短縮

SANFORD

ユースケース

大規模な患者データセットから
(10万人分以上の遺伝子データ、医療画像、健康記録など)
慢性疾患の原因となる遺伝子疾患を特定し、
患者ごとに最適化された治療を提供する基盤を構築しました。

課題

分析環境を構築するにあたり、以下のような問題がございました。

エンジニアリングやインフラ知識の不足
上記が原因で、分析基盤のセットアップや拡張が困難
機械学習を大規模に実行するために、数か月または数年も準備する必要があった

成果

データから知見を得るのに数日から数時間に短縮
データエンジニアリングと運用を簡素化
データをモデルに組み込むことが簡単になり、予防ケアと精密医療の提供を推進

OPTUM

ユースケース

病院から保険会社への医療保険請求から
過小支払いを検出をするのに利用しました。

課題

1日あたり数百万件の請求から、8時間以内に病院に結果を返す必要があった
データ規模の拡大につれて、パフォーマンスの課題が増大
計算パフォーマンスの拡張が困難
現状の計算に莫大なコストが発生

成果

8000万件の処理をする時間が86分間から160分間に短縮
分析の高速化により、失われる可能性のあった数百万ドルの収益を節約
オートスケーリングにより計算コストを最適化
あらゆる形式のデータの取り込みが容易に

おわりに

Databricksは大容量の臨床データなどを分析するのピッタリなサービスですので
非常に医療との親和性は高いです。

参考リンク

https://databricks.com/jp/customers

この記事を書いた人

azure-recipe-user

記事一覧

Databricks事例紹介　～医療編～

はじめに

REGENERON

ユースケース

課題

成果

SANFORD

ユースケース

課題

成果

OPTUM

ユースケース

課題

成果

おわりに

参考リンク

この記事を書いた人

azure-recipe-user

Azure Databricksを使ってみた

【はじめての Databricks】金融取引データから異常検知 #5 リモデル/モデル比較

【はじめての Databricks】金融取引データから異常検知 #3 Anomaly Detector

MMLSpark を Databricks on EC2 のクラスタにインストールする方法