Databricks事例紹介 ~医療編~

はじめに

今回はDatabricksの医療業界での事例をご紹介させていただきます。
【掲載事例】
1.REGENERON
公式事例URL : https://databricks.com/customers/regeneron
2.SANFORD
公式事例URL : https://databricks.com/customers/sanford-health
3.OPTUM
公式事例URL : https://databricks.com/customers/optum

REGENERON

2020-09-03_09h26_57.png

ユースケース

大容量のゲノムデータを分析し、新薬の開発を効率化しました。

課題

REGENERONでは新薬開発のために、
40万人分以上の遺伝子データを記録したデータベースを構築しました。
しかし、それらのデータを戦略的に活用するには以下の課題がありました。

  • ゲノムデータと臨床データが複雑に分散している
  • 10TBのデータセットのETL処理だけで何日もかかる
  • データ量が多いため、モデルの分析およびトレーニングは困難を極めた

成果

  • データセット全体に対してのクエリ実行時間が30分から3秒に短縮(600倍の高速化)
  • 共同作業環境を構築できたことで、エンジニアチームとしての生産性が向上
  • 分析環境の管理を自動化
  • ETL処理全体が3週間から2日に短縮

SANFORD

2020-09-03_09h27_31.png

ユースケース

大規模な患者データセットから
(10万人分以上の遺伝子データ、医療画像、健康記録など)
慢性疾患の原因となる遺伝子疾患を特定し、
患者ごとに最適化された治療を提供する基盤を構築しました。

課題

分析環境を構築するにあたり、以下のような問題がございました。

  • エンジニアリングやインフラ知識の不足
  • 上記が原因で、分析基盤のセットアップや拡張が困難
  • 機械学習を大規模に実行するために、数か月または数年も準備する必要があった

成果

  • データから知見を得るのに数日から数時間に短縮
  • データエンジニアリングと運用を簡素化
  • データをモデルに組み込むことが簡単になり、予防ケアと精密医療の提供を推進

OPTUM

2020-09-03_09h26_31.png

ユースケース

病院から保険会社への医療保険請求から
過小支払いを検出をするのに利用しました。

課題

  • 1日あたり数百万件の請求から、8時間以内に病院に結果を返す必要があった
  • データ規模の拡大につれて、パフォーマンスの課題が増大
  • 計算パフォーマンスの拡張が困難
  • 現状の計算に莫大なコストが発生

成果

  • 8000万件の処理をする時間が86分間から160分間に短縮
  • 分析の高速化により、失われる可能性のあった数百万ドルの収益を節約
  • オートスケーリングにより計算コストを最適化
  • あらゆる形式のデータの取り込みが容易に

おわりに

Databricksは大容量の臨床データなどを分析するのピッタリなサービスですので
非常に医療との親和性は高いです。

参考リンク

https://databricks.com/jp/customers