Databricks事例紹介　～メディア編～

投稿日 2020年9月16日
著者 azure-recipe-user
カテゴリー Databricks

はじめに

今回はDatabricksのメディア業界での事例をご紹介させていただきます。
【掲載事例】
1.Showtime
公式事例URL : https://databricks.com/customers/showtime
2.Comcast
公式事例URL : https://databricks.com/customers/comcast
3.CondéNast
公式事例URL : https://databricks.com/customers/conde_nast

Showtime

ユースケース

今日の消費者はコンテンツプロバイダーに期待していることが多く、期待に応えられない場合はすぐに対応する必要があります。
エンゲージメントとロイヤリティを確保するために、Showtimeはデータを活用してコンテンツ戦略を推進したいと考えていましたが、レガシーシステムのスケーリングの制限と非効率的なデータパイプラインに苦労していました。
Databricksの統合データ分析プラットフォームを使用したことにより、解約を減らしながらエンゲージメントを向上させることを目的としました。
その結果カスタマージャーニーの実用的なビジョンを得ることができました。

課題

レガシーシステムによる新機能の市場投入までの時間の遅延
インフラストラクチャが複雑なので、柔軟性を可能にしながら、継続的なメンテナンスを必要としないインフラストラクチャが不可欠
機械学習モデルを開発、トレーニング、デプロイするプロセスは非常に手作業でエラーが発生しやすく、新しいモデルの市場投入までの時間が長い

成果

データエンジニアリングチームを大幅に簡素化し、データサイエンスチームの生産性を向上
豊富なデータプール内の洞察を利用して、視聴者のエンゲージメントを促進し、解約を減らす機会の発見
チームおよび複数のプログラミング言語間でコラボレーションを簡単かつシームレスにして、データサイエンスの生産性を向上
MLflowによって、MLライフサイクル全体を合理化
DatabricksはShowtimeが組織全体でデータと機械学習を民主化するのに役立ち、よりデータ主導の文化を生み出した
24時間以上かかっていたデータパイプラインが4時間未満で実行されるようになり(6倍の高速化)、チームがより迅速に意思決定を行えるように
自動クラスター管理を備えたクラウド内のフルマネージドプラットフォームにより、データサイエンスチームはハードウェア構成、クラスターのプロビジョニング、デバッグなどではなく、機械学習に注力
データサイエンスのコラボレーションと生産性の向上により、新しいモデルと機能の市場投入までの時間が短縮されました。チームはより速く実験でき、加入者にとってより良い、よりパーソナライズされたエクスペリエンスに

Comcast

ユースケース

Comcastは数百万の顧客にパーソナライズされた体験を提供するグローバルなテクノロジーおよびメディア企業です。
Comcastは大量のデータ、壊れやすいデータパイプライン、不十分なデータサイエンスコラボレーションに苦労していました。
Delta LakeやMLflowなどのDatabricksを使用して、ペタバイト規模のデータ用の高性能データパイプラインを構築し、数百のモデルのライフサイクルを簡単に管理できるようになりました。
その結果、音声認識と機械学習を使用した、非常に革新的でユニークな視聴者体験を提供します。

課題

数十億の個別のやり取りを実用的な洞察に変えながら、特定のプログラムに対する顧客の声の要求に即座に答える必要があり、ITインフラストラクチャとデータ分析およびデータサイエンスチームに大きな負担があった。
作成したモデルを、クラウド、オンプレミス、場合によっては直接デバイスに直接接続するなど、ばらばらで異なる環境に展開する必要があった。
エンターテインメントシステムによって生成された数十億のイベントと2000万以上の音声リモコンにより、分析する必要があるペタバイトのデータが発生している。
さまざまなスクリプト言語で作業する世界的に分散したデータサイエンティストは、コードの共有と再利用に苦労していた。
数百のMLモデルの開発、トレーニング、デプロイは非常に手動で行われ、時間がかかり、複製が困難であったため、スケーリングが困難
開発チームは最新のツールとモデルを使用することを望み、運用チームは実証済みのインフラストラクチャに展開することを望んでいた。

成果

Databricks統合データ分析プラットフォームにより、Comcastは豊富なデータセットを構築し、大規模な機械学習を最適化し、チーム全体でワークフローを合理化し、コラボレーションを促進し、インフラストラクチャの複雑さを軽減し、優れた顧客体験の提供を実現
自動クラスター管理と、自動スケーリングやスポットインスタンスなどのコスト管理機能により、運用コストを削減
Delta Lakeは、取り込み、データエンリッチメント、ビデオおよび音声アプリケーションとデバイスからの生テレメトリの初期処理に使用
Delta Lakeにより、ファイルを最適化し、大規模で迅速かつ信頼性の高い取り込みを実現
インタラクティブなノートブックにより、チーム間のコラボレーションとデータサイエンスの創造性が向上し、モデルのプロトタイピングを大幅に高速化して反復も高速化
マネージドMLflowは、Kubeflow環境を介して機械学習ライフサイクルとモデルの提供を簡素化し、数百のモデルを簡単に追跡および管理可能に
Delta Lakeは、効率的な分析パイプラインを大規模に提供し、履歴データとストリーミングデータを確実に結合して、より深い洞察を得ることが可能

CondéNast

ユースケース

Vogue, the New Yorker, Wiredなどの象徴的な雑誌の出版社であるCondéNastは、データを使用して、印刷物、オンライン、ビデオ、ソーシャルメディアで10億人以上の人々にリーチしています。

膨大な量のデータを活用するため、インフラストラクチャの管理とデータサイエンスの生産性の向上に苦労していました。
Databricksを使用すると、クラスターの自動化により不要なDevOps作業が排除され、Delta Lakeにより、月に1兆データポイントまで拡張できるデータパイプラインを構築できるようになり、MLライフサイクル全体を管理するMLflowとのコラボレーション環境でデータサイエンスのイノベーションが実現しました。
これにより、ブランド全体でパーソナライズされたコンテンツを配信し、顧客を引き付けて維持することができます。

課題

Sparkクラスターの構築と管理には、多くの設定と継続的なメンテナンスが必要で、より価値の高い活動からチームを遠ざけた
チームがデータパイプラインを構築し、コラボレーションを促進するために分析を進めるための共通のプラットフォームを見つける必要があった
データが多すぎてデータセットが既存のデータレイクソリューションを上回っていた

成果

運用を簡素化し、優れたパフォーマンスを提供し、データサイエンスの革新を可能にするフルマネージドクラウドプラットフォームを提供
データサイエンティストは、データと洞察を共同作業、共有、追跡し、共同作業の環境を促進可能に
データセットの量が増えると（月に1兆データポイントを超える）、Delta Lakeはこれに対応し、データの書き換えやデータのマージなど、より多くのユースケースに対応可能
MLflowを使用することにより実験の追跡から生産モデルの監視まで、機械学習ライフサイクル全体を簡単に管理可能に

おわりに

Databricks のメディアに関する事例の紹介は以上となります。
今回ご紹介した事例以外にも多くの参考になる事例が公開されておりますのでぜひ下記のリンク先をご参照ください。

参考リンク

https://databricks.com/jp/customers

この記事を書いた人

azure-recipe-user

記事一覧

Databricks事例紹介　～メディア編～

はじめに

Showtime

ユースケース

課題

成果

Comcast

ユースケース

課題

成果

CondéNast

ユースケース

課題

成果

おわりに

参考リンク

この記事を書いた人

azure-recipe-user

Azure Databricksでpetastormやーる

Azureデータ分析入門 #6 【CSVデータ → Power BI サービス】

Azureアーキテクチャガイドまとめ 3 【Webキューワーカー】

Spark Dataframe を投げるとヒートマップを出力する関数