【Databricks Data+AI Summit 2022】KeyNote 2日目 日本語訳

2022/6/27(月)~2022/6/30(木)の4日間、サンフランシスコと Web 会場で Data+AI Summit 2022 が開催されました!
Data+AI Summit 2022 で発表された Databricks 最新情報をお知らせします。

Data+AI Summit 2022 とは?

Databricksは、データ収集、加工、AI・データ分析、可視化までクラウド上でのデータ利活用に必要なあらゆる機能を備えたデータ分析統合プラットフォームです。
Databricks 社が主催する Data+AI Summit 2022 では、Databricks のユースケースや、事例、新機能などに関する情報が発表されています。

ログインページはこちら!
※メールアドレスの登録が必要です

https://dataaisummit.com

Data+AI Summit 2022 KeyNote 2日目

目次

  • Serverless Model Endpoints プライベートプレビュー公開
  • Integrated Model Monitoring プライベートプレビュー公開
  • MLflow Pipelines が公開
  • MLflow 2.0 が 近日公開
  • Databricks Workflows が公開

Serverless Model Endpoints がプライベートプレビュー公開

概要

  • モデルのデプロイをせずに、Databricks 上に登録したモデルの推論が実施できる機能です。Databricks 上で推論サーバを管理しているため、推論に使用する VM の数やコア数、GPU の数をスケーリングさせるといったことができます。

モデル推論管理画面
モデルバージョンごとの管理もできます。
image.png

  • スケーリングを自由に行えるため、使用しない推論モデルがある場合は、0までリソースをスケールダウンすることで推論のコストを大幅に削減することができます。

  • その他にも、Serverless Model Endpoints を使用すると、Databricks でトレーニング済みのモデルに対し、ボタンをクリックするだけで、高い SLA とスケーラビリティを提供している本番環境にデプロイすることができます。

コンピューティングスケーリング画面
以下のように、推論に使用するインスタンスタイプ、コア数、スケーリングの設定ができるようです。
image.png

Integrated Model Monitoring がプライベートプレビュー公開

概要

  • Serverless Model Endpoints とセットで使用できる機能で、機械学習モデルのドリフト(精度)検知が行える機能です。
  • しきい値を設定して、モデルの精度がしきい値より下がったらアラートを特定のメールアドレスに送信する、といったことが可能になりました。

モデルドリフト設定画面
これらのモデルに対するモニタリング機能を内蔵しているので、前に見たデータ統合タスクでは、本番環境からログに記録されたリクエストを取得
image.png

MLflow Pipelines (MLflow 1.27 でベータ版) の公開

概要

image.png

  • MLOps の問題を解決するための新機能が MLflow Pipelines として公開されました。
  • パイプラインテンプレート、パイプラインエンジン、Opnionated structure の3つの機能が特長です。
  • MLflow Pipelines は coming soon の MLflow 2.0 で利用可能になります。

パイプラインテンプレート

  • 機械学習モデル管理をスタートするために必要な、機械学習モデルのトラッキングやMLflow modelsへの登録などのコードと設定がパイプラインテンプレートとして公開されました。
  • MLflow のコードを一から書かなくていいのは便利だと思います。
  • yaml でパイプラインテンプレートを管理できるようになっています。

パイプラインエンジン

  • 構築した機械学習モデルに対して、コード変更した部分のみを再実行してくれる機能です。
  • 機械学習モデル構築のステップを MLflow 上で保持してくれます。

オピニオンストラクチャ – Opnionated structure

  • モデル開発用の Notebook とは別にオーケストレーション用 Notebook を用意し、その Notebook からモデルの操作ができるようになりました。
  • 以下のように、Pipeline .run(“train”) を Notebook で実行すると、モデルの評価指標などを確認できるようになっています。これは便利。

image.png
image.png

Databricks Workflows が公開されました

概要

  • Databricks Lakehouse のフルマネージドオーケストレーションサービスで、Databricks UI 上でジョブ管理ができるようになりました。
  • 機械学習モデルをトレーニングするためのデータ取り込み~モデルトレーニング~推論の一連の流れを Databricks Workflows を使用して管理することができるようになりました。
  • 構築したモデルのドラフトを検知したら→モデルの再トレーニングを行う、といったことも Databricks Workflows で管理が可能です。
  • 以下のように UI 上で機械学習モデルのフローを管理できるようになります。

image.png

まとめ

ここまでご覧いただきありがとうございました!
KeyNote を見て、個人的に便利だと思った機能は Databricks Workflows です。
構築したモデルのドラフトを検知したら→モデルの再トレーニングを行う、といったことができるようになったのが便利だと思いました。
Databricks Data&AI Summit 2022 最新情報を引き続き更新していきますので、
他の記事も是非ご覧いただければと思います。

Data+AI Summit 2022 最新情報更新中!

Data+AI Summit 2022ナレコム特設サイト
https://www.knowledgecommunication.jp/product/DataAISummit2022.html
Databricks導入ご相談申し込み受付中です!

Twitterではナレコム最新情報を更新中です。
https://twitter.com/KnowComInc