【Databricks Data+AI Summit 2022】 Keynote最新情報

2022/6/27(月)~2022/6/30(木)の4日間、サンフランシスコと Web 会場で Data+AI Summit 2022 が開催されてます!
Data+AI Summit 2022 で発表された Databricks 最新情報をお知らせします。

Data+AI Summit 2022 最新情報更新中!

Data+AI Summit 2022ナレコム特設サイトでは、Data+AI Summit 2022 の最新情報を公開中です!

→ 【DataAISummit2022】PoCから本番運用まで幅広くサポートするAWS AI/MLソリューション

Twitterでは現地の様子を随時更新中です!

Data+AI Summit 2022 とは?

Databricksは、データ収集、加工、AI・データ分析、可視化までクラウド上でのデータ利活用に必要なあらゆる機能を備えたデータ分析統合プラットフォームです。
Databricks 社が主催する Data+AI Summit 2022 では、Databricks のユースケースや、事例、新機能などに関する情報が発表されています。

ログインページはこちら
※メールアドレスの登録が必要です

Data+AI Summit 2022 KeyNote 最新情報目次

  • Spark Connect の発表
  • Project Lightspeed の発表
  • Delta Lake 2.0 の発表
  • Unity Catalog が間もなく GA
  • Delta Sharing が間もなく GA
  • Databricks Marketplace の発表
  • Databricks Cleanrooms の発表

 

Apache Spark 新機能 – Spark Connect の発表

  • 環境ごとにインストールが必要だった Spark のドライバーを不要として、API経由で参照できるようにするサービスです。
  • Spark Connect を使用して、ipad 上から Spark のコードを実行するライブデモも公開されています。
    image.png
    image.png

 

Project Lightspeed の発表

  • ストリーミングデータに対してより早くシンプルに使えるようにするサービス、Project Lightspeed が発表されました。

image.png

Project Lightspeed 公式記事:

Delta Lake 新機能 – Delta Lake 2.0 の発表

Delta Lake の機能である Optimize、Table Restore 等の機能が Delta Lake 2.0 として統合されOSS化されました。
これにより、すべての Delta の機能がオープンソースプラットフォーム上で利用可能になりました。

Unity Catalog 間もなく一般提供が開始

  • Notebookからインポート・エクスポートしたデータを階層ごとで追えるようになりました。
  • 複数の Notebook でデータを加工していても、加工前の元データまで辿ることができるようになりました。
  • さらにそのデータに対してタグ(例:Bronze・Sliver・Goldなど)を付与することが出来るのでうまく管理すれば結構簡単にデータカタログっぽいものが作れるようになりました。今回の発表の中で個人的No.1です。

Unity Catalog 公式記事:

Databricks Marketplace の発表

  • Finance、industry など、様々な業種や目的に合わせたデータを Open データとして使えるサービスです。

image.png
image.png

  • Notebook と Open データがセットになって、様々な分析のコードや可視化ダッシュボードも提供されているので、データがないけどデータ分析をはじめたい、と考えている担当者の方でも、同業種のサンプルを活用することで最初からイメージがある状態でデータ分析を進めることが可能です。

image.png

  • Unity Catalog によって Notebook 等で様々な処理をかけても元データがどこの何かをたどることが出来ます。

Databricks Marketplace 公式記事:

Delta Sharing 間もなく一般提供が開始

  • Databricks 上にあるデータを、権限やアクセス制限などをかけてシェアできるサービスです。
  • 開発会社や社内ても限定したシェアをする時に活用できるサービスです。
  • この機能も Unity Catalogで管理出来るようになっています。

Data Cleanrooms の発表

  • 集めたデータを整形し、データ分析にかけやすくするサービスです。
  • Data Cleanrooms と Delta Sharing を利用することで、クラウドやリージョン間でデータをレプリケーションすることなく、データを安全に共有できます。
  • SQL、R、Scala、Java、Python から好きな言語でデータ加工が行なえます。
  • この機能も Unity Catalogで管理出来るようになっています。

image.png

Data Cleanrooms 公式記事:
https://databricks.com/blog/2022/06/28/introducing-data-cleanrooms-for-the-lakehouse.html

まとめ

ここまでご覧いただきありがとうございました!
個人的には、Databricks Marketplace がとても便利なサービスだと思いました。
データ分析に必要なデータとコードが用意されているので、はじめからゴールが見える状態でデータ分析を進めることができるのが大きいメリットだと思います。

Databricks Data&AI Summit 2022 最新情報を引き続き更新していきますので他の記事も是非ご覧ください。