【Data and AI Summit 2023】現地で感じた Databricks を活用して目指したい最先端の姿

はじめに

6/26 ~ 6/29 の期間、アメリカのサンフランシスコ(+オンライン)で「データ& AI」における世界最大規模のカンファレンスが Databricks 社主催で開かれました。
現地での参加人数はなんと10000人を超えており、今データ & AI の分野は世界で最高潮に盛り上がっております。
日本でも Chat GPT など自然言語に関するAIは最近非常に話題になっていたりもしますね。
今回はサンフランシスコまで現地参加させていただき、実際に感じたことについてお話できればと思います。
image.png

キーノートでの発表

現地では Databricks を使用した事例の紹介であったり、Databricks の機能におけるテクニカルな部分の解説など様々なセッションが開かれております。

その中で、キーノートと呼ばれる本サミットの中でも特に一番大きな講演がありました。
Databricks CEO の Ali Ghodsi 氏やマネージャーをはじめとした方々から直々に Databricks の新機能紹介があったり、 Microsoft CEO の Satya Nadella 氏や元 Google CEO の Eric Schmidt 氏などゲストスピーカーをお招きした対談セッションが行われました。

image.png

キーノートは2日間にわたって行われ、特に Databricks の新機能紹介は驚くべき内容の数々でした。
詳細は弊社ブログにてまとめておりますので以下からご覧ください。

キーノート1日目
キーノート2日目

現地参加して感じたこと

データとAIの民主化

キーノートを聞く中で、データとAIの民主化はとても大きなテーマだったかと思います。

そもそも「データとAIの民主化」とは何なのでしょうか。
それはキーノート内でも話がありましたが、「誰でもデータとAIを活用できる世の中にすること」になります。

「今後世の中のすべての企業はデータとAIの企業にならなければいけない」とも言われていましたね。
この目指す部分の根底は以前からずっと変わらず一貫していると感じます。
生成 AI は「データと AI の民主化」を実現するための手助けとなり、今回の新発表でより「データと AI の民主化」という言葉の意味の理解が深まるものになったと個人的に思っています。

これからもう少し詳しく見ていきましょう。

新機能の発表について

今回以下のようにたくさんの新しいアナウンスがありました。

  • Lakehouse IQ
  • Lakehouse AI
  • Lakehouse Federation
  • Lakehouse Apps
  • Delta Lake 3.0
  • Databricks Marketplace
  • Spark English SDK

主に3点ほど発表の特徴や感じた点について以下述べさせていただきます。

自然言語でデータを扱う

キーノートにて、とある方のツイッターで発した言葉が引用されました。

「The hottest new programming language is English」

そのとある方とは、Tesla 社で人工知能について取り組み、現在は OpenAI 社に勤務している Andrej Karpathy 氏です。

これから一番のプログラミング言語になるのは Python でも Scala でも SQL でもなく英語になるというのです。
実際には英語でなくてもよいのですが、「自然言語を利用してデータを扱えるようになる」← ここが重要なポイントとなっています。

キーノート内で行われた Lakehouse IQ や Spark English SDK のデモでは、実際に英語入力のみでデータの集計やクエリ生成がおこなわれ、今までの常識を覆すようなかなりインパクトの大きいものとなりました。
(デモでは英語が使われていましたが、実は Lakehouse IQ は日本語が使用できるようです…!)

これから自然言語によって手軽にデータを扱える時代が来るとなるととても楽しみですね。
image.png

Unity Catalog はさらに進化する

今回の新機能発表の特徴の一つとして、Lakehouse IQ や Lakehouse Federation、Lakehouse AI のように Unity Catalog を中心としたアナウンスが多かったように思います。

今までの Unity Catalog ではテーブル情報やリネージによる関連性、権限などのデータ資産を管理する場面が中心であったと思います。
それが今回のアナウンスによって Unity Catalog のデータ資産を主にAIに活用できる場面が増えました。

Unity Catalog でのガバナンスによって、データ収集から加工、モデル構築、デプロイ、監視までを同一プラットフォーム上で行えるのです。
Unity Catalog を使わずして Databricks を利用する価値がないといえるようになるのではないかと思っています。

image.png

企業独自の LLM 構築が重要になる

LLM で最高の力を発揮するためにはどうしたらよいのでしょうか。
それはモデルの種類の選び方などではなく、いかに独自の自社データでバリューを出していくかになると思います。
結局のところ、小手先のテクニックよりも他社にない独自のデータを活用することで他社にできないモデルを構築することが一番の差別化となります。

セキュアにガバナンスの効いた環境でデータの収集からモデル管理まですべておこなえることが AI プラットフォームとしての Databricks の本当の価値だと思っています。
あとはデータを用意して、自社にしかないレイクハイスを作りこみたいですね。
image.png

さいごに

Data and AI Summit 2023 に今回参加させていただき、世界中の企業が生成 AI を活用していきたいと動いていることを肌で感じました。
しかしこの分野では日本のみならず海外であっても誰も踏み入れていない領域となり、未だ正解がない部分なのではないかと感じております。

その中で、Databricks が生成 AI 活用するためのプラットフォームとして世界をリードしていることに非常にワクワクしておりますし、「データと AI の民主化」を実現するために今後のパブリックプレビュー含め、日々キャッチアップしていければと思います。

この記事を書いた人

azure-recipe-user