はじめに
2023年6月26日から29日にサンフランシスコおよびオンラインにて開催されるDatabricks社主催の年間最大規模のカンファレンスイベント、「Databricks Data+AI Summit 2023」が開催されます!
ナレッジコミュニケーションでは、イベント開催に伴い、最新アップデート情報やセッションレポートをお届けする特設サイトを公開しておりますのでぜひチェックしてください♪
キーノートday1では8つの新しいサービスが発表されました。本記事では各サービスの概要について紹介していきたいと思います。
■LakehouseIQ
LakehouseIQは企業のビジネスやデータのコンセプトを自動で学習する生成AIで、自然言語でデータを検索、理解、クエリーすることができます。
Unity Catalogでアクセスできるデータセットに対して、ユーザーのクエリに即座に回答します。このレベルの理解により、ソリューションは質問の意図をより正確に解釈し、作業に必要な追加の洞察を生成することもできます。
■Lakehouse Federation
この機能を使用すると、企業はサイロ化されたさまざまなデータ システムを統合し、MySQL、PostgreSQL、Amazon Redshift、Snowflake、Azure SQL Database、Azure Synapse、GoogleのBigQueryなどのデータプラットフォーム間で、データを移動またはコピーすることなく、Databricks内からデータを発見、クエリ、ガバナンスすることができます。これは、Unity Catalogのセキュリティ機能が外部データソース全体で利用でき、企業がプラットフォーム間でデータへのアクセスをより簡単に管理できるようになりました。
■Databricks Lakehouse Monitoring
Databricks Lakehouse Monitoringは、ユーザーがデータと AI 資産の両方の品質を同時に追跡できるようにする初の統合データおよび AI モニタリング サービス。最近買収したOkeraのAIベースのデータ分類テクノロジーを使用して、個人を特定できる情報の自動分類と識別を含む、資産のプロファイルとドリフト メトリクスを維持し、プロアクティブなアラートを構成し、品質ダッシュボードを自動生成して組織全体で視覚化して共有し、系統グラフ全体でデータ品質アラートを相関させることで根本原因分析を容易にします。
■Delta Lake 3.0
従来は、Databricks利用するときは、ファイルフォーマットをDelta lake、Apache Hudi または Apache Icebergから選択する必要があり、互いに互換はできず、データがサイロ化する原因となってました。
Delta Lake 3.0は、Universal Formatの導入により、ストレージ形式に関係なくデータを統合することが可能になります。
現在は、プレビュー段階で2023 年後半中に一般公開される予定です。
■LakehouseApps
Lakehouse Appsは、Databricksプラットフォーム向けのアプリケーションを構築、デプロイ、管理する新しい方法で、開発者は、アプリをDatabricks Marketplaceに掲載することで、より簡単に配布できるようになり、顧客は発見や展開がしやすくなります。Lakehouse Apps in Databricks Marketplaceは、来年中にプレビュー版が公開される予定です。
■Databricks SQL: materialized views, streaming tables
streaming tablesとmaterialized viewsは、サードパーティツールを使用せずにデータを取り込み、変換することができます。例えばAmazon S3に保存されているデータを取り込むときは、継続的にデータを取り込み、数行のコードでシンプルなETLパイプラインをセットアップすることができます
■Databricks Marketplace
notebook、ダッシュボード、モデル等データ以外のところでも自分達が作ったnotebook、AIモデルも提供できます