【Databricks Data+AI Summit 2022】KeyNote 2日目 日本語訳

2022/6/27(月)~2022/6/30(木)の4日間、サンフランシスコと Web 会場で Data+AI Summit 2022 が開催されました!
Data+AI Summit 2022 で発表された Databricks 最新情報をお知らせします。

Data+AI Summit 2022 とは?

Databricksは、データ収集、加工、AI・データ分析、可視化までクラウド上でのデータ利活用に必要なあらゆる機能を備えたデータ分析統合プラットフォームです。
Databricks 社が主催する Data+AI Summit 2022 では、Databricks のユースケースや、事例、新機能などに関する情報が発表されています。

ログインページはこちら!
※メールアドレスの登録が必要です

https://dataaisummit.com

Data+AI Summit 2022 KeyNote 2日目

目次

  • Serverless Model Endpoints プライベートプレビュー公開
  • Integrated Model Monitoring プライベートプレビュー公開
  • MLflow Pipelines が公開
  • MLflow 2.0 が 近日公開
  • Databricks Workflows が公開

Serverless Model Endpoints がプライベートプレビュー公開

概要

  • モデルのデプロイをせずに、Databricks 上に登録したモデルの推論が実施できる機能です。Databricks 上で推論サーバを管理しているため、推論に使用する VM の数やコア数、GPU の数をスケーリングさせるといったことができます。

モデル推論管理画面
モデルバージョンごとの管理もできます。
image.png

  • スケーリングを自由に行えるため、使用しない推論モデルがある場合は、0までリソースをスケールダウンすることで推論のコストを大幅に削減することができます。

  • その他にも、Serverless Model Endpoints を使用すると、Databricks でトレーニング済みのモデルに対し、ボタンをクリックするだけで、高い SLA とスケーラビリティを提供している本番環境にデプロイすることができます。

コンピューティングスケーリング画面
以下のように、推論に使用するインスタンスタイプ、コア数、スケーリングの設定ができるようです。
image.png

Integrated Model Monitoring がプライベートプレビュー公開

概要

  • Serverless Model Endpoints とセットで使用できる機能で、機械学習モデルのドリフト(精度)検知が行える機能です。
  • しきい値を設定して、モデルの精度がしきい値より下がったらアラートを特定のメールアドレスに送信する、といったことが可能になりました。

モデルドリフト設定画面
これらのモデルに対するモニタリング機能を内蔵しているので、前に見たデータ統合タスクでは、本番環境からログに記録されたリクエストを取得
image.png

MLflow Pipelines (MLflow 1.27 でベータ版) の公開

概要

image.png

  • MLOps の問題を解決するための新機能が MLflow Pipelines として公開されました。
  • パイプラインテンプレート、パイプラインエンジン、Opnionated structure の3つの機能が特長です。
  • MLflow Pipelines は coming soon の MLflow 2.0 で利用可能になります。

パイプラインテンプレート

  • 機械学習モデル管理をスタートするために必要な、機械学習モデルのトラッキングやMLflow modelsへの登録などのコードと設定がパイプラインテンプレートとして公開されました。
  • MLflow のコードを一から書かなくていいのは便利だと思います。
  • yaml でパイプラインテンプレートを管理できるようになっています。

パイプラインエンジン

  • 構築した機械学習モデルに対して、コード変更した部分のみを再実行してくれる機能です。
  • 機械学習モデル構築のステップを MLflow 上で保持してくれます。

オピニオンストラクチャ - Opnionated structure

  • モデル開発用の Notebook とは別にオーケストレーション用 Notebook を用意し、その Notebook からモデルの操作ができるようになりました。
  • 以下のように、Pipeline .run("train") を Notebook で実行すると、モデルの評価指標などを確認できるようになっています。これは便利。

image.png
image.png

Databricks Workflows が公開されました

概要

  • Databricks Lakehouse のフルマネージドオーケストレーションサービスで、Databricks UI 上でジョブ管理ができるようになりました。
  • 機械学習モデルをトレーニングするためのデータ取り込み~モデルトレーニング~推論の一連の流れを Databricks Workflows を使用して管理することができるようになりました。
  • 構築したモデルのドラフトを検知したら→モデルの再トレーニングを行う、といったことも Databricks Workflows で管理が可能です。
  • 以下のように UI 上で機械学習モデルのフローを管理できるようになります。

image.png

まとめ

ここまでご覧いただきありがとうございました!
KeyNote を見て、個人的に便利だと思った機能は Databricks Workflows です。
構築したモデルのドラフトを検知したら→モデルの再トレーニングを行う、といったことができるようになったのが便利だと思いました。
Databricks Data&AI Summit 2022 最新情報を引き続き更新していきますので、
他の記事も是非ご覧いただければと思います。

Data+AI Summit 2022 最新情報更新中!

Data+AI Summit 2022ナレコム特設サイト
https://www.knowledgecommunication.jp/product/DataAISummit2022.html
Databricks導入ご相談申し込み受付中です!

Twitterではナレコム最新情報を更新中です。
https://twitter.com/KnowComInc


【Databricks Data+AI Summit 2022】FutureMetrics:ディープラーニングを使用して経済戦略計画のための多変量時系列予測プラットフォームを作成する

2022/6/27(月)~2022/6/30(木)の4日間、サンフランシスコと Web 会場でData+AI Summit 2022が開催されました!

Data+AI Summit 2022 で発表された Databricks 最新情報をお知らせします。

■公式URL

https://databricks.com/jp/dataaisummit/

 

image.png

Data+AI Summit 2022 とは?

Databricksは、データ収集、加工、AI・データ分析、可視化までクラウド上でのデータ利活用に必要なあらゆる機能を備えたデータ分析統合プラットフォームを提供する会社です。

そのDatabricks 社が主催する世界最大規模のデータ&AIのカンファレンスである、Data+AI Summit 2022が開催されました!

今年は、Databricks のユースケースや、事例、新機能などに関する情報が発表されています。

ログインページは下記になります。

https://dataaisummit.com

※メールアドレスの登録が必要です

セッション 概要

Data+AI Summit 2022 FutureMetrics:ディープラーニングを使用して経済戦略計画のための多変量時系列予測プラットフォームを作成する の内容を翻訳し、まとめました。

・Future metricsとは
・多変量モデルを作成するにあたっての課題
・多変量モデルの優秀性

セッション 詳細

Future metricsとは

Future metricsとは未来を予測する方法のひとつになります。
今回では経済データを使って未来を予測し、ビジネス戦略を決定する方法です。

統計的な分析手法を用いて上昇曲線を示しながら、未来の予測を行うといったビジネスアナリティクスという手法はこれまでも存在しているのですが、目指しているのはその先にあるAIを利用したビジネス戦略です。

このプレゼンテーションに登壇されている方はエンタープライズアナリティクスと呼ばれるコンサルティングを行う会社に属しており、企業全体のビジネス上の問題点の解決に従事されています。

例えば住宅ローンであればどのようにローンを決めるのか、どのようなリスクがあるのか、何をもってリスクと判断するのか、優先的に考える残高のポートフォリオは何なのかを数か月という短い期間で解決などです。

本記事ではプレゼンターがAIを利用したビジネス戦略に向けて、多変量モデルの構築に至った経緯や過程、結果について説明していきます。

多変量モデルを作成するにあたっての課題

1. 一変量の先へ

左側はローンの貸し出し高を示すグラフになりますが、モデルの予測(水色)の精度は非常に高いことがわかります。
このモデルでは一変数でも高いパフォーマンスを出すことができます。
image.png

対して預金高を示す右側のグラフではモデルの予測にずれが生じていることが見て取れるかと思います。
これは一変数であるとモデルが予測を行うための参照する情報がただひとつしかないので、グラフのとっさの動きに対してモデルの予測が追い付かないためです。

つまり一変量モデルで得られるパフォーマンスには限界があると考えられます。
よって一変量ではなく多変量を扱うモデルの構築を行う必要があると考え、ディープラーニングへの移行を決めました。

2. クラス構造のパイプライン

当初はクラス構造のパイプラインを持っていませんでした。
当時多くのチームでJupyter noteookで作業することを基本としており、分析自体も容易に行うことができていたのですが、5、6人が同じプロジェクトで同じコードに同時に取り組むことができませんでした。

Databricks環境では5、6人が同時に同じモデルで作業できます。
共有しているモデルやコードの中身ついて、利用する人がそれぞれ理解しておけば各自が与えられた仕事を行うのみになります。

ある部分で問題が起きたとしても、ミスをすべてオープンに共有できるようになり、解決がスムーズになりました。

3. 浅いデータ

モデルに学習させる際に、求められるデータ量に対して実際に用意できるデータ量は浅いことがほとんどです。
なぜならば必要なデータを集めることのできる期間は非常に限られているからです。

ディープラーニングを行う際に、データが浅いことは大きな問題点になりますが、このような場合でもうまく機能するモデルを用意する必要があります。

ここでスライディングウィンドウを利用しました。
スライディングウィンドウはデータ量が少ないときに行う一般的な処理になり、今回のケースで利用しました。

※スライディングウィンドウとはデータをウィンドウと呼ばれる単位で複数に区切り特徴量を計算していく手法になります

以下の画像ではこれらの問題以外にも発生した課題などがまとめられています。

image.png

多変量モデルの優秀性

将来予測をするにあたって2種類の出来事が存在します。
それらは予測可能な事象と不可能な事象です。

例えばカナダ政府がある日、突然余剰な現金を国民全員に配ったとします。
このような突発的な事象に関しては決して予測できるものではありません。

対して、基本的な経済については適切なデータがあれば予測することができますし、モデルに取り入れることができます。

多変量モデルでは予測不可能な事象を含む長期的なパフォーマンスについては高い結果を得られています。
コロナウイルスが流行し、経済が大きく変化した2022年の4月から1年間を予測したところ、流動性の成長と変化をある程度的中させることができました。これは一変量モデルとの違いになります。
以下の画像が多変量モデルの予測(水色)になります。
image.png

セッション まとめ

データサイエンティストは単にモデルを作成するだけでなく他のたくさんの仕事の理解する必要があります。
例えばソフトウェアエンジニアがどのように働くのか、ビジネスの仕組み、住宅ローンの仕組みについてもです。
開発環境の中に身を置けば必然とたくさんの人と関わってコミュニケーションをとっていくこととなります。

これらすべての環境を統合する手段として、クラウド、Databricksを利用してコンテナ化された環境を作成しました。

モデルやJupyter Notebookでゼロからすべてを作り直すのではなく、コンテナ化された環境で複雑に絡み合うプロセスを最小することによってシンプルに、簡単に、リソースを最大限に有効活用していくことを考えていかないといけないでしょう。

Data+AI Summit 2022 最新情報更新中!

■Data+AI Summit 2022ナレコム特設サイト
https://www.knowledgecommunication.jp/product/DataAISummit2022.html
Databricks導入ご相談申し込み受付中

Twitterではナレコム最新情報を更新中です。
https://twitter.com/KnowComInc


【Databricks Data+AI Summit 2022】マネーボール時代のビックデータ-翻訳記事

はじめに

2022/6/27(月)~2022/6/30(木)の4日間、サンフランシスコと Web 会場で Data+AI Summit 2022が開催されました!
Data+AI Summit 2022 で発表された Databricks 最新情報をお知らせします。
■公式URL
https://databricks.com/jp/dataaisummit

MicrosoftTeams-image (9).png

Data+AI Summit 2022 とは?

Databricks社は、データ収集、加工、AI・データ分析、可視化までクラウド上でのデータ利活用に必要なあらゆる機能を備えたデータ分析統合プラットフォームを提供する会社です。

そのDatabricks 社が主催する世界最大規模のデータ&AIのカンファレンスである、Data+AI Summit 2022が開催されました!
今年は、Databricks のユースケースや、事例、新機能などに関する情報が発表されています。

ログインページは下記になります。
https://dataaisummit.com/login/
※メールアドレスの登録が必要です

本記事ではその中の「マネーボール時代のビックデータ 」のセッションについて翻訳、解説したいと思います。

マネーボール時代のビックデータ 概要

Data+AI Summit 2022 マネーボール時代のビックデータ の内容を翻訳し、まとめました。
要約した内容は以下になります。

  • マネーボールの時代と、それが野球の試合にどのように革命をもたらしたか
  • レンジャーズがDatabricksを使用して、すべてのデータパイプラインに流入する膨大な量のビッグデータを分析する方法
  • 機械学習とビッグデータを使用してヒットしたボールがどのように落ちるかを予測する方法と、予測を使用してバッティングを最適化する方法

 

マネーボール時代のビックデータ 詳細

Databricksを利用したユーザー企業概要

メジャーを代表する球団「テキサス・レンジャ-ズ」のシニアアナリストとデータエンジニアの2名が登壇してくださいました。

image.png

野球ファンであれば一度は聞いたことがある大球団ですが、一応紹介文を以下に記載しておきます。

テキサス・レンジャーズは、テキサス州アーリントンに本拠地を置くアメリカンリーグの西地区の球団です。
レンジャーズは2018年現在グローブライフ・フィールドを本拠地としておりますが、現在、同じアーリントン市内に新スタジアムを建設中となり、2020年のシーズンからは新スタジアムへの移転になります。
https://mlbtours.jp/?select_team=tex

マネーボールの時代と、それが野球の試合にどのように革命をもたらしたか

マネーボールとはマイケル・ルイスが書いた書籍で、2011年にはブラッド・ピットとジョナ・ヒルがオークランドAの幹部を演じ、映画化もされました。
image.png

題材であるビル・ジェームズはメジャーリーグでデータ分析から成功へのアプローチを見出した第一人者になります。
野球では打率が高いことが得点につながると思われがちですが、マネーボールで書かれているのは打率よりも出塁率の方が総得点と高い相関があるということでした。
結局のところ、野球では得点を取ることが勝つ手段なので、上記は重要な相関関係になるわけです。
つまりは打率が高い選手よりも出塁率を高い選手を安く起用することで、低価格かつより多くの試合に勝つことができるようになると解釈できます。

データの傾向から分析してスポーツをハックすることが当たり前となった現代のMLB(メジャー)では、球場に多くのカメラを様々な角度で設置し、スイング、ヒット速度、角度、スピン率、走塁タイムなど様々なデータを蓄積し、ビックデータとして活用しております。

image.png

テキサス・レンジャースが抱えていた課題

情報の統一化

他の企業野球のフロントと同様に、レンジャーズにも組織を前進させるための様々な分野に特化した内部部門があります。

情報の統合における問題は、レンジャーズが利用するすべてのテクノロジーが互いに統合されているかどうかによって、さらに難しくなっています。
また、5年後にどうなっているか、長い目で見てどのようなソフトウェアを選択するのがベストなのか、未来を予測することは不可能ではないにしても、これらを判断するには簡単には判断できない材料となっております。

データサイロ化

テキサス・レンジャーでは、API FTPのデータベース、外部と内部の両方のクラウドバケットからデータを取得しておりデータ形式も様々なため、効率的にデータを収集、処理をする必要がありました。
またデータがサイロ化された状態も散見し、様々な言語で書かれたスクリプトがオンプレミスやクラウドベースの異なるサーバー上で動作していた為、それぞれに適用した形のデータベースに保存されておりました。

image.png

解決方法

上記で紹介されているような課題の解決方法として採用されたのがDatabricksです!
DatabricksのノートブックでDelta Lakeに保存することで、あらゆるソースからデータを抽出する取り込みスクリプトを一元管理できるようになりました。

データを変換し、クレンジングをした上でステージテーブルに保存し、最終的にエンタープライズデータウェアハウスに取り込むことができるのです。
koalasとPysparkに新たに統合されたkoalasを使うことで、分散抽出も実行することができます。
image.png

機械学習オペレーションによって、機械学習モデルが開発から生産に至るまで反復し、変化する様子を追跡することができます。さらに、ML運用をデータと同じ統合された分析プラットフォームで行うことで、機械学習モデルを追跡することができます。

エンジニアリングでは、データが処理されているのと全く同じ場所でモデルとデータを結びつけることができ、これによりデータが抽出され変換されると同時にスコアを付け予測を生成することができるようになります。

こうすることで、選手や監督を含むステークホルダーに、超高速で洞察を伝えることができるようになりました。以前は、試合が終わってから選手に予測や指標を伝えるまで、最大で24時間かかっていましたが、今では数時間後には予測結果を提供できるようになっています。

まとめ

今回は野球でのデータ活用という切り口でDatabricksがどのように使用されているのか、どのようなベネフィットをもたらすのかという観点で話をされておりました。
本記事には詳細は記載しておりませんが、当日の審判のジャッジ傾向や縫い目のコンディションによる打球への影響など興味深いことも話されていました。

オンデマンドで視聴をすることができますので、公式ページをチェックしてみてください!

Data+AI Summit 2022 最新情報更新中!

■Data+AI Summit 2022ナレコム特設サイト
https://www.knowledgecommunication.jp/product/DataAISummit2022.html

Databricks導入ご相談申し込み受付中

Twitterでは現地の様子を随時更新中です。
https://twitter.com/KnowComInc


【Databricks Data+AI Summit 2022】 Keynote最新情報

2022/6/27(月)~2022/6/30(木)の4日間、サンフランシスコと Web 会場で Data+AI Summit 2022 が開催されてます!
Data+AI Summit 2022 で発表された Databricks 最新情報をお知らせします。

Data+AI Summit 2022 最新情報更新中!

Data+AI Summit 2022ナレコム特設サイトでは、Data+AI Summit 2022 の最新情報を公開中です!

→ 【DataAISummit2022】PoCから本番運用まで幅広くサポートするAWS AI/MLソリューション

Twitterでは現地の様子を随時更新中です!

Data+AI Summit 2022 とは?

Databricksは、データ収集、加工、AI・データ分析、可視化までクラウド上でのデータ利活用に必要なあらゆる機能を備えたデータ分析統合プラットフォームです。
Databricks 社が主催する Data+AI Summit 2022 では、Databricks のユースケースや、事例、新機能などに関する情報が発表されています。

ログインページはこちら
※メールアドレスの登録が必要です

Data+AI Summit 2022 KeyNote 最新情報目次

  • Spark Connect の発表
  • Project Lightspeed の発表
  • Delta Lake 2.0 の発表
  • Unity Catalog が間もなく GA
  • Delta Sharing が間もなく GA
  • Databricks Marketplace の発表
  • Databricks Cleanrooms の発表

 

Apache Spark 新機能 - Spark Connect の発表

  • 環境ごとにインストールが必要だった Spark のドライバーを不要として、API経由で参照できるようにするサービスです。
  • Spark Connect を使用して、ipad 上から Spark のコードを実行するライブデモも公開されています。
    image.png
    image.png

 

Project Lightspeed の発表

  • ストリーミングデータに対してより早くシンプルに使えるようにするサービス、Project Lightspeed が発表されました。

image.png

Project Lightspeed 公式記事:

Delta Lake 新機能 - Delta Lake 2.0 の発表

Delta Lake の機能である Optimize、Table Restore 等の機能が Delta Lake 2.0 として統合されOSS化されました。
これにより、すべての Delta の機能がオープンソースプラットフォーム上で利用可能になりました。

Unity Catalog 間もなく一般提供が開始

  • Notebookからインポート・エクスポートしたデータを階層ごとで追えるようになりました。
  • 複数の Notebook でデータを加工していても、加工前の元データまで辿ることができるようになりました。
  • さらにそのデータに対してタグ(例:Bronze・Sliver・Goldなど)を付与することが出来るのでうまく管理すれば結構簡単にデータカタログっぽいものが作れるようになりました。今回の発表の中で個人的No.1です。

Unity Catalog 公式記事:

Databricks Marketplace の発表

  • Finance、industry など、様々な業種や目的に合わせたデータを Open データとして使えるサービスです。

image.png
image.png

  • Notebook と Open データがセットになって、様々な分析のコードや可視化ダッシュボードも提供されているので、データがないけどデータ分析をはじめたい、と考えている担当者の方でも、同業種のサンプルを活用することで最初からイメージがある状態でデータ分析を進めることが可能です。

image.png

  • Unity Catalog によって Notebook 等で様々な処理をかけても元データがどこの何かをたどることが出来ます。

Databricks Marketplace 公式記事:

Delta Sharing 間もなく一般提供が開始

  • Databricks 上にあるデータを、権限やアクセス制限などをかけてシェアできるサービスです。
  • 開発会社や社内ても限定したシェアをする時に活用できるサービスです。
  • この機能も Unity Catalogで管理出来るようになっています。

Data Cleanrooms の発表

  • 集めたデータを整形し、データ分析にかけやすくするサービスです。
  • Data Cleanrooms と Delta Sharing を利用することで、クラウドやリージョン間でデータをレプリケーションすることなく、データを安全に共有できます。
  • SQL、R、Scala、Java、Python から好きな言語でデータ加工が行なえます。
  • この機能も Unity Catalogで管理出来るようになっています。

image.png

Data Cleanrooms 公式記事:
https://databricks.com/blog/2022/06/28/introducing-data-cleanrooms-for-the-lakehouse.html

まとめ

ここまでご覧いただきありがとうございました!
個人的には、Databricks Marketplace がとても便利なサービスだと思いました。
データ分析に必要なデータとコードが用意されているので、はじめからゴールが見える状態でデータ分析を進めることができるのが大きいメリットだと思います。

Databricks Data&AI Summit 2022 最新情報を引き続き更新していきますので他の記事も是非ご覧ください。


Data Lake Storage Gen2 からAzure Synapse Analytics へ接続する方法

今回の記事ではData Lake Storage Gen2 からAzure Synapse Analyticsへ接続する手順をご案内します。本内容は Azure Learn のAzure Storage Explorer を使用してデータをアップロード、ダウンロード、管理する/
https://docs.microsoft.com/ja-jp/learn/modules/upload-download-and-manage-data-with-azure-storage-explorer/

を元に作成しています。

私は入社2ヶ月目で研修として本記事の作成を進めました。Azure Learn や公式ドキュメントを参考にすることで接続確認ができたので記事にしています。

以下のステップで手順をまとめました。

・Azure portalからAnalyticsのワークスペースを作成する
・Synapse Analyticsへ移行
・リンク済みの場所からData Lake Storage Gen2を選択する

なお、本記事で取り上げているAzure Synapse Analytics 等のサービスは2022年5月時点での情報になります。

Azure Synapse Analytics、Data Lake Storage Gen2のサービス概要はこちらの記事をご覧ください。(Azure Synapse Analyticsと Data Lake Storage Gen2の概要URL)

Data Lake Storage Gen2 からAzure Synapse Analytics へ接続する方法

image.png

まずはData Lake Storage Gen2 をAzure portalで作成します。 ここでは接続するために必要なData Lake Storage Gen2の作成方法、Data Lake Storage Gen2へのデータの入れ方、Data Lake Storage Gen2からAzure Synapse Analyticsワークスペースの作成方法、リンクの仕方を流れに沿って紹介します。

Data Lake Storage Gen2の作成方法

image.png

 次にAzure portal の左側のメニューからストレージアカウントを選択し、リージョン等を選択したうえで作成します。この際にData Lake Storage Gen2 の階層型名前空間にチェックを入れる必要があります。

image.png

 階層型名前空間にチェックを入れたらネットワークやデータ保護をカスタマイズし、確認・作成に進みます。これで作成することができました。

Data Lake Storage Gen2にデータを配置する方法

 本手順ではData Lake Storage Gen2にデータを配置するためにStorage Explorerを使用します。Storage Explorerをインストールした後、Azureアカウントでサインインし、接続文字列を使用することで特定のAzure Storageアカウントにアクセスします。接続文字列を使用する場合は以下のドキュメントを参照してください。
https://docs.microsoft.com/ja-jp/azure/storage/common/storage-configure-connection-string 
ストレージアカウント名とアクセスキーを使用し、同様のサブスクリプションを選択します。すると、サブスクリプションから使用できるストレージ領域の中に、自分のストレージアカウントが表示されます。
image.png

上記キャプチャの表示確認をした後、Storage Explorerでファイルシステムを作成します。ストレージコンテナーでフォルダーを作成後、使用するデータを配置します。フォルダーを作成するためには、ストレージを選択後に出てくるBlobを右クリックし、Blobコンテナーの作成を選択し、名前をつけえることで作成することができます。
なお名前の付け方やサンプルテキストファイルに関しては以下のドキュメントを参照してください。
https://docs.microsoft.com/ja-jp/learn/modules/upload-data-to-azure-data-lake-storage/3-upload-data-using-explorer
以上をもってStorage Explorerで直接データをアップロードすることができます。アップロードを選択した後、さらにファイルのアップロードを選択し、アップロードしたいファイルを選択します。
image.png

 この一連の流れを行うことで、Data Lake Storage Gen2にデータを入れることができました。

Azure Synapse Analyticsワークスペースの作成方法

Data Lake Storage Gen2 をAzure Synapse Analyticsへ接続するためには、まずはデータをData Lake Storage Gen2と、Azure Synapse Analyticsのワークスペースを作成することで接続できます。
Azure Synapse Analyticsワークスペースを作成するためには、まずはAzure portalでAzure Synapse Analytics を作成したいサブスクリプションを選択します。そこから使用したいリソースグループを選択すると画面上部に作成という項目があるのでそこを選択します。

image.png

するとリソースを作成することができるので、検索窓からSynapseを入れることでSynapse Analyticsが出てくるので、Azure Synapse Analyticsの作成を選択し、各項目をカスタマイズした状態で作成します。

image.png

Azure Synapse Analyticsを作成する際に、Data Lake Storage Gen2と同じリソースグループで作成していることが条件になります。
ワークスペースを作成すると、下部に作業の開始の部分にSynapse Analyticsを開くと出てくるので、そこからオープンします。
image.png

自動的にSynapse Analyticsを開くことができるので、そうしたら横のタブからデータを選択し、リンク済みを選択します。また、データの横にある+マークを押すことで外部のリソースと接続することが可能です。
その後外部データに接続を選択し、Data Lake Storage Gen2を選択します。リソースグループやサブスクリプションを選ぶことで、先ほど作成したData Lake Storage Gen2と接続できることができます。
image.png

Synapse AnalyticsとData Lake Storage Gen2の接続方法

 今回はリンク済みのものから接続する方法を紹介しましたが、今回の方法だけではなくSQLエンドポイントからの接続などがあります。Synapse AnalyticsやData Lake Storage Gen2は使用頻度も高く、高機能性を備えるリソースになるのでぜひ本記事で接続方法を実践してみてください。次回はAzure Synapse AnalyticsからPower BI への接続方法について紹介します。


Azure Synapse AnalyticsとData Lake Storage Gen2の概要

<はじめに>

 Azure Synapse AnalyticsとData Lake Storage Gen2はAzureで構築される場合に使用されることが多いです。特にAzure Synapse AnalyticsとData Lake Storage Gen2はビッグデータを取り扱うといったことに向いており、低いコストで使用でき性能は高めと、非常に優秀なリソースです。
今回は、そんなAzure Synapse AnalyticsとData Lake Storage Gen2がどんな機能でどのような時に使用されるのか紹介します。
なお本記事で取り扱うAzure Synapse AnalyticsとData Lake Storage Gen2は2022年5月現在での機能となっています。

<Azure Synapse Analytics の概要>

  Azure Synapse Analyticsとは、一言で表現するとデータウェアハウス、ビックデータ分析、ETLエンジンが1つに集約された統合的なプラットフォームです。
更に要素を分解すると
・様々なデータを取り込み、データを溜めることができる
・Azure Synapse Analytics内でビックデータを分析
・同じデータ統合エンジンやBIツールへのスマートな変換、機械学習
このような特徴が挙げられます。
image.png

<Data Lake Storage Gen2 の概要>

 Data Lake Storage Gen2はそもそもAzure Blob Storage とData Lake Storage Gen1を集約したビッグデータ分析の一連の機能といわれています。
Data Lake Storage Gen2の特徴をまとめると
・高いセキュリティ・高可用性・Web HDFSへの互換性をもつデータを有効活用するためのデータ保存場所
・Data Lake Storage Gen2はBlob Storageを元に構成されている
→非構造的なデータにも適応できる価格が安価
・大量のログ等も容量を気にせずにデータ変換などもせずに、生データのまま保存することが可能
→分析基盤として非常に有用な手段として認知

image.png

<Azure Synapse Analyticsの事例>

 まずはAzure Synapse Analyticsの使用例について紹介します。Azure Synapse Analyticsの利点としては、大規模なデータの処理や分析といった部分にあります。また、Azure Synapse Analyticsの利点はBIツールや関連ツールをワンストップで使用できることも挙げられます。
そのため、主に大量なデータをわかりやすいように視覚化したいといった事例にAzure Synapse Analyticsは使用されることがあります。

<事例:大量のデータを視覚化したい>

概要:とある会社が使用している元データをしっかりと可視化を行い、あらたな顧客獲得といった分析を行う
要件:取得される顧客データの数は膨大で、大量のクエリを処理する必要がある。また、取得される顧客データは日々更新されるがそのデータも可視化する際に反映させること

Azure Synapse AnalyticsはPower BI といったBIツールとも互換性があります。さらにデータを分析するストレージ層と分析を行うコンピューティング層が分離していることから大量なデータを分析、処理を行うことが可能です。そのため、処理時間を削減し業務効率化を進めることができます。

 上記のような事例で使用されることが多いAzure Synapse Analyticsですが、高速処理や大量なデータ処理に対する高度な機能をもちますがコストが低いことも魅力的です。Power BIについて詳しく知りたい方はこちらの記事を参照してください。

<Data Lake Storage Gen2の事例>

Data Lake Storage Gen2はビックデータを蓄積させるためのストレージです。主な役割としては、ペタバイト単位な膨大なビックデータの蓄積や管理になっています。大規模なデータの処理に向いているAzure Synapse Analyticsなどと同時に使用されることがとても多いです。

<事例:今まで使用していたBIツールから新規BIツールに移行したい>
概要:とある会社が今まで分析のために使用していた既存のBIから、新規BIツールへ移行する
要件:データはペタバイト単位なビックデータがあるが、分析処理を軽減させること

Data Lake Storage Gen2は取得するデータを限定しておらず、様々なデータ形式にも対応しているため、取得したデータをそのまま保管するデータレイクとして活躍します。
また、Hadoop分散ファイルシステムを使用することで、データ管理やアクセスを可能にすることができます。もちろんAzure Synapse Analyticsだけではなく、Azure HDInsight、Azure Databricksと互換性があるため共に使用されます。
階層型名前空間の機能を用いることでフォルダ構成を決めることができるので、データ解析のパフォーマンスも高いです。
そのため上記のような事例で使用されることが多いです。

<まとめ>

 Azure Synapse AnalyticsやData Lake Storage Gen2について紹介してきましたがいかがでしょうか。コスト効率もよく、ビッグデータ解析に向くこれらの機能は、多くの企業でも取り入れられています。

 次回はData Lake Storage Gen2からAzure Synapse Analyticsへの接続方法について紹介します。


Azure Synapse Analytics (Data Factory): セルフホステッド統合ランタイムでプライベートネットワーク内のデータを抽出する

はじめに

Azure Synapse Analytics、もしくは Data Factory でオンプレミスや Azure 仮想ネットワーク (VNet) 内のデータソースにアクセスする場合に必要なセルフホステッド統合ランタイム (セルフホステッド IR) の構成方法の説明となります。

検証には、Synapse Analytics を使用していますが、Data Factory の場合もほぼ同じ手順となります。

実装内容

プライベートネットワーク上にある DB サーバからデータを抽出し、Azure Data Lake Storage Gen2 (ADLS Gen2) に Parquet 形式で書き出す想定での実装を行います。
検証環境では、以下の構成図の通り、セルフホステッド IR の稼働ホストとして Azure 仮想マシン (VM) を使用し、オンプレミスと閉域接続している想定で別 VNet 上の MySQL サーバに仮想ネットワークピアリングで接続しています。
簡単に検証をするのであれば、セルフホステッドIRと同一の VNet 内に適当な RDB の VM を作成すれば問題ありません。
image.png
なお、本記事はセルフホステッド IR の構成、設定がメインとなるため、Synapse Analytics、ADLS Gen 2といった、セルフホステッド IR 以外のリソースがすべて作成済みであることを前提とします。
セルフホステッド IR 用 VM、およびネットワークについては以下の条件にて作成したものを使用します。

ネットワーク

以下内容で作成した VNet、Subnetを使用しています。

項目 設定値
VNet 192.168.8.0/22
Subnet 192.168.8.0/26

Subnet には以下の Network Security Group (NSG) を適用しています。
セルフホステッド IR の詳細なネットワーク要件は、こちら を確認してください。

  • Inbound Security Rules
Priority Name Port Protocol Source Destination Action
100 Allow_RDP 3389 TCP {My IP} Any Allow
65000 AllowVnetInBound Any Any VirtualNetwork VirtualNetwork Allow
65001 AllowAzureLoadBalancerInBound Any Any AzureLoadBalancer Any Allow
65500 DenyAllInBound Any Any Any Any Deny
  • Outbound Security Rules
Priority Name Port Protocol Source Destination Action
65000 AllowVnetOutBound Any Any VirtualNetwork VirtualNetwork Allow
65001 AllowInternetOutBound Any Any Any Internet Allow
65500 DenyAllOutBound Any Any Any Any Deny

Azure VM

セルフホステッド IR の最小要件を満たす構成にてVMを作成しています。
以下の要件以外は作成環境に応じて適宜変更してください。

項目 設定値 インストール要件
イメージ Windows Server 2019 Datacenter - Gen1 以下のうちいずれかのOS

  • Windows 8.1
  • Windows 10
  • Windows Server 2012
  • Windows Server 2012 R2
  • Windows Server 2016
  • Windows Server 2019
サイズ Standard F4s v2 (4 vcpu, 8 GiB RAM) 4 Core 2 GHz CPU, 8 GB RAM 以上

セルフホステッド IR の登録

はじめに、Synapse Studio にセルフホステッド IR を登録し、統合ランタイムをホストマシンにインストールするための情報を生成します。

Synapse Studio を開き、ページ左の「管理」をクリックします。
image.png
メニューから「統合ランタイム」を選択し、「+新規」をクリックします。
image.png
「統合ランタイムのセットアップ」のランチャーで「セルフホステッド」を選択して「続行」をクリックし、「名前」に統合ランタイム環境を識別する一意の名前を入力し、「作成」をクリックします。
image.png
作成後に表示される「オプション 2: 手動セットアップ」に従い、「統合ランタイムのダウンロードとインストール」のリンク先から統合ランタイムインストーラをローカルPCにダウンロードし、「認証キー」のいずれかをコピーして控えておきます。
image.png

統合ランタイムのインストール

統合ランタイムをインストールする Azure VM に RDP でログインします。
image.png
ローカルPCにダウンロードしておいた統合ランタイムインストーラを RDP 経由でリモートサーバに配置します。
ローカルPC上のファイルをコピーし、リモートサーバのデスクトップに貼り付けます。
image.png
インストーラを起動して、統合ランタイムのインストールを進めます。
image.png
インストールが完了すると、以下のようなウィンドウが開きます。
テキストボックスに Synapse Studio のセルホステッドIR 登録時に控えておいた認証キーを入力し、登録をクリックします。
image.png
「Integration Runtime (Self-hosted) ノード名」を任意の名称に変更し、「完了」をクリックします。
image.png

正常に登録されたら、「構成マネージャーの起動」をクリックして完了させます。
image.png
image.png

Synapse Studioの「統合ランタイム」で登録したセルフホステッドIRを開き、「ノード」タブをクリックすると登録されたセルフホステッド IR ノードを確認できます。
image.png

Java Runtime のインストール

セルフホステッド IR で Parquet 等の特定形式のデータを扱う場合は、ホストマシンに Java Runtime をインストールしておく必要があります。
Java Runtime としては、JRE、もしくは OpenJDK を使用することができますが、ここでは OpenJDK を使用します。

OpenJDK を使用する場合は、任意のビルドの「OpenJDK 8」と「Microsoft Visual C++ 2010 再頒布可能パッケージ」をホストマシンにインストールします。
使用したものは以下の通りです。

統合ランタイムインストーラと同様にそれぞれのインストーラをリモートサーバに配置し、デフォルト設定のままインストールを進めます。
インストールが終わったら、OpenJDK インストール先フォルダ内の jre フォルダパスをシステム環境変数「JAVA_HOME」として追加します。
image.png

リンクサービスの登録

セルフホステッド IR で接続するプライベートネットワーク内の DB サーバをリンクサービスとして登録します。
ここでは MySQL サーバを使用しますが、接続先に応じて適宜設定内容を変更してください。
Synapse Studio の「管理」から「リンクサービス」を選択し、「+新規」をクリックします。
image.png
データストアの選択から「MySQL」を選択して「続行」をクリックし、フォームにDBの接続情報を入力します。
「統合ランタイム経由で接続」は作成したセルフホステッドIRを指定します。
入力が完了したら、「テスト接続」をクリックして接続できることを確認し、「作成」をクリックします。
image.png

セルフホステッドIRのテスト

セルフホステッドIRのテストとして MySQL サーバからデータを抽出し、Synapse Analytics の Primary ファイルシステムに Parquet ファイルとして出力します。
MySQL サーバには以下のようなテスト用テーブルを作成しています。
image.png
まず、ソース、シンクとなるデータセットを登録します。
「データ」を開き、+ボタンから「統合データセット」を選択します。
image.png
データストアの選択から「MySQL」を選択し、登録した MySQL サーバのリンクサービスとデータを取得するテーブル名を設定します。
image.png
シンク先となる Parquet ファイルの書き出し用統合データセットも同様に作成します。
データストアの選択から「Azure Data Lake Storage Gen2」を選択し、形式の選択で「Parquet」を選択します。
リンクサービスとして Synapse Analytics 作成時にデフォルトで作成されているストレージを選択し、「ファイルパス」の「ファイルシステム」に Synapse Analytics の Primary ファイルシステム名、「ディレクトリ」、「ファイル」に任意のパスを入力します。
image.png
データを MySQL サーバから抽出し、Parquet ファイルとして出力するパイプラインのを作成します。
「統合」に移動し、+ボタンから「パイプライン」を選択します。
image.png
キャンバスに「データのコピー」をドラッグ&ドロップして配置し、アクティビティの「ソース」、「シンク」に上記で作成した MySQL および Parquet の統合データセットを割り当てます。
image.png
「デバッグ」をクリックしてパイプラインのデバッグを開始し、アクティビティが成功することを確認します。
image.png
デバッグに成功すると、Synapse Analytics の Primary ファイルシステムに Parquet ファイルが出力されます。
「データ」の「リンク済み」から Primary ファイルシステムを開くと出力された Parquet ファイルを確認できます。
image.png
作成された Parquet ファイルを Notebook (PySpark) で確認すると DB の内容を取得できていることが確認できました。
image.png

参考


Azure DatabricksでMNISTやーる

はじめに

MNISTやっていきます

開発環境

image.png

mnist-tensorflow-keras

1.こちらのノートブックをやっていきます
https://docs.databricks.com/_static/notebooks/deep-learning/mnist-tensorflow-keras.html

2.ライブラリをインストール

[crayon-62f0b5b1c19bb990435424/]

3.関数を定義

[crayon-62f0b5b1c19c3315873047/]
[crayon-62f0b5b1c19c6390473455/]
[crayon-62f0b5b1c19c9169054568/]

4.学習

[crayon-62f0b5b1c19cc650896592/]
[crayon-62f0b5b1c19ce528872658/]

5.モデル評価

[crayon-62f0b5b1c19d1066754497/]
[crayon-62f0b5b1c19d3492239083/]

6.HorovodRunnerを用いた学習

[crayon-62f0b5b1c19d5635134594/]
[crayon-62f0b5b1c19d7559930378/]

sparkdlをインストール

[crayon-62f0b5b1c19da921523845/]
[crayon-62f0b5b1c19dc711787453/]

エラー

[crayon-62f0b5b1c19df279353888/]

お疲れ様でした。

mnist-pytorch

mnist-pytorch - Databricks

Azure Databricksの導入ならナレコムにおまかせください。

導入から活用方法までサポートします。お気軽にご相談ください。

Azure Databricksソリューションページはこちら


Azure Databricksでpetastormやーる

はじめに

petastormやっていきまーす

開発環境

image.png

Spark から TensorFlow へのデータ変換を簡略化する

1.こちらのノートブックをやっていきます
https://docs.microsoft.com/ja-jp/azure/databricks/_static/notebooks/deep-learning/petastorm-spark-converter-tensorflow.html

2.ライブラリをインストール

[crayon-62f0b5b1c2584775590597/]

3.ライブラリをインポート

[crayon-62f0b5b1c258b693738827/]

エラー出た

[crayon-62f0b5b1c258d073799302/]

Spark から PyTorch ノートブックへのデータ変換を簡略化する

1.こちらのノートブックをやっていきます
https://docs.microsoft.com/ja-jp/azure/databricks/_static/notebooks/deep-learning/petastorm-spark-converter-pytorch.html

2.ライブラリをインストール

[crayon-62f0b5b1c258f675276750/]

3.ライブラリをインポート

[crayon-62f0b5b1c2592339225468/]

エラー出た

[crayon-62f0b5b1c2594592249241/]

Spark と Petastorm を使用してディープ ラーニング ノートブック用のデータを準備する

1.こちらのノートブックをやっていきます

petastorm - Databricks

2.ライブラリをインストール

[crayon-62f0b5b1c2597132619169/]

3.ライブラリをインポート

[crayon-62f0b5b1c2599035074194/]

3.ディレクトリを作成

[crayon-62f0b5b1c259a098437055/]

4.データセット(mnist)をダウンロード

[crayon-62f0b5b1c259d381913541/]
[crayon-62f0b5b1c259f293087426/]

5.データセットの読み込み

[crayon-62f0b5b1c25a0464327316/]

6.データを配列に格納

[crayon-62f0b5b1c25a2157861757/]
[crayon-62f0b5b1c25a4355133906/]

7.Parquet形式へ変換

[crayon-62f0b5b1c25a7273192800/]

8.ライブラリをインポート

[crayon-62f0b5b1c25a9560808761/]

9.モデルの定義

[crayon-62f0b5b1c25ab083481251/]

10.parquet形式のデータのパスを定義

[crayon-62f0b5b1c25ad900702913/]

11.Parquet形式のデータをmake_batch_readerで読み取り、学習

[crayon-62f0b5b1c25af593128762/]
[crayon-62f0b5b1c25b1760235809/]

12.ディレクトリの削除

[crayon-62f0b5b1c25b4609092356/]

13.ディレクトリが残っていた場合の確認

[crayon-62f0b5b1c25b6360089794/]
[crayon-62f0b5b1c25b8671761044/]

14.uuidを指定して削除

[crayon-62f0b5b1c25ba740971744/]

参考文献

Petastorm を使用してデータを読み込む - Azure Databricks

Azure Databricksの導入ならナレコムにおまかせください。

導入から活用方法までサポートします。お気軽にご相談ください。

Azure Databricksソリューションページはこちら


Beginning Apache Spark using Azure Databricksやーる

はじめに

Beginning Apache Spark using Azure Databricksやっていきます

開発環境

image.png

Chapter 5: Getting Data into Databricks

[crayon-62f0b5b1c3345430735000/]
[crayon-62f0b5b1c334b889013216/]
[crayon-62f0b5b1c334d532585758/]
[crayon-62f0b5b1c334f859635640/]
[crayon-62f0b5b1c3351883833574/]
[crayon-62f0b5b1c3353246888754/]
[crayon-62f0b5b1c3355026887106/]
[crayon-62f0b5b1c3357346134815/]
[crayon-62f0b5b1c3359434474623/]
[crayon-62f0b5b1c335b195179585/]
[crayon-62f0b5b1c335d160647219/]
[crayon-62f0b5b1c335e736829727/]
[crayon-62f0b5b1c3360331156615/]
[crayon-62f0b5b1c3362382371118/]
[crayon-62f0b5b1c3364848652989/]
[crayon-62f0b5b1c3366382407616/]
[crayon-62f0b5b1c3368946272903/]
[crayon-62f0b5b1c336a191693971/]
[crayon-62f0b5b1c336c460463012/]
[crayon-62f0b5b1c336e462220063/]
[crayon-62f0b5b1c336f859285373/]
[crayon-62f0b5b1c3371259676190/]
[crayon-62f0b5b1c3373017095116/]
[crayon-62f0b5b1c3375074185904/]
[crayon-62f0b5b1c3376539531604/]
[crayon-62f0b5b1c3378544980546/]
[crayon-62f0b5b1c337a474107454/]
[crayon-62f0b5b1c337c287834299/]
[crayon-62f0b5b1c337e854810856/]
[crayon-62f0b5b1c337f779417503/]
[crayon-62f0b5b1c3381078299115/]
[crayon-62f0b5b1c3383991268920/]
[crayon-62f0b5b1c3385800269257/]
[crayon-62f0b5b1c3387459447006/]
[crayon-62f0b5b1c3389933601370/]
[crayon-62f0b5b1c338a963295995/]
[crayon-62f0b5b1c338c435537491/]
[crayon-62f0b5b1c338e652747713/]
[crayon-62f0b5b1c3390875161423/]
[crayon-62f0b5b1c3392733838133/]
[crayon-62f0b5b1c3394202492530/]
[crayon-62f0b5b1c3395316873634/]
[crayon-62f0b5b1c3397973577711/]
[crayon-62f0b5b1c3399469612477/]
[crayon-62f0b5b1c339b035858108/]

OK

[crayon-62f0b5b1c339d306541736/]
[crayon-62f0b5b1c339e740212810/]

S3のマウント

Blobのマウント

Chapter 6: Querying Data Using SQL

Chapter 7: The Power of Python

Chapter 8: ETL and Advanced Data Wrangling

Chapter 9: Connecting to and from Databricks

Chapter 10: Running in Production

Chapter 11: Bits and Pieces

 

 

 

Azure Databricksの導入ならナレコムにおまかせください。

導入から活用方法までサポートします。お気軽にご相談ください。

Azure Databricksソリューションページはこちら