Azure Databricks への Data Lake Storage Gen 2 マウント方法 (2019年12月時点)

はじめに

Azure Databricks に Azure Data Lake Storage Gen 2 をマウントする手順をまとめました。
(2019年12月時点)

手順

Azure Data Lake Storage Gen 2 設定

コンソールで Azure Active Directory を選択
image.png

アプリの登録で、新規登録を選択
image.png

名前は任意で設定し、サポートされるアカウントはシングルテナントを選択、リダイレクトURIに以下を入力し、登録をクリック
https://japaneast.azuredatabricks.net/
image.png

アプリケーションID と ディレクトリID をメモしておきます
image.png

証明書とシークレットから、新しいクライアントシークレットへと進み、説明を任意で入力し、追加をクリック
image.png

クライアントシークレット をメモしておきます。(一度しか表示されないので注意)
image.png

コンソールでストレージアカウントを選択
image.png

アカウントの追加を選択
image.png

詳細タブで、Data Lake Storage Gen2 の階層構造の名前空間を有効化
image.png

基本タブで、Azure Databricks と同じリソースグループを選択、ストレージアカウント名を任意で設定し、確認及び作成をクリック。ストレージアカウント名をメモしておきます。
image.png

階層構造の名前空間 が有効化されていることを確認し、作成をクリック
image.png

しばらくするとデプロイが完了するので、リソースに移動をクリック
image.png

ファイルシステムを作成するために、コンテナを選択
image.png

ファイルシステム名を任意で入力し、OKをクリック。ファイルシステム名をメモしておきます
image.png

作成したコンテナを選択
image.png

アクセス制御タブで、ロールの割り当ての追加を選択
image.png

役割をストレージ BLOB データ共同作業者に変更、選択で先ほど作成したストレージアカウント名を選択、保存をクリック
image.png

ロールの割り当てで、作成したロールが追加されていることを確認します。
image.png

以上で Data Lake Storage Gen 2 の設定は完了です。以下の情報がメモされていることを確認し、保存しておきましょう。Azure Databricks の Notebook で Gen2 をマウントする際に使用します。

  • アプリケーションID
  • ディレクトリID
  • クライアントシークレット
  • ストレージアカウント名
  • ファイルシステム名

Azure Storage Explorer でデータのアップロード

Azure Data Factory でデータ取り込みのフローを作成できます。@ume67026265 さんの記事が参考になります。
Azure Data Lake Storage Gen2 使ってみた

手元のデータを手早く取り込みたい際には、Azure Storage Explorer を用いると便利。
以下のような UI で直感的にデータをアップロードできます。
image.png

Azure Databricks でマウント

@KcMichael さんの記事のスクリプトが便利です。使わせてもらいましょう。
Azure Databricks: 3-2. DBFSにAzure Data Lake Storage Gen2をマウント

さいごに

Blob に比べると手順が多いので、UI の変更があると少し戸惑いますね。今後も Azure Databricks に関する Tips をお届けします!

参考リンク

Azure Databricks: 3-2. DBFSにAzure Data Lake Storage Gen2をマウント
Azure Data Lake Storage Gen2 使ってみた