はじめに
Azure Databricks に Azure Data Lake Storage Gen 2 をマウントする手順をまとめました。
(2019年12月時点)
手順
Azure Data Lake Storage Gen 2 設定
コンソールで Azure Active Directory を選択
名前は任意で設定し、サポートされるアカウントはシングルテナントを選択、リダイレクトURIに以下を入力し、登録をクリック
https://japaneast.azuredatabricks.net/
アプリケーションID と ディレクトリID をメモしておきます
証明書とシークレットから、新しいクライアントシークレットへと進み、説明を任意で入力し、追加をクリック
クライアントシークレット をメモしておきます。(一度しか表示されないので注意)
詳細タブで、Data Lake Storage Gen2 の階層構造の名前空間を有効化
基本タブで、Azure Databricks と同じリソースグループを選択、ストレージアカウント名を任意で設定し、確認及び作成をクリック。ストレージアカウント名をメモしておきます。
階層構造の名前空間 が有効化されていることを確認し、作成をクリック
しばらくするとデプロイが完了するので、リソースに移動をクリック
ファイルシステム名を任意で入力し、OKをクリック。ファイルシステム名をメモしておきます
役割をストレージ BLOB データ共同作業者に変更、選択で先ほど作成したストレージアカウント名を選択、保存をクリック
ロールの割り当てで、作成したロールが追加されていることを確認します。
以上で Data Lake Storage Gen 2 の設定は完了です。以下の情報がメモされていることを確認し、保存しておきましょう。Azure Databricks の Notebook で Gen2 をマウントする際に使用します。
- アプリケーションID
- ディレクトリID
- クライアントシークレット
- ストレージアカウント名
- ファイルシステム名
Azure Storage Explorer でデータのアップロード
Azure Data Factory でデータ取り込みのフローを作成できます。@ume67026265 さんの記事が参考になります。
Azure Data Lake Storage Gen2 使ってみた
手元のデータを手早く取り込みたい際には、Azure Storage Explorer を用いると便利。
以下のような UI で直感的にデータをアップロードできます。
Azure Databricks でマウント
@KcMichael さんの記事のスクリプトが便利です。使わせてもらいましょう。
Azure Databricks: 3-2. DBFSにAzure Data Lake Storage Gen2をマウント
さいごに
Blob に比べると手順が多いので、UI の変更があると少し戸惑いますね。今後も Azure Databricks に関する Tips をお届けします!
参考リンク
Azure Databricks: 3-2. DBFSにAzure Data Lake Storage Gen2をマウント
Azure Data Lake Storage Gen2 使ってみた