Data Lake Storage Gen2 からAzure Synapse Analytics へ接続する方法

今回の記事ではData Lake Storage Gen2 からAzure Synapse Analyticsへ接続する手順をご案内します。本内容は Azure Learn のAzure Storage Explorer を使用してデータをアップロード、ダウンロード、管理する/
https://docs.microsoft.com/ja-jp/learn/modules/upload-download-and-manage-data-with-azure-storage-explorer/

を元に作成しています。

私は入社2ヶ月目で研修として本記事の作成を進めました。Azure Learn や公式ドキュメントを参考にすることで接続確認ができたので記事にしています。

以下のステップで手順をまとめました。

・Azure portalからAnalyticsのワークスペースを作成する
・Synapse Analyticsへ移行
・リンク済みの場所からData Lake Storage Gen2を選択する

なお、本記事で取り上げているAzure Synapse Analytics 等のサービスは2022年5月時点での情報になります。

Azure Synapse Analytics、Data Lake Storage Gen2のサービス概要はこちらの記事をご覧ください。(Azure Synapse Analyticsと Data Lake Storage Gen2の概要URL)

Data Lake Storage Gen2 からAzure Synapse Analytics へ接続する方法

image.png

まずはData Lake Storage Gen2 をAzure portalで作成します。 ここでは接続するために必要なData Lake Storage Gen2の作成方法、Data Lake Storage Gen2へのデータの入れ方、Data Lake Storage Gen2からAzure Synapse Analyticsワークスペースの作成方法、リンクの仕方を流れに沿って紹介します。

Data Lake Storage Gen2の作成方法

image.png

 次にAzure portal の左側のメニューからストレージアカウントを選択し、リージョン等を選択したうえで作成します。この際にData Lake Storage Gen2 の階層型名前空間にチェックを入れる必要があります。

image.png

 階層型名前空間にチェックを入れたらネットワークやデータ保護をカスタマイズし、確認・作成に進みます。これで作成することができました。

Data Lake Storage Gen2にデータを配置する方法

 本手順ではData Lake Storage Gen2にデータを配置するためにStorage Explorerを使用します。Storage Explorerをインストールした後、Azureアカウントでサインインし、接続文字列を使用することで特定のAzure Storageアカウントにアクセスします。接続文字列を使用する場合は以下のドキュメントを参照してください。
https://docs.microsoft.com/ja-jp/azure/storage/common/storage-configure-connection-string 
ストレージアカウント名とアクセスキーを使用し、同様のサブスクリプションを選択します。すると、サブスクリプションから使用できるストレージ領域の中に、自分のストレージアカウントが表示されます。
image.png

上記キャプチャの表示確認をした後、Storage Explorerでファイルシステムを作成します。ストレージコンテナーでフォルダーを作成後、使用するデータを配置します。フォルダーを作成するためには、ストレージを選択後に出てくるBlobを右クリックし、Blobコンテナーの作成を選択し、名前をつけえることで作成することができます。
なお名前の付け方やサンプルテキストファイルに関しては以下のドキュメントを参照してください。
https://docs.microsoft.com/ja-jp/learn/modules/upload-data-to-azure-data-lake-storage/3-upload-data-using-explorer
以上をもってStorage Explorerで直接データをアップロードすることができます。アップロードを選択した後、さらにファイルのアップロードを選択し、アップロードしたいファイルを選択します。
image.png

 この一連の流れを行うことで、Data Lake Storage Gen2にデータを入れることができました。

Azure Synapse Analyticsワークスペースの作成方法

Data Lake Storage Gen2 をAzure Synapse Analyticsへ接続するためには、まずはデータをData Lake Storage Gen2と、Azure Synapse Analyticsのワークスペースを作成することで接続できます。
Azure Synapse Analyticsワークスペースを作成するためには、まずはAzure portalでAzure Synapse Analytics を作成したいサブスクリプションを選択します。そこから使用したいリソースグループを選択すると画面上部に作成という項目があるのでそこを選択します。

image.png

するとリソースを作成することができるので、検索窓からSynapseを入れることでSynapse Analyticsが出てくるので、Azure Synapse Analyticsの作成を選択し、各項目をカスタマイズした状態で作成します。

image.png

Azure Synapse Analyticsを作成する際に、Data Lake Storage Gen2と同じリソースグループで作成していることが条件になります。
ワークスペースを作成すると、下部に作業の開始の部分にSynapse Analyticsを開くと出てくるので、そこからオープンします。
image.png

自動的にSynapse Analyticsを開くことができるので、そうしたら横のタブからデータを選択し、リンク済みを選択します。また、データの横にある+マークを押すことで外部のリソースと接続することが可能です。
その後外部データに接続を選択し、Data Lake Storage Gen2を選択します。リソースグループやサブスクリプションを選ぶことで、先ほど作成したData Lake Storage Gen2と接続できることができます。
image.png

Synapse AnalyticsとData Lake Storage Gen2の接続方法

 今回はリンク済みのものから接続する方法を紹介しましたが、今回の方法だけではなくSQLエンドポイントからの接続などがあります。Synapse AnalyticsやData Lake Storage Gen2は使用頻度も高く、高機能性を備えるリソースになるのでぜひ本記事で接続方法を実践してみてください。次回はAzure Synapse AnalyticsからPower BI への接続方法について紹介します。