AzureSynapseAnalyticsのマッピングデータフローで遊んでみた

初めまして、鈴木と申します。私はクラウドインテグレーターとして働く一社員です。
背景として社内のデータを活用してビジネスの意思決定に活かす会社が増えている中で、社内の生データを加工してBIとして可視化できる状態にする事は必ず行う工程になります。
今回はデータの加工に用いられるAzure Synapse Analyticsのマッピングデータフローを用いて、練習がてら遊んでみました。

初学者の為、今回の記事の中でより良い方法がありましたらご教示頂けますと幸いです。

前準備

1.Azure Portalにログインして、ストレージアカウントを検索します。
スクリーンショット 2024-12-21 005512.png
2.ストレージを作成します。
image.png
3.コンテナーに、サンプルデータを格納します。(今回はsample-data / Directoryフォルダ)
今回のサンプルデータは、MicrosoftLearnよりダウンロードしたcsv形式の映画サンプルデータです。
image.png
4.AzureSynapseAnalyticsを検索する。
image.png
5.AzureSynapseAnalyticsリソースを作成する。
スクリーンショット 2024-12-21 015714.png
6.AzureSynapseAnalyticsリソースを開く。
image.png
7.お疲れさまでした。ここまで来たら前準備は完了です。
image.png

マッピングデータフローの活用

1.左のメニューバーからDevelopを選択
image.png
2.Dataflowを右クリックし、新しいデータフローを選択
image.png
3.ソースの追加部分でソースの追加を選択
image.png
4.データセットの箇所の+新規を選択
image.png
5.ここでストレージアカウントを使います。ADLS2を選択。
image.png
6.DelimitedTextを選択
image.png
7.リンクサービスはdefaultの物を選択し、ストレージアカウントのファイルパスを指定しスキーマのインポートを雪像またはストアからにしてOKを押す
image.png
8.デバッグモードにする。(データのプレビューなどで使用します。こちらは起動に時間がかかるのでスタジオを開いた時に行っておくとスムーズです。)
9.データソースをクリックするとデータのプレビューが選択できるので、最新の情報に更新を押すことでデータが読み込まれれば正常に抽出できています。
image.png
10.ソース右下の+を押すと、データの加工ができます。
image.png
11.今回は、評価の良い映画を見たいので、Ratingが6以上の物でフィルターを掛けます。
スクリーンショット 2024-12-21 024453.png
12.正常にフィルターが掛けられデータが加工されました。
image.png
13.フィルターデータフローの右下の+からシンクを追加し、データを出力するパスを指定します。
image.png
14.ここまできたら一度すべて発行しましょう。発行しないままスタジオを閉じてしまうとデータフローが保存されません。
image.png
15.左のメニューバーのIntegrateを選択します。
image.png
16.Piplinesを右クリックして新しいパイプラインを選択します
image.png
17.アクティビティの移動と変換から、データフローを真ん中の空欄にドラッグ&ドロップします。
image.png
18.データフローをクリックし、設定タブから先ほど作成したデータフローを選択します
image.png
19.デバッグを押すと、パイプラインが実行されます。
image.png
20.実行が終わり、指定したパスに加工されたデータが出力されれば成功です。お疲れさまでした。データの確認も忘れずに。
image.png

長かったかと思いますが、いかがでしたでしょうか。ローコードでデータの加工ができるのはとても魅力的ですよね。是非試してみてください。見て下さりありがとうございました。

この記事を書いた人

azure-recipe-user