今回はAzure Data Factoryを試しに操作していきます。
概要については下記記事をご覧ください。
AZURE DATA FACTORY について
リンクサイトはこちら
1. 事前準備
Data Factoryを操作するにあたって、今回はAzure SQL Database , Azure Storage accountを準備します。
Azure SQL Databaseの作成方法は下記記事をご覧ください。
5分で立てるSQL Database
リンクサイトはこちら
2. 初期設定
まずはポータルの「新規」から「Data Factory」を選択します。
Data Factoryの名前、サブスクリプション、リソースグループ、場所を選択します。
※2016年8月現在、選べる場所はヨーロッパ北部・米国東部・米国西部の三つです。
デプロイが終了すれば初期設定は完了です。
3. サンプルパイプラインの設定
今回はどういった用途に使えるかを理解するために、「サンプルパイプライン」を作ってみます。
管理画面から「サンプルパイプライン」のパネルをクリックします。
今回は「顧客プロファイリング」を選択します。
サンプルの説明と共に、データをやり取りする為のAzure Storage Account , Azure SQL Databaseの指定を行います。
情報を入力後「SQL接続のテスト」をクリックして接続ができることを確認してください。
サンプルパイプラインが作成されると管理画面のコンテンツに作られたものが表示されます。
ダイアグラムからパイプラインの構図を確認できます。
このサンプルでは3つのパイプラインがあります。
① BLOBストレージにあるテーブルを時系列に基づくパーティションに分割しています。
② パーティションと地理情報を結合させています。
③ 結合させた情報と広告データを合わせて処理して、マーケティングの成果データをSQL databaseに出力しています。
以上が、サンプルで行われているData Factoryの内容となります。
上記では顧客プロファイリングの用途でデータの加工・結合・移動を行いましたが、様々な用途でのETLフローを管理することがすることができるので、データ分析には欠かせないサービスとなっています。
次回の記事もお楽しみに!