Azure Synapse AnalyticsとData Lake Storage Gen2の概要

<はじめに>

 Azure Synapse AnalyticsとData Lake Storage Gen2はAzureで構築される場合に使用されることが多いです。特にAzure Synapse AnalyticsとData Lake Storage Gen2はビッグデータを取り扱うといったことに向いており、低いコストで使用でき性能は高めと、非常に優秀なリソースです。
今回は、そんなAzure Synapse AnalyticsとData Lake Storage Gen2がどんな機能でどのような時に使用されるのか紹介します。
なお本記事で取り扱うAzure Synapse AnalyticsとData Lake Storage Gen2は2022年5月現在での機能となっています。

<Azure Synapse Analytics の概要>

  Azure Synapse Analyticsとは、一言で表現するとデータウェアハウス、ビックデータ分析、ETLエンジンが1つに集約された統合的なプラットフォームです。
更に要素を分解すると
・様々なデータを取り込み、データを溜めることができる
・Azure Synapse Analytics内でビックデータを分析
・同じデータ統合エンジンやBIツールへのスマートな変換、機械学習
このような特徴が挙げられます。
image.png

<Data Lake Storage Gen2 の概要>

 Data Lake Storage Gen2はそもそもAzure Blob Storage とData Lake Storage Gen1を集約したビッグデータ分析の一連の機能といわれています。
Data Lake Storage Gen2の特徴をまとめると
・高いセキュリティ・高可用性・Web HDFSへの互換性をもつデータを有効活用するためのデータ保存場所
・Data Lake Storage Gen2はBlob Storageを元に構成されている
→非構造的なデータにも適応できる価格が安価
・大量のログ等も容量を気にせずにデータ変換などもせずに、生データのまま保存することが可能
→分析基盤として非常に有用な手段として認知

image.png

<Azure Synapse Analyticsの事例>

 まずはAzure Synapse Analyticsの使用例について紹介します。Azure Synapse Analyticsの利点としては、大規模なデータの処理や分析といった部分にあります。また、Azure Synapse Analyticsの利点はBIツールや関連ツールをワンストップで使用できることも挙げられます。
そのため、主に大量なデータをわかりやすいように視覚化したいといった事例にAzure Synapse Analyticsは使用されることがあります。

<事例:大量のデータを視覚化したい>

概要:とある会社が使用している元データをしっかりと可視化を行い、あらたな顧客獲得といった分析を行う
要件:取得される顧客データの数は膨大で、大量のクエリを処理する必要がある。また、取得される顧客データは日々更新されるがそのデータも可視化する際に反映させること

Azure Synapse AnalyticsはPower BI といったBIツールとも互換性があります。さらにデータを分析するストレージ層と分析を行うコンピューティング層が分離していることから大量なデータを分析、処理を行うことが可能です。そのため、処理時間を削減し業務効率化を進めることができます。

 上記のような事例で使用されることが多いAzure Synapse Analyticsですが、高速処理や大量なデータ処理に対する高度な機能をもちますがコストが低いことも魅力的です。Power BIについて詳しく知りたい方はこちらの記事を参照してください。

<Data Lake Storage Gen2の事例>

Data Lake Storage Gen2はビックデータを蓄積させるためのストレージです。主な役割としては、ペタバイト単位な膨大なビックデータの蓄積や管理になっています。大規模なデータの処理に向いているAzure Synapse Analyticsなどと同時に使用されることがとても多いです。

<事例:今まで使用していたBIツールから新規BIツールに移行したい>
概要:とある会社が今まで分析のために使用していた既存のBIから、新規BIツールへ移行する
要件:データはペタバイト単位なビックデータがあるが、分析処理を軽減させること

Data Lake Storage Gen2は取得するデータを限定しておらず、様々なデータ形式にも対応しているため、取得したデータをそのまま保管するデータレイクとして活躍します。
また、Hadoop分散ファイルシステムを使用することで、データ管理やアクセスを可能にすることができます。もちろんAzure Synapse Analyticsだけではなく、Azure HDInsight、Azure Databricksと互換性があるため共に使用されます。
階層型名前空間の機能を用いることでフォルダ構成を決めることができるので、データ解析のパフォーマンスも高いです。
そのため上記のような事例で使用されることが多いです。

<まとめ>

 Azure Synapse AnalyticsやData Lake Storage Gen2について紹介してきましたがいかがでしょうか。コスト効率もよく、ビッグデータ解析に向くこれらの機能は、多くの企業でも取り入れられています。

 次回はData Lake Storage Gen2からAzure Synapse Analyticsへの接続方法について紹介します。