Azure Data Lake について

今回はAzure Data Lakeについて、ご紹介します。

MicrosoftAzureでは最近エンタープライズ向けのサービスも充実してきました。
HD InsightやAzure SQL Datawerehouse、AzureDataLakeなど面白そうなサービスが続々と発表されています。

今回ご紹介するのは、AzureDataLakeについてです。

Azure Data Lakeとは

どんな企業にも様々な大量のデータはあると思います。ログデータであったりユーザーデータであったりセンサーだったり・・・
これらのデータは新しいサービスや価値を生み出すのに大切な資産だと思います。

昨今ではビッグデータ解析やリアルタイム分析などデータを活かすための手法や手段も増えてきました。

そんなビッグデータの格納先として活用できるのがAzure Data Lakeです!
Data Lakeは大容量の保存先を提供しつつ、低レイテンシーかつ高いスループットを保持したデータレポジトリーです。

そのシングルアカウントで1EB(!?)まで対応しており、1ファイルあたりでいうと1PBまで対応しています。まさにエンタープライズ!
もちろんエンタープライズなのでセキュリティ機能も充実しています。

パフォーマンスの監視はもちろん、Azure Active Directoryと組み合わせて、データすべてにID管理とアクセス管理が可能です。
※Azure Active Directoryについては別記事で詳しくご紹介します。

もう一つの大きな特徴はHadoopのファイルシステムであるHDFSのAPIを提供しているので、Hadoopに対応した分析ツールがそのまま使える、という点です。
冒頭で上げたHD Insightや、Hadoop環境の「Cloudera(http://www.cloudera.co.jp/)」「Hortonworks(https://jp.hortonworks.com/)」などの統合が可能です。

また、Revolution-R Enterprise などの Microsoft オファリング、Hortonworks、MapR などの業界標準ディストリビューション、および Spark、Storm、Flume、Sqoop、Kafka などのHadoop プロジェクトとも統合されます。

Azure Machine Learningにも対応しています、素晴らしい。

活用シーン
では、このAzure Data Lakeはどんな場面で使えるのか。
Azure HP(http://azure.microsoft.com/ja-jp/campaigns/data-lake/)から、抜粋しました。

■大容量を活かして
想定シナリオとして高解像度のビデオ、科学、医療、大量のバックアップ データ、イベント ストリーム、Web ログ、IoTなどの分野での活用

■低レイテンシーかつ高いスループットを活かして
高頻度、低遅延のリアルタイム分析が可能なのでWeb サイト分析、IoT、センサーからの分析など、準リアルタイムを求められるようなシーン

ちなみにData Lakeは2015年8月現在、まだ正式サービスされておらずプレビュー版のみとなります。
正式実装が楽しみですね。

いかがでしたでしょうか?
次回もお楽しみに!!

この記事を書いた人

azure-recipe-user