Databricks Introduction について簡単にまとめてみた

はじめに

今回は Databricks Introduction という動画の内容をまとめてみました。
本動画のリンクは下記参照。

■リンク先
Introduction to Databricks

Databricks とは

Databricks の特徴

Databricksとは、Databricks 社が開発した 統合データ分析プラットフォームです。 Databricks を利用することで、ユーザは誰でも簡単に高度な解析ソリューションの構築とデプロイが可能となります。
スクリーンショット 2020-04-08 11.18.04.png

■Databricks の利用手順と利用方法
① データの入ったストレージ(Cloud Storage、Data Warehouse、Delta Lake など)を用意
② ストレージに クラウド上の Apache Spark と Databricks が接続
③ 接続後は以下のサービスを利用することができます

  • Notebook や Dashboard など Workspace の作成
  • サードパーティ の BI ツールの使用
  • Spark アプリのカスタマイズ

Apache Spark のコンポーネントについて

スクリーンショット 2020-04-08 11.26.50.png
Apache Spark には以下のコンポーネントが含まれております
■コンポーネント

  • Spark Core API
  • Spark SQL + DataFrames
  • ストリーミング
  • MLlib (機械学習)
  • GraphX (グラフ計算)

クラスタの立ち上げ

クラスタは、本番ETLパイプライン、ストリーミング分析、アドホック分析、機械学習などのデータエンジニアリング、データサイエンス、データ分析のワークロードを実行する一連の計算リソースと構成のことです。
スクリーンショット 2020-04-08 15.51.38.png
クラスタの立ち上げも簡単で、下記の項目を選択してクリックするだけです。
■選択する項目

  • クラスタ名
  • Spark のバージョン
  • インスタンスタイプ

豊富なビジュアルデザイン

スクリーンショット 2020-04-08 11.29.14.png
Databricks では以下の様なビジュアルデザインに関する機能があります。

■ビジュアルデザイン機能

  • Databricks 内でビジュアル化が可能(エクスポート不要
  • 円グラフ、棒グラフ以外にも豊富なビジュアルの選択が可能

notebook へのアクセス制限

スクリーンショット 2020-04-08 11.30.04.png
notebook には、以下の様な制限を設けることが可能です。

■設定可能な制限

  • 指定した notebook の公開設定
  • 指定した notebook へのアクセス可能なユーザの指定
  • アクセスできるユーザの notebook にたいする操作制限

コメント機能

スクリーンショット 2020-04-08 11.30.56.png
ユーザ同士でコメント機能を用いたコミュニケーションも可能です。
これにより、作業の引き継ぎやちょっとした伝達も簡単に行うことができます。

クラスタの編集と新規作成

スクリーンショット 2020-04-08 16.12.39.png
Databricks の左端のタブにある「Jobs」を選択することで、既存のクラスタの再編集や、既存のクラスタの設定を用いたまま、新規にクラスタを作成することもできます。

おわりに

Databricks Introduction についてのまとめは以上となります。
Databricks との特徴と機能について簡単にまとまっており、Databricksをサッと理解するのにとても良い動画なので、リンク先の本動画もぜひ見て下さい。

 

 

 

Azure Databricksの導入ならナレコムにおまかせください。

導入から活用方法までサポートします。お気軽にご相談ください。

Azure Databricksソリューションページはこちら