Databricks Introduction について簡単にまとめてみた
はじめに
今回は Databricks Introduction という動画の内容をまとめてみました。
本動画のリンクは下記参照。
■リンク先
Introduction to Databricks
Databricks とは
Databricks の特徴
Databricksとは、Databricks 社が開発した 統合データ分析プラットフォームです。 Databricks を利用することで、ユーザは誰でも簡単に高度な解析ソリューションの構築とデプロイが可能となります。
■Databricks の利用手順と利用方法
① データの入ったストレージ(Cloud Storage、Data Warehouse、Delta Lake など)を用意
② ストレージに クラウド上の Apache Spark と Databricks が接続
③ 接続後は以下のサービスを利用することができます
- Notebook や Dashboard など Workspace の作成
- サードパーティ の BI ツールの使用
- Spark アプリのカスタマイズ
Apache Spark のコンポーネントについて
Apache Spark には以下のコンポーネントが含まれております
■コンポーネント
- Spark Core API
- Spark SQL + DataFrames
- ストリーミング
- MLlib (機械学習)
- GraphX (グラフ計算)
クラスタの立ち上げ
クラスタは、本番ETLパイプライン、ストリーミング分析、アドホック分析、機械学習などのデータエンジニアリング、データサイエンス、データ分析のワークロードを実行する一連の計算リソースと構成のことです。
クラスタの立ち上げも簡単で、下記の項目を選択してクリックするだけです。
■選択する項目
- クラスタ名
- Spark のバージョン
- インスタンスタイプ
豊富なビジュアルデザイン
Databricks では以下の様なビジュアルデザインに関する機能があります。
■ビジュアルデザイン機能
- Databricks 内でビジュアル化が可能(エクスポート不要
- 円グラフ、棒グラフ以外にも豊富なビジュアルの選択が可能
notebook へのアクセス制限
notebook には、以下の様な制限を設けることが可能です。
■設定可能な制限
- 指定した notebook の公開設定
- 指定した notebook へのアクセス可能なユーザの指定
- アクセスできるユーザの notebook にたいする操作制限
コメント機能
ユーザ同士でコメント機能を用いたコミュニケーションも可能です。
これにより、作業の引き継ぎやちょっとした伝達も簡単に行うことができます。
クラスタの編集と新規作成
Databricks の左端のタブにある「Jobs」を選択することで、既存のクラスタの再編集や、既存のクラスタの設定を用いたまま、新規にクラスタを作成することもできます。
おわりに
Databricks Introduction についてのまとめは以上となります。
Databricks との特徴と機能について簡単にまとまっており、Databricksをサッと理解するのにとても良い動画なので、リンク先の本動画もぜひ見て下さい。
Azure Databricksの導入ならナレコムにおまかせください。
導入から活用方法までサポートします。お気軽にご相談ください。
Azure Databricksソリューションページはこちら
あわせて読みたい