【AI入門】Databricks の特徴・機能について解説してみた!

はじめに

Databricks の公式YouTube チャンネルで紹介されている動画【Introduction to Databricks】について記事としてまとめました。
参考動画は英語です。英語が苦手な方でもこの記事で動画の内容を確認することができます。

本記事の概要

  • Databricks の公式YouTube チャンネルで紹介されている動画を記事にして解説しています。
  • Databricks にはどんな特徴や機能があるのかをまとめています。
  • サービスの特徴やクラスターの作成など簡単な操作方法について紹介します。

こんな方に読んでもらいたい

  • データ活用に関して興味のある方
  • そもそも Databricks って何?
  • これからAI・機械学習を始める方

本動画のリンクは下記から参照できます。

■リンク先
Introduction to Databricks

Databricks とは

Databricks の特徴

Databricksとは、Databricks 社が開発した 統合データ分析プラットフォームです。 Databricks を利用することで、ユーザは誰でも簡単に高度な解析ソリューションの構築とデプロイが可能となります。

https___qiita-image-store.s3.ap-northeast-1.amazonaws.com_0_321349_624d920e-ed7f-1f06-8d19-57e31287cfd5.png

■Databricks の利用手順と利用方法
① データの入ったストレージ(Cloud Storage、Data Warehouse、Delta Lake など)を用意
② ストレージに クラウド上の Apache Spark と Databricks が接続
③ 接続後は以下のサービスを利用することができます

  • Notebook や Dashboard など Workspace の作成
  • サードパーティ の BI ツールの使用
  • Spark アプリのカスタマイズ

Apache Spark のコンポーネントについて

https___qiita-image-store.s3.ap-northeast-1.amazonaws.com_0_321349_9d3d19f8-762e-1e8e-4a0d-158984b00765.png

Apache Spark には以下のコンポーネントが含まれております
■コンポーネント

  • Spark Core API
  • Spark SQL + DataFrames
  • ストリーミング
  • MLlib (機械学習)
  • GraphX (グラフ計算)

クラスタの立ち上げ

クラスタは、本番ETLパイプライン、ストリーミング分析、アドホック分析、機械学習などのデータエンジニアリング、データサイエンス、データ分析のワークロードを実行する一連の計算リソースと構成のことです。

https___qiita-image-store.s3.ap-northeast-1.amazonaws.com_0_321349_3fcaa0a0-0409-7350-2b41-c5a8689646a9.png

クラスタの立ち上げも簡単で、下記の項目を選択してクリックするだけです。
■選択する項目

  • クラスタ名
  • Spark のバージョン
  • インスタンスタイプ

豊富なビジュアルデザイン

https___qiita-image-store.s3.ap-northeast-1.amazonaws.com_0_321349_e7caa455-6404-da84-70ac-dc150db9b6aa.png
Databricks では以下の様なビジュアルデザインに関する機能があります。

■ビジュアルデザイン機能

  • Databricks 内でビジュアル化が可能(エクスポート不要)
  • 円グラフ、棒グラフ以外にも豊富なビジュアルの選択が可能

notebook へのアクセス制限

https___qiita-image-store.s3.ap-northeast-1.amazonaws.com_0_321349_74960425-a765-8469-9c8a-b1d74432980f (1).png

notebook には、以下の様な制限を設けることが可能です。

■設定可能な制限

  • 指定した notebook の公開設定
  • 指定した notebook へのアクセス可能なユーザの指定
  • アクセスできるユーザの notebook にたいする操作制限

コメント機能

https___qiita-image-store.s3.ap-northeast-1.amazonaws.com_0_321349_7fb214e4-3f84-fbcf-e874-a142f60a0207.png

ユーザ同士でコメント機能を用いたコミュニケーションも可能です。
これにより、作業の引き継ぎやちょっとした伝達も簡単に行うことができます。

クラスタの編集と新規作成

https___qiita-image-store.s3.ap-northeast-1.amazonaws.com_0_321349_515bf8d3-e1b4-43e1-ddc4-d5553c5a331c.png

Databricks の左端のタブにある「Jobs」を選択することで、既存のクラスタの再編集や、既存のクラスタの設定を用いたまま、新規にクラスタを作成することもできます。

おわりに

Databricks を活用することでデータがあるけどどんな風に活用していいかわからないといった問題を解決できるかもしれないと思いました。
リンク先の本動画でもDatabricks との特徴と機能についてまとまっています。ぜひご覧ください。

Azure Databricksの導入ならナレコムにおまかせください。

弊社は、Databricksのソリューションパートナーとしてお客さまのデジタルトランスフォーメーションの推進に貢献致します。

導入から活用方法までサポートします。お気軽にご相談ください。

Azure Databricksソリューションページはこちら
Databricks ソリューションパートナーに関してはこちら