Databricks Community Edition で Notebook を立ち上げる

はじめに

Databricks は、特に海外で破竹の勢いを見せるデータ分析基盤です。

  • データ分析のための統合プラットフォーム
  • 2000 以上のグローバル企業がビッグデータおよび機械学習パイプラインの設計に活用
  • 2020 Gartner Magic Quadrant で Leader に指名 (データサイエンス及び機械学習プラットフォーム分野)
  • Apache Spark、Delta Lake、MLflow の開発者が作っている

実ビジネスで利用するのであればアーキテクチャ構築や権限設計が必須ですが、オープンデータソースでまずは使用感を試したい方向けに無償プランが用意されています。有償版と無償版の違いは以下の通り (2020年2月時点)

1.jpg

本稿では無償版である Databricks Community Edition の登録から Notebook を立ち上げるまでの手順を示します。

アカウント作成

Try Databricks にアクセスして、GET STARTED をクリック
2020-02-25_13h31_13.png

全ての項目を入力し、 Sign Up をクリック
2020-02-25_13h35_01.png

しばらくするとこちらの画面に遷移します。
image.png

メアドに届いたメールのリンクに遷移し、パスワードを設定します(初回登録でも Reset Password になるようです)。
2020-02-25_13h39_31.png

これで完了。すぐにコンソール画面が表示されます。
image.png

クラスタの作成

Home 画面より、New Cluster をクリック
2020-02-25_13h44_13.png

Community Edition では Driver クラスタのみ。 Cluster Name は任意で設定します。Runtime Version については、既存アーキテクチャやスクリプトとの兼ね合いを検討する必要がないのであれば、デフォルト値で良いでしょう(2020年2月25日 時点では 6.2)。
インスタンスは us-west に立ち上がるようです。どれかを選択して Create Cluster をクリック。
2020-02-25_13h49_41.png

ちょっと待つとこちらのアイコンが緑になります。これで Cluster の準備完了です
2020-02-25_13h54_19.png

Notebook の作成

トップ画面から New Notebook をクリックし、名称を任意で入力します。アカウントを作成したばかりであれば、先ほど作成したクラスタが選択されているはずです。Create をクリック。
2020-02-25_13h56_17.png

すぐに Notebook の画面が出てきます。
image.png

さいごに

一定規模以上のデータを保持していて、その解析に Spark 使っているのであれば、現時点では Databricks 一択になるかと思います。普段 Jupyter Notebook で分析をしている方は触っておくだけでも損はないはず。

参考リンク

Databricks