【Databricks】クラスターが起動しない場合にはログをたどってみればよい件

はじめに

Databricks でクラスターを立ち上げようとした際、なぜかクラスターが立ち上がらないことが過去に一度だけありました。
起動ボタンを押しても、数分後には何もなかったかのようにクラスターが停止している状態です。

起動できない原因がわからなかった時に、どうやらログをたどることによってクラスターの状態を確認できることを知りました。
特に難しい内容ではありませんが、意外に知らない方も多いのではないかと思いまして豆知識として共有します。

今回は、Azure Databricks を利用します。

本記事のゴール

以下を本記事のゴールとしております。

  • クラスターのログの確認手順がわかる
  • どのようにログが管理されているのかを仕組みで理解する
  • ログからクラスターの詳しい状態(なぜ起動できないか)を確認できる

ログを確認してみる

クラスターのログを確認していきましょう。

まず、適当なクラスターを用意します。
サイドバーの「Compute」から対象のクラスター名をクリックします。
ログを確認するだけなので、その時点でクラスターは起動していなくても特に問題ありません。
image.png

次に「Event log」を押していただくとログの一覧が確認できます。
非常にシンプルな構成です。

  • Event Type – クラスターに起こったイベントの種類
  • Time – イベント が発生した時刻
  • Message – イベント に対するメッセージ
    image.png

上記の画像を見てみると Event Type から以下のような流れでクラスターのログが記録されていることがわかりますね。

  • STARTING – クラスターの起動
  • RUNNING – クラスターは起動中
  • DRIVER_HEALTHY – ドライバーは正常
  • TERMINATING – クラスターの停止

上の流れはあくまでクラスターが正常な場合になります。

以前クラスターが起動しなかったときは、STARTING の後にすぐ TERMINATING とログが記録されていました。
RUNNING や DRIVER_HEALTHY がなかったので何かしら問題が起きていることが予想されます。

詳しい状況は、該当する TERMINATING をクリックすれば確認できます。
以下の画像は実際のクラスターが起動しなかったときの停止状況です。

2022-08-03_14h27_46.png

エラーメッセージが表示されているので、トラブルシューティングに役立てることができますね。

上記の画像のエラーは一時的なもので幸い大きな問題ではなさそうです。
少し時間をおいたらクラスターの起動が再びできるようになってました。

まとめ

クラスターのログを確認するまでの手順や詳しい状態の確認について解説しました。
クラスターのログまで確認することは普段そこまでないかとは思いますが、もしもの時に役立てられるとよいかと思います。

この記事を書いた人

azure-recipe-user