【Databricks】クラスターが起動しない場合にはログをたどってみればよい件

はじめに

Databricks でクラスターを立ち上げようとした際、なぜかクラスターが立ち上がらないことが過去に一度だけありました。
起動ボタンを押しても、数分後には何もなかったかのようにクラスターが停止している状態です。

起動できない原因がわからなかった時に、どうやらログをたどることによってクラスターの状態を確認できることを知りました。
特に難しい内容ではありませんが、意外に知らない方も多いのではないかと思いまして豆知識として共有します。

今回は、Azure Databricks を利用します。

以下を本記事のゴールとしております。

クラスターのログを確認していきましょう。

まず、適当なクラスターを用意します。
サイドバーの「Compute」から対象のクラスター名をクリックします。
ログを確認するだけなので、その時点でクラスターは起動していなくても特に問題ありません。

次に「Event log」を押していただくとログの一覧が確認できます。
非常にシンプルな構成です。

上記の画像を見てみると Event Type から以下のような流れでクラスターのログが記録されていることがわかりますね。

上の流れはあくまでクラスターが正常な場合になります。

以前クラスターが起動しなかったときは、STARTING の後にすぐ TERMINATING とログが記録されていました。
RUNNING や DRIVER_HEALTHY がなかったので何かしら問題が起きていることが予想されます。

詳しい状況は、該当する TERMINATING をクリックすれば確認できます。
以下の画像は実際のクラスターが起動しなかったときの停止状況です。

エラーメッセージが表示されているので、トラブルシューティングに役立てることができますね。

上記の画像のエラーは一時的なもので幸い大きな問題ではなさそうです。
少し時間をおいたらクラスターの起動が再びできるようになってました。

クラスターのログを確認するまでの手順や詳しい状態の確認について解説しました。
クラスターのログまで確認することは普段そこまでないかとは思いますが、もしもの時に役立てられるとよいかと思います。

記事一覧