Azure Auto MLでKaggleのTPSコンペデータを用いてモデルを作成してみた

はじめに

KaggleのTPSコンペのデータをAzure Machine LearningのAuto MLを使ってモデルを作成してみようと思います。

前回使用した『デザイナー』はブロックを用いて、コードを書かずに学習モデルを作成することができましたが、『Auto ML』も同じく1行も書かずにできます。
デザイナーとの違いは、パイプラインを作成せずとも最適な機械学習アルゴリズムの選択からモデルの作成まですべて自動的にできる!という点があります。

それではさっそく使ってみようと思います!

ジョブの作成~実行まで

ワークスペースやクラスターの作成などはこちらの記事をご覧ください。
また、今回使用するデータはTabular Playground Series – Aug 2022からダウンロードしました。

新規ジョブ作成

はじめにAzure Mのワークスペースを開き、「自動ML」を選択します。

automl.png

そして、左上の「新規の自動機械学習ジョブ」から新しいジョブを作成します。

image.png

データの選択・作成

以前作成したデータセットがある場合はこのように表示されるので、これを選択します。

image.png

データセットがない場合は「作成」をクリックし、

image.png

「名前」を入力して次に進みます。

image.png

そしてデータソースの場所とデータストアの選択を行ったら、ファイルのアップロードを行います。

image.png

次に設定を行います。
データセットに複数行のデータが含まれている場合はチェックを入れます。

image.png

そして、学習で使うデータを選択します。
各項目のデータ型を変更したい場合は、この時点で操作することができます。
今回は特に何も変更せずに進めました。

最後にデータセットの内容を確認し、問題なければ作成をします。

ジョブの設定

続いてジョブの実験名・ターゲット列の入力と、コンピューティングクラスターを選択して新規作成を行います。ターゲット列には「failure」を入力しました。

image.png

今度は機械学習アルゴリズムの選択ができます。
先ほど入力したターゲット列から自動で選んでくれます。
もし異なる場合はここで変更しておきましょう。

image.png

今回のTPSコンペでは製品が故障しているかどうかを予測するものなので、『分類』を選択します。

image.png

そして検証方法とテストデータの設定を行います。
今回は『テスト分類』を選択し、訓練データを60%・テストデータを30%に分割するようにしました。

これで「終了」をクリックすればモデルが作成されます!

image.png

これで実行完了まで待ちましょう…。

実行結果

実験が終わったので、作成されたモデルの詳細を見てみましょう!
ちなみに実行時間は1時間7分57.66秒かかりました。

「モデル」タグに移ると、作成されたモデルの一覧が評価が高い順に並んでいます。

image.png

一番良かったものには「説明の表示」というのが見れます。

説明(プレビュー)

予測の際に重要な特徴量やデータの分布などを見ることができます。

image.png

メトリック

評価の結果をグラフで表示されます。

image.png

データ変換

ここではトレーニングの際の前処理や特徴量エンジニアリングの流れなどを見ることができます。

image.png

まとめ

今回はTPSコンペのデータを使って、AUto ML上でモデルの作成を行いました。
機械学習アルゴリズムの選択から特徴量の重要性まですべて自動でやってくれたので、実際にコンペに参加する際に、EDAとして参考にできそうだと思いました!

この記事を書いた人

azure-recipe-user