Azure MLでKaggleのTPS AUG 2022をやってみた

はじめに

今回はKaggleの「Tabular Playground Series – Aug 2022」のコンペをAzure MLを使って予測してみようと思います。

ワークスペースの作成

スクリーンショット (4).png

  1. 「Create」をクリックします

スクリーンショット (5).png

  1. サブスクリプションの選択をし、リソースグループで新規作成を行います。
  2. ワークスペース名の入力をします。(今回は「t-kawano-test」としました)
  3. 「確認および作成」をしたら続けて「作成」を選びます。

これでワークスペースの作成が完了です!

デザイナーの作成

ワークスペースの作成が完了したら、「スタジオ Web URL」をクリックしたら、次のような画面に移ります。

azure-ml.png

今回は「デザイナー」という機能を使ってモデルを作成していきます。
デザイナーを「今すぐ開始」で起動します。

スクリーンショット 2022-11-22 14.23.47.png

このようにサンプルがズラリと並んだ画面に移ります。
これらは既にブロックが組み上がっているものです。

TPS AUG 2022は製品の故障を予測するというコンペです。
つまり、failureの結果が0と1どちらなのかを予測するというもの(二項分類)なので、今回はこちらのサンプルの中の「Cross Validation for Binary Classification」を用いてやってみます。

スクリーンショット 2022-11-22 14.30.47.png

開いてみると、すでにブロックができあがっているのがわかります。
今回はデータセットだけKaggleのものへ入れ替えてやってみましょう!

データセットの追加

事前準備として

Kaggleのデータセットをダウンロードするには、そのコンペに参加する必要があります。
参加したら「Data」タブからSample、Train、Testの3つのファイルをダウンロードします。

Azure MLにデータセットを追加する

スクリーンショット 2022-11-22 14.36.46.png

まずは「Data」タブを左側で開き、「+」をクリックします。

スクリーンショット 2022-11-22 14.50.22.png

名前を設定し、ローカルのファイルからアップロードすればOK!

スクリーンショット 2022-11-22 14.52.43.png

これで追加ができました^^

image.png

追加したTPS-AUG-2022のtrainデータを置いて、

image.png

Cleaning Missing DataにつなげればOK!
(元々あったデータセットについては、もう使わないので削除をしておきます。)

そして最後にターゲットの列を選択します。
Train ModelCross validate Modelそれぞれのコンポーネントをダブルクリックすると設定できます。

image.png

列を変更後、保存をして完了です。

コンポーネントの追加

学習して出た結果を評価するために、Evaluate Modelコンポーネントを追加します。

データセットを追加したときと同じように、今度はコンポーネントタブを開き、検索欄で探します。

image.png

そして、Score Modelとつなげます。

image.png

また、データの中身を見てみると、product_codeがtrainとtestデータで全く違うものが使われているので今回は削除します。この列を削除するためにはSelect Columns in Datasetコンポーネントを追加します。

image.png

trainデータの下にコンポーネントを置いたら

image.png

使用する列を指定したら、product_code列が削除されます。

実行

コンピューティング先を設定

「設定」をクリックし、「Azure MLコンピューティングクラスターを選択する」でクラスターを選択します。
image.png

ここが選択できない場合は、その下にある「Azure MLコンピューティングクラスターを作成する」をクリックし、

image.png

場所仮想マシンの種類サイズを選択します。

image.png

さらに進んで、コンピューティング名を入力したら作成完了!

ジョブの実行

画面右上の「送信」をクリックしたら、ジョブのセットアップ画面が出てきます。

image.png

「新規作成」で実験名を入力、「送信」をクリック!
これでジョブの実行ができます。

ワークスペースに戻ってみると、状態が「実行中」になっています。

image.png

実行完了したら、ワークスペースの状態は「完了」に変化します。

image.png

ジョブを開き、Score Modelの結果を見てみましょう!

image.png

Scored Probabilitiesはその結果の信頼性を表すもので、1に近いほど信頼度が高いということです。
結果の一部を見てみても、あまり良くはなさそうです笑

image.png

次にEvaluate Modelの結果も見てみましょう。

image.png

今回のKaggleの評価指標はROCが使われていましたが、大体0.5なので、やはりあまり精度は高くなさそうです。

testデータを使ってやってみる

Azure MLでは一度推論したモデルは登録し、呼び出すことができるのでこれを使ってtestデータでfailureの予測を行います。

MicrosoftTeams-image.png

ジョブに戻り、Train Modelで「データの登録」をします。

MicrosoftTeams-image (2).png

これで実行してみます!

結果のデータを取り出す

実行完了したら、予測した結果を取り出したいので、Export Dataコンポーネントを追加します。
image.png

csv形式で取り出したいので次のようにExport Dataを設定します。

image.png

これでジョブを実行し、完了したら

  1. 左側の「データ」をクリック
  2. 「データソース」で先ほどExport Dataで指定したデータストアを選択
  3. 「プレビューを参照」の下にある該当のファイルをクリック

image.png

最後に「・・・(三点リーダー)」から「ダウンロード」をクリックすれば結果を取り出すことができます。
Excelで開いてみるとこんな感じ。

image.png

コンペ提出

取り出したデータはそのままだと提出できないので、Kaggleで指定された形式に加工します。
image.png

idfailureだけ残し、

image.png

保存したらいよいよKaggleに提出してみます。

結果

image.png

無事、ちゃんと提出することができました!

リアルタイム推論

左タブの「コンピュータ」から「推論クラスター」で新規作成を行います。

image.png
仮想マシンの選択をし、コンピューティング名を入力したら作成できます。
作成には少し時間がかかるので、終わるまで待ちましょう♪

終わったら再びジョブに戻り、

image.png

「推論パイプラインの作成」から「リアルタイム推論パイプライン」を選択すると自動的にパイプラインが変わるので、Web Service Inputコンポーネントを追加し、ジョブの実行を行います。

そして実行が終わったら、ジョブで「デプロイ」がクリックできるようになります。

これでデプロイが完了したらエンドポイントの作成ができます!

MicrosoftTeams-image (3).png

PythonからAPIを叩いてみる!

コードが自動的に生成されるので、これを使ってPythonから叩いてみます。

まず、左の「エンドポイント」に入ります。

MicrosoftTeams-image (3).png

MicrosoftTeams-image (4).png

「テスト」タグに移り、”0__FloatingPointVal__”をFloat型の数値に変更します。
MicrosoftTeams-image.png

テストを行うと…

MicrosoftTeams-image (1).png

成功できました!

Pythonから

コードをコピーして、PythonでAPIを叩いてみましょう。

こちらも”0__FloatingPointVal__”をFloat型の数値に変更と、falseをFalseに変更しました。
これを実行したら

image.png

同じように結果が返ってきました!
推論結果がScored Labelsに、信頼スコアがScored Probabilitiesに入っています。

まとめ

  • Azure MLのデザイナーを使ってみた
  • KaggleのTPS Aug 2022をAzure MLを使って提出
  • エンドポイントを作成し、Pythonでたたいてみた

この記事を書いた人

azure-recipe-user