Azure Custom Vision Serviceで「きのこの山」と「たけのこの里」を判別させてみる

LINEで送る
Pocket

このエントリは Cogbot! – Cognitive Services, Bot Framework, Azure ML, Cognitive Toolkit(CNTK) Advent Calendar 2017 の2日目です。

ナレッジコミュニケーションの大柳です。(@oyngtmhr)

今回はMicrosoft Azureの画像認識サービスCustom Vision Serviceを使った画像判定のデモをやってみます。「きのこの山」と「たけのこの里」が判別できるか、試してみます。

Custom Vision Serviceとは

Microsoft Azureで提供される画像認識サービスです。自分の持っている画像を学習させることで、その画像が何かを当てるための仕組み、いわゆる機械学習モデルを作ることができます。

https://azure.microsoft.com/ja-jp/services/cognitive-services/custom-vision-service/

例えば、Microsoftの公式ブログではヒアリかどうかを見分ける機械学習モデルを作った検証例が公開されています。

https://blogs.technet.microsoft.com/jpai/2017/09/14/protection-from-fire-ant-using-ai/

Azureの画像認識系のサービスには他にも、Computer Vision APIやFace APIもありますが、Microsoftが構築した機械学習モデルを使う形になります。一方、Custom Vision Serviceでは、Azureの力を借りてカスタマイズした学習モデルを作ることができます。
なお、2017年12月時点ではPreviewになっています。

今回やること

Custom Visionで画像認識させる題材を何にするか考えていたところ、コンビニで目に留まった「きのこの山」と「たけのこの里」を見分けられるのではないかとひらめいたので、検証してみます。

「きのこの山」と「たけのこの里」の画像を学習させて、見分けられるようになるでしょうか。
データの準備から、学習モデル作成、予測、APIの利用まで説明していきます。

データの準備

機械学習モデルを作成するには、学習するための元データが必要です。機械学習界隈では訓練データ(training data)と呼ばれるものです。
今回の場合は、「きのこの山」と「たけのこの里」の画像が必要です。ネットの画像検索から集めてくるやり方もありますが、今回は自前で準備します。

コンビニで「きのこの山」と「たけのこの里」を買ってきました。

パッケージを開けて、きのことたけのこを並べていきます。きのこの山、たけのこの里とも1箱にはちょうど30個入ってました。偶然なのかきっちり30個入ってるのかは別途検証したいです。
ちなみに「きのこの山」は残念ながら1本は折れていたため、今回検証用に使ったのは29本になります。

きのこの山

たけのこの里

写真を撮ったらPC上で、「きのこの山」と「たけのこの里」を1個1個切り出して保存していきます。
機械学習のためのデータ準備はこんな感じで地味な反復作業が多いです。OpenCVあたりを使えば自動切り出しもできるかもしれませんが、今回は数も多くないので手作業で地道にやっていきます。


画像のサイズや認識対象の位置は、きっとCustom Visionさんがよしなにやってくれると思うので、特にこだわらず調整はせず切り出していきます。

こんな感じで29個のきのこ、30個のたけのこの画像を切り出しました。

学習モデルの作成

学習データが準備できたのでCustom Visionで学習モデルを作っていきます。

前提としてAzureのライセンスが必要です。持ってない方は作りましょう。クレジットカードの登録が必要ですが、初回登録時は30日間、20,500円の無料枠がついています。(2017年12月時点)

まず、Custom Visionのポータルにアクセスします。

https://customvision.ai/

サインインして、新しいプロジェクトを作成します。


プロジェクト名を付けます。

「Domains」の選択肢にはfood、landmark、retailなどがあります。これらを選ぶと、モノの種類に応じた最適なモデルを作ってくれるようです。今回はどれにあてはまるか分からないのでgeneral(一般)を選びました。

できたプロジェクトを開くと、画像がアップロードできます。


訓練データのアップロードは複数ファイルをまとめてアップロードも可能です。今回はそれぞれ10枚ずつアップします。アップした画像にはタグをつけます。それぞれkinoko、takenokoというタグをつけます。


画像のアップロードとタグ付けが終わったので、いよいよ学習させます。[Train]ボタンを選択すると、10秒くらいで処理は終わりました。速いです。今回は画像サイズも小さく、画像数も各々10枚と少なかったためかと思いますが、それでもかなり速いです。
学習が終わると、モデルの作成結果が表示されます


Precisionは96%、Recallは100%とかなりよい精度が出ています。

このPrecision、Recallはそれぞれ適合率、再現率という機械学習モデルの成績を表す指標です。
適合率(Precision)は、例えば、「きのこ」と判断したもので、実際「きのこ」だったものの割合です。
再現率(Recall)は、実際に「きのこ」のもののうち、正しく「きのこ」と判断されたものの割合です。
分かりにくいですが、図にすると以下のようなイメージです。


さらに詳しく知りたいという方は、以下のサイトに詳しく解説されています。

そろそろ本気で機械学習の評価方法について学習するよ – Web就活日記

http://yut.hatenablog.com/entry/20120910/1347233734

予測

学習モデルが作れたので、予測、つまり「きのこ」か「たけのこ」か当ててみます。

右上にある[QuickTest]をクリックします。


ますは「きのこの山」画像を選んでアップロードします。
結果は100%の確率でkinoko、「きのこの山」と出ており正解です。

次に「たけのこの里」画像も試してみましたが、正解しています。

他のお菓子も試してみました。

アルフォートとコアラのマーチは、「きのこ」でも「たけのこ」でもないと正しく判断しています。
一方、コロンは「たけのこ」と判定されました。形や色が似ているため、間違ったんだと思いますが、そういうことを除けば正しく判定できてます。すごーい!

ここまでコマンド操作なし、Webブラウザだけで、1時間もかからず精度の高い「きのこの山」「たけのこの里」判定モデルを作成できました。Custom Vision、とても手軽です。

APIによる予測

Custom VisonではAPIも標準で提供されます。APIを使った予測もやってみます。
APIに画像を渡すには、インターネット上のURLを指定する方法とPOSTでデータとして渡す2通りの方法があります。

APIのURLは[PERORMANCE]タブ→[Prediction URL]から確認できます。

今回はインターネット上のURLを指定して画像を渡します。curlで以下のURLにPOSTします。

結果はJSONで返ってきます。

今回は「きのこ」の画像を投げました。kinokoである確率が99.9%と正しく予測できています。

APIの詳しい仕様やプログラミング言語ごとのサンプルコードは以下にあります。
Custom Vision Prediction PredictImageUrl
Custom Vision Prediction PredictImage

まとめ

従来は機械学習を使った画像判定モデルを作る場合は、学習データの収集、画像の調整(サイズ合わせ、トリミング、二値化など)、学習ネットワークの構築、データ学習、パラメータの調整、再評価・・・、と手数も時間もかかりました。しかしCustom Visionの登場により、画像さえあれば、誰でも、すぐに機械学習モデルを作って、活用することができます。API連携してアプリケーションと組み合わせることもすぐにできます。

今回は、それぞれ10枚という少ない画像から精度の高いモデルが作れたように見えます。しかし、実運用で使うにあたっては、画像の明るさ、見る向きなどにより期待した精度が出ない可能性もあり、訓練データを増やしたり、予測した場合の正解率を評価して、チューニングが必要かもしれません。

今回、使用した訓練データは以下のURLからダウンロードできるようにしています。この画像をもとに、Azureアカウントさえあれば、簡単に、すぐにCustom Vision Serviceを試すことができますので、ぜひともチャレンジしてみてください。

きのこ・たけのこ画像データ
http://doc.kc-cloud.jp/kinoko_takenoko.zip

最後までお読みいただきありがとうございました。

LINEで送る
Pocket