Computer Vision APIのラベル検出について検証してみました

こんにちは HEROです。
今回は前Amazon Rekognitionで試した画像と全く同じものを、Microsoftが提供する画像分析「Computer Vision API」を使って検証を実施してみます。

Computer Vision API 画像の分析

Computer Vision APIはこちらのURLから画像を指定するだけで気軽に試すことができます。
タグ付け、説明はもちろんAmazon Rekognitionと同様に成人向けかどうかといった項目が検出できます。
実査に取得できる項目は下記です。
■項目名
説明(画像の説明)
タグ
画像形式(Jpegなど)
画像サイズ
クリップ アートの種類
線画の種類
モノクロ
成人向けコンテンツ
成人スコア
わいせつ性
わいせつスコア
カテゴリ

背景のドミナント カラー
前景のドミナント カラー
アクセント カラー

日本語で表記される分直接的ですね。
早速前回の画像を試してみます。

試してみた

今回はAmazon Rekognitionと同様の「風景」「人物」「ネタ画像」といった題材で試しました。

■風景
風景で使った画像はコチラです。

Amazon Rekognitionでは完全に風景と認識され風景と認識されたこの顔。Computer Vision APIではどうでるか。

・結果
説明 { “tags”: [ “outdoor”, “grass”, “green”, “building”, “front”, “water”, “sitting”, “bench”, “man”, “garden”, “large”, “old”, “standing”, “field”, “yellow”, “white”, “brick”, “hydrant”, “riding”, “sheep”, “phone” ], “captions”: [ { “text”: “a large brick building with green grass”, “confidence”: 0.4514739 } ] }
タグ [ { “name”: “outdoor”, “confidence”: 0.9840986 }, { “name”: “grass”, “confidence”: 0.9779484 }, { “name”: “green”, “confidence”: 0.8227957 } ]
画像形式 “Jpeg”
画像サイズ 601 x 900
クリップ アートの種類 0
線画の種類 0
モノクロ false
成人向けコンテンツ false
成人スコア 0.00765970955
わいせつ性 false
わいせつスコア 0.009627012
カテゴリ [ { “name”: “outdoor_”, “score”: 0.0078125 } ]
顔 []
背景のドミナント カラー “White”
前景のドミナント カラー “White”

Amazon Rekognition では人間とは認識されませんでしたが説明の値を見てみると「man」がありますね。
「hydrant”(消化器)」は水を参照してるのでしょうか。電話もきになるところ。

■人物
次は人物の画像で試してみます。

あごひげが特徴的ではありますがそれ以外は至って普通の男性。

・結果
説明 { “tags”: [ “person”, “man”, “indoor”, “clothing”, “looking”, “front”, “shirt”, “holding”, “young”, “wearing”, “standing”, “laptop”, “black”, “glasses”, “sitting”, “hand”, “computer”, “suit”, “large”, “white”, “red” ], “captions”: [ { “text”: “a man wearing a black shirt”, “confidence”: 0.908824146 } ] }
タグ [ { “name”: “person”, “confidence”: 0.9991584 }, { “name”: “man”, “confidence”: 0.9983223 }, { “name”: “indoor”, “confidence”: 0.86834836 }, { “name”: “shirt”, “confidence”: 0.680425167 }, { “name”: “hairpiece”, “confidence”: 0.484340459 }, { “name”: “male”, “confidence”: 0.2009881 }, { “name”: “staring”, “confidence”: 0.164418563 } ]
画像形式 “Jpeg”
画像サイズ 1066 x 1600
クリップ アートの種類 0
線画の種類 0
モノクロ false
成人向けコンテンツ false
成人スコア 0.009486241
わいせつ性 false
わいせつスコア 0.012859432
カテゴリ [ { “name”: “people_”, “score”: 0.41015625 }, { “name”: “people_portrait”, “score”: 0.5 } ]
顔 [ { “age”: 30, “gender”: “Male”, “faceRectangle”: { “top”: 293, “left”: 733, “width”: 418, “height”: 418 } } ]
背景のドミナント カラー “White”
前景のドミナント カラー “White”

「Confidence」は自信の意味もあります。個人的にはドヤ顔判断されたのだと思っています。
着物は襟のせいかスーツと判断されてますね、着物自体が学習されてないのかも?

■ネタ画像
最後はネタ画像で試してみます。

・結果
特徴名: 値
説明 { “tags”: [ “person”, “cabinet”, “food”, “indoor”, “table”, “kitchen”, “young”, “eating”, “holding”, “little”, “piece”, “plate”, “boy”, “child”, “front”, “sitting”, “small”, “standing”, “bowl”, “man”, “black”, “girl”, “shirt”, “cake”, “pizza”, “woman”, “wearing”, “blue”, “large”, “pan”, “phone” ], “captions”: [ { “text”: “a little boy that is eating some food”, “confidence”: 0.3904171 } ] }
タグ [ { “name”: “person”, “confidence”: 0.99983263 }, { “name”: “food”, “confidence”: 0.973695159 }, { “name”: “indoor”, “confidence”: 0.9605642 } ]
画像形式 “Jpeg”
画像サイズ 1201 x 800
クリップ アートの種類 0
線画の種類 0
モノクロ false
成人向けコンテンツ false
成人スコア 0.0378277674
わいせつ性 false
わいせつスコア 0.044602
カテゴリ [ { “name”: “people_”, “score”: 0.63671875 } ]
顔 [ { “age”: 24, “gender”: “Male”, “faceRectangle”: { “top”: 334, “left”: 438, “width”: 186, “height”: 186 } } ]
背景のドミナント カラー “Brown”
前景のドミナント カラー “Brown”
アクセント カラー #9D9B2E

結果では「boy」「man」「girl」「woman」など男女どちらとも判断できないようです。これはAmazon Rekognitionも同様ですね。

まとめ

個人的にはComputer Vision APIの方が画像の指定も簡単かつ結果も詳細がでてくるといった印象です。
ただ人間の認証はどちらもまだまだ精度をあげられそうな印象ですね。
人間の判断でも難しいところがあるので、これからのAIの進化に期待したいですね。

次回もお楽しみに!!

この記事を書いた人

azure-recipe-user