Image Analysis クライアント SDK を使ってリモート画像を解析してみた

はじめに

Image Analysis クライアント SDK を使ってリモート画像を解析してみました。
Microsoftのクイックスタート: Image Analysis 4.0の内容になります。

実装

Computer Visionリソースの作成

Azure PortalでComputer Vision を作成します。

記事投稿用 (14).png

環境変数の設定

.envファイルを作成し、Computer VisionのAPIキーとエンドポイントを設定します。

.env

APIキーとエンドポイントは、先ほど作ったComputer Visionリソースのページから確認できます。

1.png

Pythonファイルの実行

クイックスタート: Image Analysis 4.0のコードを実行します。(以下のコードには簡単な解説をコメントで入れています。)

解析に使う画像は、クイックスタートで使われているものと同じこちらの画像です。

test.py

実行結果は以下の通りです。

Caption部分では、画像のキャプションが生成されていることが分かります。Text部分は画像にあるテキストが行単位と単語単位で検出されていることが分かります。また、行や単語を囲む四角形の座標を示すBounding polygonや、行や単語のテキストの識別に関する確信度のスコアを示すConfidenceも含まれています。

おわりに

Image Analysis クライアント SDK を使ってリモート画像を解析してみました。想像以上に文字が正しく抽出されていたので驚きました。他の画像分析AIと比較してみたいです。

最後までお読みいただき、ありがとうございました!
以下のXでも情報を発信しています!

参考文献

https://learn.microsoft.com/ja-jp/azure/ai-services/computer-vision/quickstarts-sdk/image-analysis-client-library-40?tabs=visual-studio%2Cwindows&pivots=programming-language-python

 

この記事を書いた人

azure-recipe-user