Cognitive Services: OCR機能で名刺読み取りプログラムを作ってみた

Michaelです。
今回は、Microsoft Cognitive ServicesのComputer Vision APIで利用できるOCR機能を使って名刺読み取りプログラムを作ってみました。

名刺のデータ化について

お客様との打ち合わせや展示会に参加すると必ず交換される「名刺」ですが、SFAやCRMで管理するために、貰った名刺をデータ化する必要があります。今では、名刺読み取り専用のスキャナーやスマートフォンアプリが販売されており、名刺を簡単にデータ化できますが、そういったツールを持たなければ手入力で名刺の内容を打ち込まなければなりません。
それこそ、数百枚単位で名刺が交換される展示会の後では、名刺のデータ化だけで結構な時間をとられてしまうことも多いのではないでしょうか。
この悩みをCognitive ServicesのOCR機能で解決してみたいと思います。

名刺読み取りのアルゴリズム

名刺は各社でフォーマットが異なり、氏名、会社名等の配置が異なるため、読み取りは難しいようにも見えますが、名刺を見ていると一定の法則性があることがわかります。

・名刺の法則性

項目
会社名 会社名の行にはほぼ「会社」の単語が入る。(「株式会社」、「有限会社」等)
氏名 フォントサイズは「企業ロゴ」、「氏名」、「会社名」の順で大きい傾向にあり、行の高さ上位3位には「氏名」が入る
電話番号 行に「Tel」、「Phone」、「電話」、「直通」のいずれかが入っている
Fax番号 行に「Fax」の単語が必ず入る。
電話番号とFax番号は同じ行になることが多いが、Fax番号が電話番号より前に記載されることはない
住所 ほとんどの場合で、都道府県名が入る。
入らない場合も県庁所在地など、一目で都道府県がわかるものが多い。

E-mail 必ず「@」が入る。
URL 「http」、「www」のいずれかは必ず入る

Computer Vision APIのOCR機能では、行単位とテキストと、テキストエリアの大きさを取得できるため、名刺の各行について法則性に基づいたデータ抽出を行えば、必要な情報を取得できると考えられます。

名刺読み取り機能の作成

上述の法則性を基に名刺読み取りのスクリプトを作成してみました。
基本的に画像から読み取ったテキスト行に特定の単語が含まれるかどうかを判定するだけのため、Computer Vision APIのレスポンス形式がわかっていれば1日もかからず作成できてしまいます。
(Computer Vision APIについては「Cognitive Services: OCR機能で印刷物の写真からテキストのデータ化をしてみる」もご参考ください)

都道府県、県庁所在地を取得するための「prefecture.json」も単に都道府県名と県庁所在地名をJSON形式の配列で保存しているだけで、簡単に作成できます。

・sample.py

・prefecture.json

上記コードで、以下のサンプルの名刺画像から情報を取得してみました。

・入力画像

上の名刺画像を読み取った結果、見込み通りに必要なデータを取得できていました。
部分的にハイフンが長音記号になっているところがありますが、簡単な手直しで済み、1枚2秒程度で処理できるため、手入力に比べてはるかに効率的にデータ化ができそうです。

・読み取り結果

name0 田中太郎
name1 節owled
name2 ommunrcatton
fax .047-700-5005
tel tel.047ー397ー8897
url http//www.knowledgecommunication.jp
company 株式会社ナレッジコミュニケーション
address 〒272ー0143千葉県市川市相之川3ー13ー23丸伝小川ビル3F
mail E-mail:t-tanaka@knowledgecommunication.jp

今回は、Computer Vision APIのOCR機能を使用して名刺読み取りプログラムを作成してみましたが、簡単なスクリプトでも案外良好に名刺のデータ化をすることができました。

サンプルでは、名刺の画像で試していますが、いくつか実際の名刺の写真で試してみても同様にデータ化ができており、完全ではないにせよデータ入力のサポートになるものには仕上がっているように思いました。
今回は名刺でしたが、フォーマットや規則さえ分かっていれば他の紙ベースの文書にも適応できるので、ぜひ試してみてください。
次回もお楽しみに。

この記事を書いた人

azure-recipe-user