Azure Cognitive Service  Speech to Text API の概要

■はじめに

こんにちは、シュガーです。
弊社ナレッジコミュニケーションは先月行われたAI・人工知能EXPOに出展してきました。出展レポートはこちらに掲載しています。
その中で、たくさんのAI活用に関するご相談をいただいたのですが、今回は音声認識「Speech to Text API」について調べてみましたのでご紹介いたします。

■概要

Speech to Text APIとは
音声をテキストデータへリアルタイムで変換してくれるサービスです。
キーボード入力なしでのQA対応や、議事録の作成、コールセンターの通話内容分析といったことができるサービスになります。

このサービスは、Windows環境はもちろんAndroidやiOSアプリにも組み込めるよう多くの言語がサポートされています。
[対応言語]
・C#
・JavaScript
・Java
・Objective-C 等

Azureの公式サイトで音声認識のデモも提供されていますので、ぜひ試してみてください。
https://azure.microsoft.com/ja-jp/services/cognitive-services/speech/
私のつたない英語でも認識してくれました。

■利用開始方法

使用するにはまずAzure Cognitive Serviceに登録し、KeyとIDを入手します。
これをアプリケーションに埋め込むことにより使用することができます。
Siriのように、アプリケーションに文字情報を引き渡すといったことができますね。

現在対応している言語は、日本語や英語を始めとして19ヶ国語に対応しています。
※英語は英語でもアメリカ英語、イギリス英語等分かれている言語もあります。
提供リージョンは2017年7月時点では米国西部のみで、JSON形式で出力されます。

また、音声認識時間は最大10分となっており、ストリーム処理が可能です。

■利用料金

利用料金は\408/1,000 トランザクション ※1トランザクション : 15秒
となっております。
例えば、コールセンターでの利用想定ですと
1回の通話を10分と仮定した場合、1回の通話で40トランザクション(600秒÷15秒)となります。100回分だと4,000トランザクションとなり、費用は1,632円になります。

■最後に

いかがでしたでしょうか。
認識した音声を別の言語に通訳したり、テキストデータへ変換した後に分析をかけ、ニーズを知るといった使い方など様々な場面で活用できそうですね。

次回もお楽しみに!

この記事を書いた人

azure-recipe-user