今回は、Cognitive ServicesのSpeech(音声)についてご紹介させて頂きます。
■Cognitive Servicesの概要
概要は、弊社で公開しておりますレシピがございますのでこちらをご参考ください。
「~【Language編】Azure Cognitive Servicesの価格と概要を調べてみた~1/2」
■Speech(音声)
では、本題です!
♦概要
Speech(音声)は、音声を文字に変換や誰の音声か判別ができるサービスです。
サービス(API)は以下の3つがあります。
♦Bing Speech API
・どんなAPIなの?どんなとき使うの?
このAPIは音声を認識し、様々な音声データや生の声をテキストにリアルタイムで変換できます。
「~【Language編】Azure Cognitive Servicesの価格と概要を調べてみた~1/2」
でご紹介させて頂きましたLanguage Understanding Intellingent Serviceモデルを使用するとアプリケーションによって音声をテキストへ変換するだけでなく、話し手の意図を解析して、アプリ内で“アラームの設定”などの設定ができます。
また、テキストから音声へデータとして変換されたとき、ユーザーが設定していた場合、音声を再生します。
※テキストから音声への変換、再生デモ
・価格
無料:5,000トランザクション/月
音声からテキストへ:4ドル/1000トランザクション、最大1000文字/トランザクション
認識時間(短い):4ドル/1000トランザクション、最大15秒/トランザクション
〃 (長い):10時間9ドル/時、10時間超~100時間7.5ドル/時、100時間超5.5ドル/時、最大2分/トランザクション
♦Speaker Recognition API
・どんなAPIなの?どんなとき使うの?
音声を認識させることによって話し手を照合、認証するツール。
あらかじめ音声を認識させておき、音声でだれが話し手か識別するツール。
※話し手識別
◆価格 ※プレビュー割引
無料:照合、識別の合計10,000トランザクション/月
話し手照合:0~50,000まで5ドル、50,001~100,000トランザクションまで4.5ドル、100,001~250,000トランザクションまで4ドル、250,001~500,000トランザクションまで3.5ドル、500,001トランザクション~ 3ドル(1000トランザクション毎に課金)
話し手識別:0~50,000トランザクションまで10ドル、50,001~100,000トランザクションまで9ドル、100,001~250,000トランザクションまで8ドル、250,001トランザクション以上は7ドル
♦Custom Recognition Intelligent Service(CRIS)
・どんなAPIなの?どんなとき使うの?
アプリケーションに登録されている言葉や話し方を調節、より自分に合った環境になるように音声認識、音響モデルをカスタマイズできます。
また、アプリケーションに合わせてカスタマイズした音声認識をエンドポイントにデプロイします。
◆価格
お問い合わせが必要
いかがでしたでしょうか?
最後までお読みいただきありがとうございました。
次回はKnowledge、Searchについてご紹介させていただきます!
■参考URL
Microsoft-Cognitive
Microsoft-Cognitive