Azure Speech SDKを用いて、音声からテキストへ変換すーる

はじめに

Azure Speech SDKを用いて、音声からテキストへ変換してみます。

開発環境

  • Windows 10
  • Python 3.6
  • Anaconda
  • Azure Speech SDK

マイクから音声を認識する

1.Azureポータルにログインして、音声サービスを作成します。
image.png

2.作成したリソースへ移動し、キーと場所をコピーしておいてください。
image.png

3.Python 3.6環境を作成します。

4.ライブラリをインストールします。

5.プログラムを作成します。

一度だけ音声入力して認識結果を表示するプログラムです。”YourSubscriptionKey”に先ほどコピーしたキーを, “YourServiceRegion”に先ほどコピーした場所を貼り付けてください。日本語を認識したいのでlanguageは”ja-JP”にします。

こちらは継続的に音声入力して、認識結果を表示するプログラムです。同様にキーと場所、言語の設定をお願いします。

6.下記コマンドを実行し、話しかけてみてください。

認識結果が以下のように表示されます。
image.png

音声ファイル(.wav)から音声を認識する

1.導入方法は上と同様にしてください。

2.プログラムを作成します。

.wavファイルを読み込み、音声認識結果を表示するプログラムです。キーと場所を設定してください。

音声ファイルはcognitive-services-speech-sdkにあるsampledata\audiofiles\aboutSpeechSdk.wavを用います。

3.下記コマンドを実行し、結果を見てみましょう。

キーと場所が正しくないと下記のようなエラーが出ます。

結果は下記のようになりました。
image.png

52秒あるのですが、最初の一行を認識したら、終了してしまうようです。

4.継続的に読み込み、音声認識するためには、下記のようにします。

5.再度実行してみましょう。

下記のように継続的に音声認識できているようです!
image.png

お疲れ様でした。

参考