【AI入門】Azure の音声AIサービスを使って音声からテキストに変換してみた!

はじめに

AI 使ってみたいけど何からやってみようかな???
Microsoft Azure の音声サービス 【Azure Speech SDK】 を使って音声をテキスト変換を体験してみませんか?

Azure Speech SDK ではリアルタイムでの音声や音声ファイルからもテキスト変換が行えるようなので検証していきます!

今回の検証では以下の方々を想定した記事となっています。

  • これからAIを使って何かしてみたいけど何からやればいいかわからない方
  • Azure を触ったことがある方(Azureアカウントを持っている)
  • 音声サービスを試してみたい方

開発環境

Windows 10
Python 3.6
Anaconda
Azure Speech SDK

マイクから音声を認識する

1.Azureポータルにログインして、音声サービスを作成します。

https___qiita-image-store.s3.ap-northeast-1.amazonaws.com_0_63863_1402e263-8cce-8b79-bc7b-ea0f1ede2072.png

2.作成したリソースへ移動し、キーと場所をコピーしておいてください。

https___qiita-image-store.s3.ap-northeast-1.amazonaws.com_0_63863_68ff2eaf-ca4b-54ff-4871-60db6592ff8f.png

3.Python 3.6環境を作成します。

4.ライブラリをインストールします。

5.プログラムを作成します。

一度だけ音声入力して認識結果を表示するプログラムです。”YourSubscriptionKey”に先ほどコピーしたキーを, “YourServiceRegion”に先ほどコピーした場所を貼り付けてください。日本語を認識したいのでlanguageは”ja-JP”にします。

こちらは継続的に音声入力して、認識結果を表示するプログラムです。同様にキーと場所、言語の設定をお願いします。

6.下記コマンドを実行し、話しかけてみてください。

認識結果が以下のように表示されます。

https___qiita-image-store.s3.ap-northeast-1.amazonaws.com_0_63863_345b1af5-a1f1-4510-3ef5-d53c737cbcd3.png

音声ファイル(.wav)から音声を認識する
1.導入方法は上と同様にしてください。
2.プログラムを作成します。

.wavファイルを読み込み、音声認識結果を表示するプログラムです。キーと場所を設定してください。

音声ファイルはcognitive-services-speech-sdkにあるsampledata\audiofiles\aboutSpeechSdk.wavを用います。

3.下記コマンドを実行し、結果を見てみましょう。

キーと場所が正しくないと下記のようなエラーが出ます。

結果は下記のようになりました

https___qiita-image-store.s3.ap-northeast-1.amazonaws.com_0_63863_eab294e9-03f3-0a1a-bf74-9eb1e1c08bfa.png

52秒あるのですが、最初の一行を認識したら、終了してしまうようです。

4.継続的に読み込み、音声認識するためには、下記のようにします。

5.再度実行してみましょう。

下記のように継続的に音声認識できているようです!

https___qiita-image-store.s3.ap-northeast-1.amazonaws.com_0_63863_b73cf903-34b7-56db-99e8-cc0970c494cd.png

お疲れ様でした。

最後に

Azure Speech SDK を使って会議の議事録などを自動化できるかもしれないですね!
次回は少し長めの音声でどのくらいテキスト変換できるのか試してみたいと思います!
最後まで読んでいただきありがとうございました。

参考