【AzureML】モデルカタログからWhisperを使ってみる

はじめに

Microsoft Build 2023の発表で、AzureMLのアップデートがいくつか入りました。今回はHugging Faceに登録されているモデルをエンドポイントへデプロイできる『モデルカタログ』という機能を触ってみます。

デプロイするモデルはOpenAIのWhisperを使ってみます。
untitle.png

OpenAI Whisper

WhisperはOpenAIによって訓練され、オープンソース化された自動音声認識システムです。

今回試す音声は「あんまりむずかしく考えすぎるといろいろ大変だしね、しっかり反省したらぱぱっと次行こう!」というセリフが入っています。この音声を文字起こししてみましょう。
(音声素材提供:あみたろの声素材工房 https://amitaro.net/)

まずは「デプロイ」ボタンから「リアルタイム エンドポイント」を選択します。
whisper2.png

続いてデプロイの詳細。
仮想マシンは「Standard_E8s_v3」を選択し、デプロイします。
image.png

そして約10分後…デプロイが完了しました。

image.png

今回もPythoneでAPIを叩いてみようと思います。
「使用」タブに移り、コードをコピペします。
whisper.png

そのままのコードではUnicodeエスケープシーケンスにより日本語での出力ができないので変更します。
また、音声サイトの直リンクを使うのではなく、ローカルファイルから音声データを送りたいのでそこも追加しました。

以下が編集したコードです。

ローカルの音声ファイルのパスとAPIキーを入力したら、実行してみます。
(APIキーは「使用」タブの「主キー」から取得可能)

結果はこちら

「大変だすね」になってしまっていますが…ほぼ完ぺきに文字起こしができてます!

ちなみに別の音声では一語一句違わずにできました。

感想

本来、Whisperでは翻訳もできるみたいですが、Azureの方では使い方がわかりませんでした・・・。
引き続き、調べてみます!

この記事を書いた人

azure-recipe-user