【AzureOpenAI】Embedding(埋め込み化)で熊本のおいしいお店を探してみた

はじめに

今回はEmbeddings(埋め込み化)をAzure OpenAIで行ってみます。

まずは、OpenAIのEmbeddingサンプルにある『fine-food reviews』を試しに使ってみます。
最後にこのサンプルを参考に、けんさむさんの熊本紹介記事を埋め込み化して熊本の行きたいお店を探してみようと思います。

環境

  • OS Windows 10(NVIDIA GTX 1650Ti,16GB RAM, i5-10300H CPU)
  • Visual Studio Code 1.73.1
  • Python 3.9

埋め込み化とは

テキストを埋め込み化すると、そのテキストの関連性を測定するというものです。
埋め込みAPIを使うことで、関連性の高い文字列の検索ができるほか、類似したテキストをグループ化するクラスタリングや、逆に関連性の低いものを検知する異常検知などもできます。

レビューを埋め込み化してみる

まずはレビューを埋め込み化して、欲しい内容を検索して取得してみます。

データセット

使っていくレビューはこちらのfine-food reviewsです。
このデータセットはAmazonの高級食材をレビューしたもので、約50万件まとめられています。

内容には、Score(5段階評価)やText(実際のレビューテキスト)、HelpfulnessNumerator(このレビューが役に立ったというユーザの数)などの項目があります。
image.png

text-embedding-ada-002を使ってみる

それではさっそく埋め込み化をします!
使うモデルはtext-embedding-ada-002です。

Azure OpenAIにtext-embedding-ada-002のモデルをデプロイしているのを前提に進めていくので、まだの人はこちらの公式サイトをご参照ください。

まずは必要なライブラリをインストール。
下記のものが必要なのでpipインストールしましょう。

そして、importやAPIの設定を行います。

APIキーやバージョンなどを入力します。

次に埋め込み化の設定をします。使用するモデル・エンコーディング・最大トークン数を次のようにしました。

続いてデータの前処理をします。
csvファイルを読み込み、columnsの選択・追加を行います。

そしてエンコーディング・埋め込み化を行います。
最大トークン数を超えるような、長いレビューはフィルタリングし、最終的に最新レビューのうち1000件を選んで埋め込みします。

生成された埋め込みは新しくembedding列に追加します。

出力された「fine_food_reviews_with_embeddings_1k_2.csv」の中身はコチラ
image.png

検索・結果

それでは検索してみます。user_queryで取得したい情報について書きます。今回は抽象的ですが、良いレビューを3つ取ってくるように設定しました。
埋め込み計算は「コサイン類似度」というものを使って埋め込みしたドキュメントとクエリの類似度を計算します。

返ってきた内容がコチラ
image.png
選ばれた3つのTextを見てみるとどれも高評価なレビューなので、きちんと求めていた結果が返ってきました。

今度はこの埋め込み化を使って、熊本のおいしいお店を検索してみます!!

けんさむさんの食レポ記事を埋め込み化してみる

熊本のおいしいお店を紹介しているけんさむさんの記事を埋め込み化し、自分の希望にマッチするお店を検索してみます。

まずは記事のURLと文章を取ってきて、csvファイルにまとめます。
image.png

そして、このcsvファイルを読み込んで、埋め込み化をします。

input_datapathに埋め込み化をするcsvファイルのパスを入力します。
これを実行したら、「sentences_with_embeddings.csv」というembedding列を加えたファイルが出力されます。

埋め込み化したら次は検索!

dfには先ほどの埋め込み化で出力された「sentences_with_embeddings.csv」のパスを入力します。また、user_queryには検索したい情報を書き込みます。

検索結果

まずは試しに「山鹿でおいしいラーメン屋はどこ?」と聞いてみました。

すると…

  1. 【麺屋仁大 におう】熊本・山鹿でおいしい豚骨ラーメンを発見!
  2. 熊本の山奥、山都町で謎に支持されている「おちかラーメン」に潜入してきた
  3. 熊本・山鹿『どさん子ラーメン』のチーズカツ定食が絶品&ボリュームMAXだ

上位3つこちらが選ばれました。
1と3についてはきちんと山鹿のラーメン屋が選ばれましたが、2番目だけは山都町の記事がヒット!!「山」だけで判断された感じですかね…?よくわかりません><

ちなみにけんさむさんの検索窓に「山鹿 ラーメン」と入力したら、『仁大』と『どさん子ラーメン』の記事がヒットしたので、今のところ埋め込み化のメリットはなんだろう?状態になってます汗。ただ、文章で聞けるのは普通の検索とは違う良いところですかね。

↓がちもとさんにも使ってもらいました!↓

今回使った検索については他にどんなものに使えるのか、用途を検討してみます…!

参考サイト

この記事を書いた人

azure-recipe-user