PDFから文章単位で切り出す(ベクトル検索向け)

本記事は OpenAI活用法 Advent Calendar 2023 by ナレコム の5日目の記事です。

OpenAI活用法 Advent Calendar 2023 by ナレコム ではGPTsを含めた最新のOpenAIの活用法について紹介します。

はじめに

生成AIに対してPrivateなデータを利用して自社向けにカスタマイズして利用したいというニーズは非常に多いです。

取得拡張生成 (RAG) をしたいものの元データがPDFとなっていて、適切に分割できないということがよく課題になります。本記事ではPDFを適切な文章に分割する1つのアプローチ例を紹介します。

https://learn.microsoft.com/ja-jp/azure/search/retrieval-augmented-generation-overview

RAGとは

RAGを理解するための一つの方法は、それを「情報検索を助けとして使う賢い図書館員」と考えることです。この図書館員(RAG)は、あなたが求める情報を見つけるために、巨大な図書館(インターネットやデータベース)を探し回ります。情報を見つけたら、それをもとにして、あなたの質問に対する理解しやすく、関連性の高い回答を生成します。(GPT-4にて生成)

PDFを分割するためのアプローチ

1. 出力させるフォーマットを決める

PDFから文章を取り出すには、まず文章からどの様にデータを取り出したいかを決める必要があります。

今回は私が熊本にいることもあり、熊本県立大学の「文学部 履修の手引き」から文章の分割を試みます。

https://www.pu-kumamoto.ac.jp/academic-information/

PDFを確認すると、複数の文章のフォーマットや文章以外の表も含まれます。今回は以下のフォーマットで出力することを目指します。

ページ番号 章番号 内容
13 1 単位について 本学では、次のとおり
13 2 学期区分及び授業時間 単位とは、学修の量に

このフォーマットであれば、生成AIで検索したときにも元データの章やページ番号も出力することができ、ファクトチェックが容易となります。

2. 文章のパターンを見つける

ChatGPTのGPT-4であれば、PDFを読み込ませてその内容から希望するプログラムを作成することが可能ですが、残念ながら様々なPDFで試みましたが、PDFを適切に分割するようなプログラムを出力させることはできませんでした。

そのために、ステップ2ではPDFの内容を読み込みパターンを見つけ出すことが必要となります。

今回のケースでは、章ごとに切り出すためには概ね以下で可能なことがわかりました。

  1. 行の先頭が大文字
  2. 2文字目が半角もしくは全角スペース
  3. 20文字以内

3. プログラムの実装

上記のパターンをベースにプログラムを組みます。ここからは可能な限りChatGPTを活用しましょう。
コツとしては、元データを読み込むでしまうと、指示以上に元データを気にする傾向が高いので、PDFは読み込ませずやりたいことのみ入力してプログラムを生成します。

生成したプログラムにいくつか修正を加えたものが以下です。

実行すると、例に出した表の項目のデータを出力することができます。
あとは、出力されたデータを目視でもチェックし、問題なければベクトル検索用に使うことができます。

まとめ

どの企業でも社内規定やその他の様々な情報がPDFで保管されていると思います。Wordなどの元データがあれば、もう少し簡単にデータを取り出すことも可能ですが、元データを利用することが難しい場合の1つのアプローチ例として紹介しました。数十~数百ページのファイルであっても、ルールが統一されている場合には比較的容易に出力することが可能です。逆に、今回の様に1つのファイルの中にもいくつかのルールが混在する場合は、プログラムを利用しても分割することは難しく、十分な期間や工数を見込む必要があります。


また、ナレッジコミュニケーションでは Musubite というエンジニア同士のカジュアルトークサービスを利用しています!この記事にあるような生成AI 技術を使ったプロジェクトに携わるメンバーと直接話せるサービスですので興味がある方は是非利用を検討してください!

この記事を書いた人

azure-recipe-user