PDFから文章単位で切り出す（ベクトル検索向け）

投稿日 2024年1月15日
著者 azure-recipe-user
カテゴリー Azure OpenAI Service

本記事は OpenAI活用法 Advent Calendar 2023 by ナレコムの5日目の記事です。

OpenAI活用法 Advent Calendar 2023 by ナレコムではGPTsを含めた最新のOpenAIの活用法について紹介します。

はじめに

生成AIに対してPrivateなデータを利用して自社向けにカスタマイズして利用したいというニーズは非常に多いです。

取得拡張生成 (RAG) をしたいものの元データがPDFとなっていて、適切に分割できないということがよく課題になります。本記事ではPDFを適切な文章に分割する１つのアプローチ例を紹介します。

https://learn.microsoft.com/ja-jp/azure/search/retrieval-augmented-generation-overview

RAGとは

RAGを理解するための一つの方法は、それを「情報検索を助けとして使う賢い図書館員」と考えることです。この図書館員（RAG）は、あなたが求める情報を見つけるために、巨大な図書館（インターネットやデータベース）を探し回ります。情報を見つけたら、それをもとにして、あなたの質問に対する理解しやすく、関連性の高い回答を生成します。（GPT-4にて生成）

PDFを分割するためのアプローチ

1. 出力させるフォーマットを決める

PDFから文章を取り出すには、まず文章からどの様にデータを取り出したいかを決める必要があります。

今回は私が熊本にいることもあり、熊本県立大学の「文学部履修の手引き」から文章の分割を試みます。

https://www.pu-kumamoto.ac.jp/academic-information/

PDFを確認すると、複数の文章のフォーマットや文章以外の表も含まれます。今回は以下のフォーマットで出力することを目指します。

ページ番号	章番号	章	内容
13	1	単位について	本学では、次のとおり
13	2	学期区分及び授業時間	単位とは、学修の量に

このフォーマットであれば、生成AIで検索したときにも元データの章やページ番号も出力することができ、ファクトチェックが容易となります。

2. 文章のパターンを見つける

ChatGPTのGPT-4であれば、PDFを読み込ませてその内容から希望するプログラムを作成することが可能ですが、残念ながら様々なPDFで試みましたが、PDFを適切に分割するようなプログラムを出力させることはできませんでした。

そのために、ステップ２ではPDFの内容を読み込みパターンを見つけ出すことが必要となります。

今回のケースでは、章ごとに切り出すためには概ね以下で可能なことがわかりました。

行の先頭が大文字
2文字目が半角もしくは全角スペース
20文字以内

3. プログラムの実装

上記のパターンをベースにプログラムを組みます。ここからは可能な限りChatGPTを活用しましょう。
コツとしては、元データを読み込むでしまうと、指示以上に元データを気にする傾向が高いので、PDFは読み込ませずやりたいことのみ入力してプログラムを生成します。

生成したプログラムにいくつか修正を加えたものが以下です。

<span class="kn">from</span> <span class="n">PyPDF2</span> <span class="kn">import</span> <span class="n">PdfReader</span>

<span class="k">def</span> <span class="nf">custom_rstrip</span><span class="p">(</span><span class="n">string</span><span class="p">):</span>
    <span class="c1"># 半角スペースと全角スペースを除去
</span>    <span class="k">return</span> <span class="n">string</span><span class="p">.</span><span class="nf">rstrip</span><span class="p">(</span><span class="sh">'</span><span class="s"> </span><span class="se">\u3000</span><span class="sh">'</span><span class="p">)</span>

<span class="c1"># PDFファイルを読み込み、処理する
</span><span class="n">file_path</span> <span class="o">=</span> <span class="sh">'</span><span class="s">01_tebiki2023bun.pdf</span><span class="sh">'</span>
<span class="n">reader</span> <span class="o">=</span> <span class="nc">PdfReader</span><span class="p">(</span><span class="n">file_path</span><span class="p">)</span>

<span class="c1"># セクションとそのページ番号を格納するための辞書
</span><span class="n">sections_with_pages</span> <span class="o">=</span> <span class="p">{}</span>
<span class="n">current_section</span> <span class="o">=</span> <span class="sh">''</span>
<span class="n">current_page</span> <span class="o">=</span> <span class="mi">0</span>
<span class="n">current_section_number</span> <span class="o">=</span> <span class="mi">0</span>
<span class="n">section_text</span> <span class="o">=</span> <span class="sh">''</span>  <span class="c1"># セクションテキストの初期化
</span>
<span class="k">for</span> <span class="n">page</span> <span class="ow">in</span> <span class="n">reader</span><span class="p">.</span><span class="n">pages</span><span class="p">:</span>
    <span class="n">current_page</span> <span class="o">+=</span> <span class="mi">1</span>  <span class="c1"># ページ番号のインクリメント
</span>    <span class="n">page_text</span> <span class="o">=</span> <span class="n">page</span><span class="p">.</span><span class="nf">extract_text</span><span class="p">()</span>
    <span class="k">if</span> <span class="n">page_text</span><span class="p">:</span>
        <span class="k">for</span> <span class="n">line</span> <span class="ow">in</span> <span class="n">page_text</span><span class="p">.</span><span class="nf">split</span><span class="p">(</span><span class="sh">'</span><span class="se">\n</span><span class="sh">'</span><span class="p">):</span>
            <span class="c1"># 行が全角数字で始まるかチェック
</span>            <span class="k">if</span> <span class="n">line</span> <span class="ow">and</span> <span class="sh">'</span><span class="se">\uff10</span><span class="sh">'</span> <span class="o">&lt;=</span> <span class="n">line</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="sh">'</span><span class="se">\uff19</span><span class="sh">'</span> <span class="ow">and</span> <span class="n">line</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="ow">in</span> <span class="p">[</span><span class="sh">'</span><span class="se">\u3000</span><span class="sh">'</span><span class="p">,</span> <span class="sh">'</span><span class="s"> </span><span class="sh">'</span><span class="p">]:</span>
                <span class="k">try</span><span class="p">:</span>
                    <span class="c1"># 新しいセクションの開始
</span>                    <span class="n">current_section_name</span> <span class="o">=</span> <span class="nf">custom_rstrip</span><span class="p">(</span><span class="n">line</span><span class="p">[</span><span class="mi">2</span><span class="p">:])</span>
                    <span class="nf">if </span><span class="p">(</span><span class="sh">"</span><span class="s">、</span><span class="sh">"</span> <span class="ow">in</span> <span class="n">current_section_name</span> <span class="ow">or</span> <span class="sh">"</span><span class="s">。</span><span class="sh">"</span> <span class="ow">in</span> <span class="n">current_section_name</span><span class="p">)</span> <span class="ow">or</span> <span class="nf">len</span><span class="p">(</span><span class="n">current_section_name</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">15</span><span class="p">:</span>
                        <span class="c1"># セクション名の条件に一致する場合、テキストを追加
</span>                        <span class="n">section_text</span> <span class="o">+=</span> <span class="n">line</span> <span class="o">+</span> <span class="sh">'</span><span class="se">\n</span><span class="sh">'</span>
                    <span class="k">else</span><span class="p">:</span>
                        <span class="k">if</span> <span class="n">current_section</span><span class="p">:</span>
                            <span class="n">current_section_number</span> <span class="o">+=</span> <span class="mi">1</span>
                            <span class="c1"># 前のセクションを保存
</span>                            <span class="n">sections_with_pages</span><span class="p">[</span><span class="n">current_section_number</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="n">start_page</span><span class="p">,</span> <span class="n">current_section</span><span class="p">,</span> <span class="n">current_section_name</span><span class="p">,</span> <span class="n">section_text</span><span class="p">.</span><span class="nf">replace</span><span class="p">(</span><span class="sh">"</span><span class="se">\n</span><span class="sh">"</span><span class="p">,</span> <span class="sh">""</span><span class="p">))</span>
                        
                        <span class="n">current_section</span> <span class="o">=</span> <span class="n">line</span><span class="p">.</span><span class="nf">split</span><span class="p">()[</span><span class="mi">0</span><span class="p">]</span>  <span class="c1"># セクション名を抽出
</span>                        <span class="n">start_page</span> <span class="o">=</span> <span class="n">current_page</span>
                        <span class="n">section_text</span> <span class="o">=</span> <span class="sh">''</span>
                <span class="k">except</span> <span class="nb">IndexError</span><span class="p">:</span>
                    <span class="k">continue</span>  <span class="c1"># セクション名が存在しない場合は次の行へ
</span>            <span class="k">else</span><span class="p">:</span>
                <span class="c1"># 現在のセクションにテキストを追加
</span>                <span class="n">section_text</span> <span class="o">+=</span> <span class="n">line</span> <span class="o">+</span> <span class="sh">'</span><span class="se">\n</span><span class="sh">'</span>

<span class="c1"># 最初の数セクションを表示
</span><span class="nf">list</span><span class="p">(</span><span class="n">sections_with_pages</span><span class="p">.</span><span class="nf">items</span><span class="p">())</span>

				
					
				1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48

						<span class="kn">from</span> <span class="n">PyPDF2</span> <span class="kn">import</span> <span class="n">PdfReader</span>
 
<span class="k">def</span> <span class="nf">custom_rstrip</span><span class="p">(</span><span class="n">string</span><span class="p">):</span>
    <span class="c1"># 半角スペースと全角スペースを除去
</span>    <span class="k">return</span> <span class="n">string</span><span class="p">.</span><span class="nf">rstrip</span><span class="p">(</span><span class="sh">'</span><span class="s"> </span><span class="se">\u3000</span><span class="sh">'</span><span class="p">)</span>
 
<span class="c1"># PDFファイルを読み込み、処理する
</span><span class="n">file_path</span> <span class="o">=</span> <span class="sh">'</span><span class="s">01_tebiki2023bun.pdf</span><span class="sh">'</span>
<span class="n">reader</span> <span class="o">=</span> <span class="nc">PdfReader</span><span class="p">(</span><span class="n">file_path</span><span class="p">)</span>
 
<span class="c1"># セクションとそのページ番号を格納するための辞書
</span><span class="n">sections_with_pages</span> <span class="o">=</span> <span class="p">{}</span>
<span class="n">current_section</span> <span class="o">=</span> <span class="sh">''</span>
<span class="n">current_page</span> <span class="o">=</span> <span class="mi">0</span>
<span class="n">current_section_number</span> <span class="o">=</span> <span class="mi">0</span>
<span class="n">section_text</span> <span class="o">=</span> <span class="sh">''</span>  <span class="c1"># セクションテキストの初期化
</span>
<span class="k">for</span> <span class="n">page</span> <span class="ow">in</span> <span class="n">reader</span><span class="p">.</span><span class="n">pages</span><span class="p">:</span>
    <span class="n">current_page</span> <span class="o">+=</span> <span class="mi">1</span>  <span class="c1"># ページ番号のインクリメント
</span>    <span class="n">page_text</span> <span class="o">=</span> <span class="n">page</span><span class="p">.</span><span class="nf">extract_text</span><span class="p">()</span>
    <span class="k">if</span> <span class="n">page_text</span><span class="p">:</span>
        <span class="k">for</span> <span class="n">line</span> <span class="ow">in</span> <span class="n">page_text</span><span class="p">.</span><span class="nf">split</span><span class="p">(</span><span class="sh">'</span><span class="se">\n</span><span class="sh">'</span><span class="p">):</span>
            <span class="c1"># 行が全角数字で始まるかチェック
</span>            <span class="k">if</span> <span class="n">line</span> <span class="ow">and</span> <span class="sh">'</span><span class="se">\uff10</span><span class="sh">'</span> <span class="o">&lt;=</span> <span class="n">line</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="sh">'</span><span class="se">\uff19</span><span class="sh">'</span> <span class="ow">and</span> <span class="n">line</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="ow">in</span> <span class="p">[</span><span class="sh">'</span><span class="se">\u3000</span><span class="sh">'</span><span class="p">,</span> <span class="sh">'</span><span class="s"> </span><span class="sh">'</span><span class="p">]:</span>
                <span class="k">try</span><span class="p">:</span>
                    <span class="c1"># 新しいセクションの開始
</span>                    <span class="n">current_section_name</span> <span class="o">=</span> <span class="nf">custom_rstrip</span><span class="p">(</span><span class="n">line</span><span class="p">[</span><span class="mi">2</span><span class="p">:])</span>
                    <span class="nf">if </span><span class="p">(</span><span class="sh">"</span><span class="s">、</span><span class="sh">"</span> <span class="ow">in</span> <span class="n">current_section_name</span> <span class="ow">or</span> <span class="sh">"</span><span class="s">。</span><span class="sh">"</span> <span class="ow">in</span> <span class="n">current_section_name</span><span class="p">)</span> <span class="ow">or</span> <span class="nf">len</span><span class="p">(</span><span class="n">current_section_name</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">15</span><span class="p">:</span>
                        <span class="c1"># セクション名の条件に一致する場合、テキストを追加
</span>                        <span class="n">section_text</span> <span class="o">+=</span> <span class="n">line</span> <span class="o">+</span> <span class="sh">'</span><span class="se">\n</span><span class="sh">'</span>
                    <span class="k">else</span><span class="p">:</span>
                        <span class="k">if</span> <span class="n">current_section</span><span class="p">:</span>
                            <span class="n">current_section_number</span> <span class="o">+=</span> <span class="mi">1</span>
                            <span class="c1"># 前のセクションを保存
</span>                            <span class="n">sections_with_pages</span><span class="p">[</span><span class="n">current_section_number</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="n">start_page</span><span class="p">,</span> <span class="n">current_section</span><span class="p">,</span> <span class="n">current_section_name</span><span class="p">,</span> <span class="n">section_text</span><span class="p">.</span><span class="nf">replace</span><span class="p">(</span><span class="sh">"</span><span class="se">\n</span><span class="sh">"</span><span class="p">,</span> <span class="sh">""</span><span class="p">))</span>
                        
                        <span class="n">current_section</span> <span class="o">=</span> <span class="n">line</span><span class="p">.</span><span class="nf">split</span><span class="p">()[</span><span class="mi">0</span><span class="p">]</span>  <span class="c1"># セクション名を抽出
</span>                        <span class="n">start_page</span> <span class="o">=</span> <span class="n">current_page</span>
                        <span class="n">section_text</span> <span class="o">=</span> <span class="sh">''</span>
                <span class="k">except</span> <span class="nb">IndexError</span><span class="p">:</span>
                    <span class="k">continue</span>  <span class="c1"># セクション名が存在しない場合は次の行へ
</span>            <span class="k">else</span><span class="p">:</span>
                <span class="c1"># 現在のセクションにテキストを追加
</span>                <span class="n">section_text</span> <span class="o">+=</span> <span class="n">line</span> <span class="o">+</span> <span class="sh">'</span><span class="se">\n</span><span class="sh">'</span>
 
<span class="c1"># 最初の数セクションを表示
</span><span class="nf">list</span><span class="p">(</span><span class="n">sections_with_pages</span><span class="p">.</span><span class="nf">items</span><span class="p">())</span>
 

					

			

実行すると、例に出した表の項目のデータを出力することができます。
あとは、出力されたデータを目視でもチェックし、問題なければベクトル検索用に使うことができます。

まとめ

どの企業でも社内規定やその他の様々な情報がPDFで保管されていると思います。Wordなどの元データがあれば、もう少し簡単にデータを取り出すことも可能ですが、元データを利用することが難しい場合の１つのアプローチ例として紹介しました。数十～数百ページのファイルであっても、ルールが統一されている場合には比較的容易に出力することが可能です。逆に、今回の様に１つのファイルの中にもいくつかのルールが混在する場合は、プログラムを利用しても分割することは難しく、十分な期間や工数を見込む必要があります。

また、ナレッジコミュニケーションでは 「Musubite」 というエンジニア同士のカジュアルトークサービスを利用しています！この記事にあるような生成AI 技術を使ったプロジェクトに携わるメンバーと直接話せるサービスですので興味がある方は是非利用を検討してください！

この記事を書いた人

azure-recipe-user

記事一覧

PDFから文章単位で切り出す（ベクトル検索向け）

はじめに

RAGとは

PDFを分割するためのアプローチ

1. 出力させるフォーマットを決める

2. 文章のパターンを見つける

3. プログラムの実装

まとめ

この記事を書いた人

azure-recipe-user

GitHub Copilotを超える！GitHub×OpenAI 実践編：効率的なコード開発のステップバイステップガイド

VSCodeでAzure OpenAI ServiceのChatGPT拡張機能を使ってコードレビューやバグ発見をしよう

Azure OpenAI Whisperで数時間の動画ファイルから文字起こしをする

超初心者向け、ChatGPTを使った英会話の始め方