新製品!!RAG用PDFファイルコンバータ登場!!
PDFデータをAIが認識しやすいテキストデータに変換します。変換したテキストファイルを「チャットプロ」にインプットするとAIの回答精度が向上します。
PDFのような複雑な構造をもち、かつ図や表が含まれている資料はAIが正しく認識することが困難です。「PDFコンバータ」はPDFファイルを解析し、AIが認識しやすい形式で出力することができます。
出力されたファイルは「チャットプロ」以外のRAGシステムにも使用することができますので、RAG用のデータ作成としても活用いただけます。また、Powerpoint、Word、画像ファイルなどであっても、事前にPDFに変換すれば「PDFコンバータ」を使用できます。
セルが結合されている表、ページをまたいでいる表、説明のない図、グラフやチャート、情報過多のプレゼン資料、手書きの資料など、これまでAIが苦手としていたファイルをワンクリックでAI認識率が高いファイルにすることができます。
他のサポロボシリーズと同様に、全ての処理は自身のパソコン内でローカル処理されるため、情報が外部に流出する心配がありません。OCRと呼ばれる画像解析処理技術は非常に計算負荷が高いのですが、PDFコンバータは、GPU等が搭載されていない一般的なパソコンで高精度な情報抽出に成功しました。
一般的なパワーポイント資料ですが、本文と表が混ざっている他、ヘッダーのロゴやページ番号など、RAGには不要な情報も含まれています。
余計な装飾は除き、必要な情報のみ抽出されています。また、表の内部の結合されたセルも各セルに分割して整理されています。RAGの場合、元の資料のように複数の項目に対して1つの情報しかないと正しく情報の関係性が読み取れないため全てのセルに情報が入っていることが重要です。
一般的なパワーポイント資料ですが、本文と図が混ざっています。AIモデルは図を理解することが難しいため、適切な形式に変換してからAIに読み込ませると情報認識精度が向上します。
画像を解析し、画像が意味する情報を構造的に整理してテキストに変換されています。矢印などで示されるフローチャートなどは「Mermaid」という記述方式に変換され、テキストであっても図の要素同士の関係性を適切にAIが認識することができます。
フローチャートは人間には分かりやすい図ですが、AIにとっては矢印の認識が難しいため、項目同士の関係性を理解することが困難です。フローチャートの意味することをAIに認識させるためには、要素を分解して整理する必要があります。また、数式も適切な表記方法に変更したほうが認識精度が向上します。
フローチャートが自動的に解析され、Mermaidによるテキストデータに変換されています。この形式であればAIは適切に情報を認識することができます。また、数式もMarkdown記法に変換されたことによってAIが理解できるようになります。
人間であればどの範囲が1つのグループになっているかが理解できますが、AIはこのままの状態で入力しても情報の関係性が理解できません。そのため、適切にグループ化して整理する必要があります。
資料の構造を解析して、どれがタイトルで、そのタイトルに紐づいている情報がどれかを整理します。横並びと縦並びが混ざっていても、項番等の情報から自動的に並び直されています。Markdown記法でタイトルも識別しますので、このまま「チャットプロ」に入力すると自動的にAIがどれがタイトルかも認識します。
本文の一部が2段組になっていて、かつその内部に画像が含まれているケースです。また、パンフレットのように文字の装飾も多い資料です。
ヘッダー/フッター、不要な装飾、サイドの章番号などは削除されています。また、文章に囲まれた図であっても、文章を先に整理してから、その後に図を配置されています。さらに、図に含まれている情報を詳細に解析し、本文にはないイベント名や参加者名を情報として追記しています。このように画像情報をテキスト化することでデータの品質が向上します。
グラフが入った資料の処理例です。グラフは画像のままだとAIは情報が読み取れないため、AIが認識できる数値データに変換すると認識精度の向上が期待できます。
グラフを解析し、縦軸横軸を参照しながらグラフのプロット地点の数値を検出し表として出力されています。このような数値データにするとAIが認識可能な状態となり、グラフについて質問をした場合でも適切に回答を生成することができます。
棒グラフの処理例です。グラフの項目名、色が示す内容、各データの数値が記載されていますが、このままAIに入力しても情報の意味と関係性を理解することが困難です。
グラフデータを解析し、各数値の意味、項目ごとの数値を認識して表に整理し直しています。これでAIは数値の意味と関係性が理解できるようになります。
紙の資料をスキャンしたPDFファイルを処理した例です。スキャンしたデータはテキスト情報ではなく全て1枚の画像となるため、AIにとっては認識が難しいデータとなります。また、スキャンデータは解像度が悪かったり、文章が曲がったりしているため、スキャンの品質が悪いとAIの認識精度がさらに低下します。
OCRという技術によってスキャン画像から文字を正確に読み取れています。元の画像は若干曲がっているのですが、問題なく認識できています。古い資料をAIのデータに活用したい場合や、レシートなどの紙資料のデータ化にも有効です。
PDFファイルをそのまま「チャットプロ」に入力した場合と、「PDFコンバータ」で変換したファイルを入力した場合とで、同じ質問に対するAI回答の差を紹介します。
資料に図や表などが含まれていたり、資料のレイアウトが複雑な場合は、資料を前処理するとRAGとして使用した際に回答品質が向上します。AIは本文や図中のテキストは認識できますが、グラフの内容を理解したり、図や表全体の意味を理解することは難しいので、以下のような資料は図の情報が欠ける可能性があります。
青色で示す箇所はグラフから、緑色で示す箇所は図から情報を読み取っていることが分かります。このように、同じ資料であっても前処理の仕方によってRAGの回答精度が向上します。
基盤モデル(Foundation Model)は、「大量かつ多様なデータで訓練され、多様な下流タスクに適応できるモデル」です。
性能について: 基盤モデルの性能は、以下の3変数のべき乗則に従うと経験的に示されています。
モデルサイズ(パラメータ数): モデルの規模が大きいほど高性能になります。
学習データセットの大きさ: 学習に使用するデータの量が多いほど高性能になります。
学習に使用した計算量(繰り返し学習数): 学習に費やした計算量が多いほど高性能になります。
具体的な性能向上を示すグラフが提示されており、モデルサイズと学習データセットの大きさが性能向上に大きく影響することがわかります。例えば、パラメータ数が200万から1億に増加すると、Test Lossが大幅に減少する傾向が見られます。また、Dataset Size(学習データサイズ)も同様に、性能向上の要因となります。
活用例: 基盤モデルは、生成系AIを含む様々な用途に活用可能なAIを作成するために利用されます。具体的には、以下のような応用例が挙げられています。
感情分析
質問応答
翻訳
画像分類
物体検出
キャプション生成
画像からのキャプション生成
キャプションからの画像生成
科学研究への活用: 基盤モデルは、科学研究分野でも活用されています。例えば、専門分野に特化したデータで訓練されたモデルや、既存の大規模言語モデルをベースに、追加学習を行うことで、新薬候補の創出加速などが期待されます。具体的な応用例として、以下のモデルが挙げられています。
BioGPT: 生命・医科学分野における大規模言語モデル(GPT-2)をベースにしたモデルで、PubMedの文献データで追加学習されています。
AlphaFold2: アミノ酸配列からタンパク質の立体構造を予測するツールで、BERTという事前学習手法が活用されています。
MatSciBERT: 材料科学分野における大規模言語モデル(BERT)をベースにしたモデルで、材料科学論文で追加学習されています。このように、基盤モデルは、その高い汎用性と適応性から、様々な分野での応用が期待される重要な技術です。
準備中
有償(要問合せ)
テキスト/図/表/数式認識・抽出機能
レイアウト解析機能
画像、表、グラフ解析機能
複数ページ統合機能
入力ファイル:pdf