チャットプロ大幅アップデート！！v0.10登場！

機能概要

「PDFコンバータ」とは

PDFデータをAIが認識しやすいテキストデータに変換します。変換したテキストファイルを「チャットプロ」にインプットするとAIの回答精度が向上します。

PDFのような複雑な構造をもち、かつ図や表が含まれている資料はAIが正しく認識することが困難です。「PDFコンバータ」はPDFファイルを解析し、AIが認識しやすい形式で出力することができます。

サポロボ以外のAIにも活用可能

出力されたファイルは「チャットプロ」以外のRAGシステムにも使用することができますので、RAG用のデータ作成としても活用いただけます。また、Powerpoint、Word、画像ファイルなどであっても、事前にPDFに変換すれば「PDFコンバータ」を使用できます。

複雑な資料も簡単に変換

セルが結合されている表、ページをまたいでいる表、説明のない図、グラフやチャート、情報過多のプレゼン資料、手書きの資料など、これまでAIが苦手としていたファイルをワンクリックでAI認識率が高いファイルにすることができます。

セキュリティ確保

他のサポロボシリーズと同様に、全ての処理は自身のパソコン内でローカル処理されるため、情報が外部に流出する心配がありません。OCRと呼ばれる画像解析処理技術は非常に計算負荷が高いのですが、PDFコンバータは、GPU等が搭載されていない一般的なパソコンで高精度な情報抽出に成功しました。

処理結果の例

①テキストと表の混合

一般的なパワーポイント資料ですが、本文と表が混ざっている他、ヘッダーのロゴやページ番号など、RAGには不要な情報も含まれています。

（出展）https://www.mext.go.jp/content/20230525-mxt_kiso-00029966_11.pdf

PDF解析結果

テキスト変換結果

余計な装飾は除き、必要な情報のみ抽出されています。また、表の内部の結合されたセルも各セルに分割して整理されています。RAGの場合、元の資料のように複数の項目に対して1つの情報しかないと正しく情報の関係性が読み取れないため全てのセルに情報が入っていることが重要です。

②テキストと図の混合

一般的なパワーポイント資料ですが、本文と図が混ざっています。AIモデルは図を理解することが難しいため、適切な形式に変換してからAIに読み込ませると情報認識精度が向上します。

（出展）https://www.mext.go.jp/content/20230525-mxt_kiso-00029966_11.pdf

PDF解析結果

テキスト変換結果

画像を解析し、画像が意味する情報を構造的に整理してテキストに変換されています。矢印などで示されるフローチャートなどは「Mermaid」という記述方式に変換され、テキストであっても図の要素同士の関係性を適切にAIが認識することができます。

③フローチャートと数式

フローチャートは人間には分かりやすい図ですが、AIにとっては矢印の認識が難しいため、項目同士の関係性を理解することが困難です。フローチャートの意味することをAIに認識させるためには、要素を分解して整理する必要があります。また、数式も適切な表記方法に変更したほうが認識精度が向上します。

（出展）https://gakkai.sfc.keio.ac.jp/journal/.assets/SFCJ20-2-09.pdf

PDF解析結果

テキスト変換結果

フローチャートが自動的に解析され、Mermaidによるテキストデータに変換されています。この形式であればAIは適切に情報を認識することができます。また、数式もMarkdown記法に変換されたことによってAIが理解できるようになります。

④複雑なレイアウト

人間であればどの範囲が1つのグループになっているかが理解できますが、AIはこのままの状態で入力しても情報の関係性が理解できません。そのため、適切にグループ化して整理する必要があります。

（出展）https://www.digital.go.jp/assets/contents/node/basic_page/field_ref_resources/eb376409-664f-4f47-8bc9-cc95447908e4/810cf4be/20260113_meeting_ai-advisory_%20outline_04.pdf

PDF解析結果

テキスト変換結果

資料の構造を解析して、どれがタイトルで、そのタイトルに紐づいている情報がどれかを整理します。横並びと縦並びが混ざっていても、項番等の情報から自動的に並び直されています。Markdown記法でタイトルも識別しますので、このまま「チャットプロ」に入力すると自動的にAIがどれがタイトルかも認識します。

⑤複雑なレイアウト

本文の一部が2段組になっていて、かつその内部に画像が含まれているケースです。また、パンフレットのように文字の装飾も多い資料です。

（出展）https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h28/pdf/n4200000.pdf

PDF解析結果

テキスト変換結果

ヘッダー／フッター、不要な装飾、サイドの章番号などは削除されています。また、文章に囲まれた図であっても、文章を先に整理してから、その後に図を配置されています。さらに、図に含まれている情報を詳細に解析し、本文にはないイベント名や参加者名を情報として追記しています。このように画像情報をテキスト化することでデータの品質が向上します。

⑥線グラフ

グラフが入った資料の処理例です。グラフは画像のままだとAIは情報が読み取れないため、AIが認識できる数値データに変換すると認識精度の向上が期待できます。

（出展）https://www.mext.go.jp/content/20230525-mxt_kiso-00029966_11.pdf

PDF解析結果

テキスト変換結果

グラフを解析し、縦軸横軸を参照しながらグラフのプロット地点の数値を検出し表として出力されています。このような数値データにするとAIが認識可能な状態となり、グラフについて質問をした場合でも適切に回答を生成することができます。

⑦棒グラフ

棒グラフの処理例です。グラフの項目名、色が示す内容、各データの数値が記載されていますが、このままAIに入力しても情報の意味と関係性を理解することが困難です。

（出展）https://www.digital.go.jp/assets/contents/node/basic_page/field_ref_resources/eb376409-664f-4f47-8bc9-cc95447908e4/810cf4be/20260113_meeting_ai-advisory_%20outline_04.pdf

PDF解析結果

テキスト変換結果

グラフデータを解析し、各数値の意味、項目ごとの数値を認識して表に整理し直しています。これでAIは数値の意味と関係性が理解できるようになります。

⑧紙資料のスキャン

紙の資料をスキャンしたPDFファイルを処理した例です。スキャンしたデータはテキスト情報ではなく全て1枚の画像となるため、AIにとっては認識が難しいデータとなります。また、スキャンデータは解像度が悪かったり、文章が曲がったりしているため、スキャンの品質が悪いとAIの認識精度がさらに低下します。

（出展）https://www.mext.go.jp/content/19841212-mxt_uchukai01-000026358_1.pdf

PDF解析結果

テキスト変換結果

OCRという技術によってスキャン画像から文字を正確に読み取れています。元の画像は若干曲がっているのですが、問題なく認識できています。古い資料をAIのデータに活用したい場合や、レシートなどの紙資料のデータ化にも有効です。

ファイル変換の効果

ファイル変換することによるAI回答の違い

PDFファイルをそのまま「チャットプロ」に入力した場合と、「PDFコンバータ」で変換したファイルを入力した場合とで、同じ質問に対するAI回答の差を紹介します。

元のPDF資料抜粋

資料に図や表などが含まれていたり、資料のレイアウトが複雑な場合は、資料を前処理するとRAGとして使用した際に回答品質が向上します。AIは本文や図中のテキストは認識できますが、グラフの内容を理解したり、図や表全体の意味を理解することは難しいので、以下のような資料は図の情報が欠ける可能性があります。

（出展）https://www.mext.go.jp/content/20230525-mxt_kiso-00029966_11.pdf

PDFをそのまま使用した場合

質問：基盤モデルについて、内容詳細と効果について解説してください。

回答：

基盤モデルとは: 大量の多様なデータで訓練され、様々な下流タスクに適応できるAIモデルのことです。生成系AIを含む様々な用途に活用できます。開発に必要な要素:

データ: 大量かつ高品質なテキスト、画像、数字などのデータが必要です。
計算資源: モデルの学習には膨大な計算資源が必要です。
人的資源: アルゴリズムを開発・実装する研究者やエンジニアが必要です。

開発の流れ:

事前学習: 大規模コーパスを用いた「自己教師あり学習」を行います。人間によるアノテーションは不要です。
調整（Fine-tuning）: 大規模言語モデルを、人間が望む出力に近づけるために強化学習などを用いて調整します。ChatGPTはその例です。

性能向上: 基盤モデルの性能は、モデルサイズ（パラメータ数）、学習データセットの大きさ、計算量（繰り返し学習数）の3変数について、それぞれべき乗則に従って向上します。活用事例:

科学研究: 専門分野に特化したデータで訓練されたモデルや、既存の大規模言語モデルをベースにしたモデルが開発・公開されています。例えば、生命・医科学分野では新薬候補の創出加速などが期待されます。
大規模言語モデル（LLM）: GPT-3やGPT-4などが代表例です。

創発現象: 大規模言語モデルにおいて、それまでできなかったことが突然できるようになる「創発性」が観測されています。1023 FLOPsの計算量が創発性の閾値として示唆されています。学習と推論:

学習（開発）: 大量のデータをインプットとして使用し、自己教師あり学習や教師あり学習によってモデルを訓練します。
推論（利用）: 学習されたモデルを使って文章やコンテンツを生成します。プロンプト（指示文）を入力することで、目的とするアウトプットを得ることができます。

倫理的な注意点: 生成系AIは誤った情報を含む可能性があり、倫理的な判断もできません。

変換後資料を使用した場合

青色で示す箇所はグラフから、緑色で示す箇所は図から情報を読み取っていることが分かります。このように、同じ資料であっても前処理の仕方によってRAGの回答精度が向上します。

質問：基盤モデルについて、内容詳細と効果について解説してください。

回答：

基盤モデル（Foundation Model）は、「大量かつ多様なデータで訓練され、多様な下流タスクに適応できるモデル」です。

性能について: 基盤モデルの性能は、以下の3変数のべき乗則に従うと経験的に示されています。

モデルサイズ（パラメータ数）: モデルの規模が大きいほど高性能になります。
学習データセットの大きさ: 学習に使用するデータの量が多いほど高性能になります。
学習に使用した計算量（繰り返し学習数）: 学習に費やした計算量が多いほど高性能になります。

具体的な性能向上を示すグラフが提示されており、モデルサイズと学習データセットの大きさが性能向上に大きく影響することがわかります。例えば、パラメータ数が200万から1億に増加すると、Test Lossが大幅に減少する傾向が見られます。また、Dataset Size（学習データサイズ）も同様に、性能向上の要因となります。

活用例: 基盤モデルは、生成系AIを含む様々な用途に活用可能なAIを作成するために利用されます。具体的には、以下のような応用例が挙げられています。

感情分析
質問応答
翻訳
画像分類
物体検出
キャプション生成
画像からのキャプション生成
キャプションからの画像生成

科学研究への活用: 基盤モデルは、科学研究分野でも活用されています。例えば、専門分野に特化したデータで訓練されたモデルや、既存の大規模言語モデルをベースに、追加学習を行うことで、新薬候補の創出加速などが期待されます。具体的な応用例として、以下のモデルが挙げられています。

BioGPT: 生命・医科学分野における大規模言語モデル（GPT-2）をベースにしたモデルで、PubMedの文献データで追加学習されています。
AlphaFold2: アミノ酸配列からタンパク質の立体構造を予測するツールで、BERTという事前学習手法が活用されています。
MatSciBERT: 材料科学分野における大規模言語モデル（BERT）をベースにしたモデルで、材料科学論文で追加学習されています。このように、基盤モデルは、その高い汎用性と適応性から、様々な分野での応用が期待される重要な技術です。

製品について

トライアル版

準備中

製品版

有償（要問合せ）
テキスト／図／表／数式認識・抽出機能
レイアウト解析機能
画像、表、グラフ解析機能
複数ページ統合機能
入力ファイル：pdf

更新履歴

v0.1.0 (2026/2/21)

初版リリース

Google Sites

Report abuse