PDF、組版と文書変換のアンテナハウス株式会社

サイトマップ

お知らせ

2021年 6月 4日 PDF Advanced Extractor V1.0 β2版を公開しました。
2021年 3月 3日 「PDF Advanced Extractor V1.0 β版」ウェビナー開催のお知らせ [受付は終了しました] ウェビナーの動画はこちらからご視聴いただけます。
2020年10月23日 PDF Advanced Extractor V1.0 β版を公開しました。

PDFからのテキスト抽出でトラブル発生!『 PDF Advanced Extractor』が解決します!!

  • PDFからテキスト抽出すると、文字の順番がPDFの表示順と異なってしまう!
  • PDFの段組みページからテキスト抽出すると、段をまたいで文字がつながってしまう!
  • PDFの表部分からテキスト抽出すると、行と列、セルの内容がつながってしまい再利用できない!

『PDF Advanced Extractor』は、テキストデータを含むPDFファイルからテキストを抽出し、プレーンテキストに保存するためのユーティリティ・ソフトウェアです。

テキスト抽出力を更にアップ! β(ベータ)2 版配布開始!!
  • PDFファイルに欧文テキストが埋め込まれている場合は単語間のスペースを自動的に補って抽出するようにしました。
  • 欧文テキスト抽出時に行末のハイフネーションを削除するようにしました。
  • 横組・縦組で複数の段組があるPDFから自動認識でテキスト枠を作成する場合に、テキスト枠の抽出順が見た目に近く適正化されるよう改善しました。
  • 横組の段数を指定するオプションを追加し、自動認識時のテキスト抽出順をより正確に付番できるようにしました。
発売日は未定です。

製品の特長

テキストデータの範囲や順序を画面上で簡単に設定

操作画面でPDFファイルを1ページずつ確認しながら、抽出するテキストの範囲、抽出順序、テキスト中で段落を区切る箇所、画像として出力する範囲などを簡単な操作で指定できます。

画面上で指定したテキストの範囲は、指定した抽出順に従ってプレーンテキストに保存できます。また、見出し、段落についてはHTMLタグを出すこともできます。

『PDF Advanced Extractor』のGUI
『PDF Advanced Extractor』のGUI

テキスト抽出する範囲を任意に設定

PDFのページ上で、任意にテキスト抽出する範囲(テキスト枠:図の青枠部分)を設定できます。

テキスト抽出枠の設定
テキスト枠(青枠)を、外側(点線枠)へ広げているところ

テキスト抽出する順序を指定

設定したテキスト枠について、抽出する順序を指定できます。

テキスト抽出順序の設定

テキスト枠を本文と見出しに分け、HTML保存が可能

任意のテキスト枠に見出し<h1~6タグ>を設定し、HTML保存することもできます。

テキスト抽出順序の設定

指定したサイズ以下の文字を、抽出対象から除外

振り仮名や注釈文字などテキスト抽出時に不要なちいさな文字を、除外することができます。

指定したサイズ以下の文字を、抽出対象から除外

ページの自動解析機能で操作を省力化

PDF内のデータを解析してテキストや画像の範囲を認識し、自動で枠を作成できます。

ページの自動解析機能で操作を省力化

テキストデータを活用する便利な機能を多数搭載

  • newPDFファイルに欧文テキストが埋め込まれている場合は単語間のスペースを自動的に補って抽出します。
    欧文テキスト取得
  • add_circleマウス操作でテキストデータに段落区切りの指定を行うことで、プレーンテキスト保存時は段落区切りの位置に改行コードを挿入します。
    テキスト保存した段落区切り
  • add_circle画面上で指定した範囲に抽出したいテキストが適正に設定されているか、抽出処理の実行前に画面上から簡単に確認できます。
    テキストハイライト
    テキスト取得
  • add_circle柱やノンブルなど利用しないテキストが複数ページにある場合、これらを抽出対象から除外してテキスト出力を行うことができます。
  • add_circle画面上で任意の範囲(例えば写真、図表、グラフなど)を指定し、画像ファイル(JPEG/PNG/SVG)に保存できます。
  • add_circle複数ページに同一のレイアウトが連続して使用されているような場合(帳票形式のPDFなど)、任意のページでテキストや画像の範囲を設定し、別のページに一括適用できます。
  • add_circle類似のレイアウトが使用されたPDFファイルが複数ある場合、任意のPDFファイルでテキストや画像の範囲を設定してテンプレートファイルに保存し、別のPDFファイルに適用できます。
  • add_circle扱うPDFファイルが多い場合、同梱されたコマンドライン・プログラムを使うことで、あらかじめテキストや画像枠を自動で作成・保存できます。これによりGUIでの設定作業を省力化できます。
スペース