PDF、組版と文書変換のアンテナハウス株式会社

サイトマップ

PDF Advanced Extractor 機能紹介

テキスト枠の作成と編集

本製品はPDFを表示しているページにテキスト・画像の抽出範囲(以降、「枠」)を作成するため、以下の2つの方法を提供します。

ページの自動認識
表示しているページからテキストデータや画像データの範囲を認識し、対応する枠を自動で作成・表示します。
手動によるテキスト枠、画像枠の作成
  • 本文、表、見出し(見出しレベル1~6)、画像(画像として保存したい範囲)の各枠を、それぞれ設定できます。
  • 本文枠には、枠内のテキストについて段落を設定(段落区切り)できます。また、枠内のテキストは自由に編集することが可能です。
  • 表枠は、本文枠の一種という位置づけで、本文枠を作成後に種類を変更して指定します。枠内のテキストはCSV形式で表示・編集できます。
  • テキスト編集時は、[Enter]キーを使用してテキスト間に改行を指定できます。編集内容及び改行位置は、プレーンテキストまたはHTMLタグ付きテキスト出力時に反映できます。
  • また、画像は保存形式をPNG、JPEG、SVGから選択できます。

テキスト抽出

テキスト抽出時は、以下の指定が可能です。

抽出順序指定
ページ単位で、テキスト枠・画像枠の抽出順序を自動または手動で指定できます。指定により、複雑な構成のページから任意の順序でテキスト、画像を抽出できます。
指定漏れチェック
設定したテキスト枠の枠内に抽出対象となる文字列が収まっているか(ハイライト)、文字がテキストとして取得できているかを抽出実行前に確認できます。
HTML/(プレーン)テキスト保存
抽出設定した本文、表、画像の各枠を、プレーンテキストまたはHTML形式で指定して保存できます。
抽出ページ範囲の設定
テキスト・画像抽出時に、抽出対象とするページ範囲を1ページ単位で指定できます。

コマンドライン・プログラム

コマンドライン・プログラムは、Windowsのコマンドプロンプトを使用してPDFの全ページを自動認識し、テキスト範囲を作成して抽出情報ファイル(*.ipex)に保存します。保存したファイルをGUIプログラムで開いて利用します。

テキスト抽出したいPDFファイルが大量にある場合やページ数の多いPDFを対象にする場合、事前にテキスト枠を自動作成しておくことで、GUIによる編集作業を省力化することができます。

その他

オプション設定
文字を自動認識する際、言語(日本語 or 英語)、横組の段数、や画像の解像度(DPI値)、ページの回転補正などを予め定めておくことができます。
テキスト(本文)枠の段落区切り設定
連続したテキストデータを区切る(段落を作る)オブジェクトを配置します。オプション設定では、前後のテキスト(本文)枠単位で段落を作るかどうか決めることができます。これは、プレーンテキストで保存した時、改行として表現されますが、HTML形式で保存されると、<p>~</p>で表されます。
段落区切りの設定
抽出対象設定のテンプレート化
PDFの各ページに指定したテキスト枠(本文/表/見出し)・画像枠の位置や抽出順序、段落区切り位置などをテンプレート(*.tpex)として保存できます。
帳票形式のPDFなど、ページレイアウトや抽出内容が固定のものに有効です。
ショートカットキー
GUIでは、マウスでの操作が主になりますが、作業省力化のためのキーボード・ショートカットキーも用意されています。操作のやり直しや元に戻すとき、コマンドの解除などがスムーズです。
スペース