8-25 -extractText:テキスト抽出

処理内容

入力PDFファイルからテキストを抽出し、テキストファイルの形で出力します。

コマンド例

[コマンド例の実行内容]

test.pdfのテキストを抽出してout.txtに出力する。

抽出時、ページ指定やテキスト抽出順は以下の設定に従う。

  • ページ指定:1ページ目、3~5ページ目
  • 位置:[left, bottom, right, top]がそれぞれ[0mm, 0mm, 100mm, 100mm]の矩形
  • テキスト抽出順:ページ上に存在するテキストを座標順に並べ替える

[Windows]

AHPDFToolCmd80.exe -extractText C:\sav\out.txt -pageNo "0,2-4" -sort -rect 0 0 100 100 -d C:\test\test.pdf

[Linux]

AHPDFToolCmd80 -extractText /home/antenna/sav/out.txt -pageNo 0,2-4 -sort -rect 0 0 100 100 -d /home/antenna/test/test.pdf

フォルダ指定:対応有り

「-d」のパラメータに入力フォルダを指定して一括処理することができます。

フォルダ指定をされた場合は入力フォルダ内のPDFファイルからテキストを抽出します。出力フォルダはパラメータ[outTextFilePath]で指定してください。

出力ファイルは入力ファイル名の拡張子を「.txt」に変更したファイル名で指定したフォルダに出力されます。

パラメータ

パラメータ

内容

<outTextFilePath>

[必須]
このパラメータは「-extractText」の直後に指定する必要があります。

テキスト出力先のファイルパスを指定する。
抽出対象が複数ページの場合、先頭行に「pageX」と出力されます。

-pageNo <Val>

省略可。
<Val>でテキストを抽出するページ番号を指定。指定がない場合、全ページのテキストを抽出する。

ページ番号は0オリジン。そのため、1ページ目を「0」から数える。

複数指定する場合はカンマで区切る。(例)"0,2-4"

-sort

元データを座標順に並べ替えた上で抽出する。

-rect <left> <bottom> <right> <top>

省略可。
テキストを取得する範囲(mm単位)。指定が無い場合、ページ全体のテキストを取得する。

-sort指定がある場合:指定領域内でソートする。

-rectが複数指定された場合:最初の-rectを採用し、2個目以降の-rectは無視される。