入力PDFファイルからテキストを抽出し、テキストファイルの形で出力します。
test.pdfのテキストを抽出してout.txtに出力する。
抽出時、ページ指定やテキスト抽出順は以下の設定に従う。
AHPDFToolCmd80.exe -extractText C:\sav\out.txt -pageNo "0,2-4" -sort -rect 0 0 100 100 -d C:\test\test.pdf
AHPDFToolCmd80 -extractText /home/antenna/sav/out.txt -pageNo 0,2-4 -sort -rect 0 0 100 100 -d /home/antenna/test/test.pdf
「-d」のパラメータに入力フォルダを指定して一括処理することができます。
フォルダ指定をされた場合は入力フォルダ内のPDFファイルからテキストを抽出します。出力フォルダはパラメータ[outTextFilePath]で指定してください。
出力ファイルは入力ファイル名の拡張子を「.txt」に変更したファイル名で指定したフォルダに出力されます。
パラメータ |
内容 |
<outTextFilePath> |
[必須] テキスト出力先のファイルパスを指定する。 |
-pageNo <Val> |
省略可。 ページ番号は0オリジン。そのため、1ページ目を「0」から数える。 複数指定する場合はカンマで区切る。(例)"0,2-4" |
-sort |
元データを座標順に並べ替えた上で抽出する。 |
-rect <left> <bottom> <right> <top> |
省略可。 -sort指定がある場合:指定領域内でソートする。 -rectが複数指定された場合:最初の-rectを採用し、2個目以降の-rectは無視される。 |