11–3–25 -extractText:テキスト抽出

■コマンド例

[処理例]

test.pdfの1,3,4,5ページ目上に存在するテキストを座標順に並べ替えてout.txtに出力する。


[Windows]

AHPDFToolCmd70.exe -extractText C:\sav\out.txt -pageNo 0,2-4 -sort -d C:\test\test.pdf


[Linux / Amazon Linux2 X86]

AHPDFToolCmd70 -extractText /home/antenna/sav/out.txt -pageNo 0,2-4 -sort -d /home/antenna/test/test.pdf


■処理内容

PDFファイルからテキストを抽出します。


■フォルダ指定:対応有り

入力フォルダのPDFファイルからテキストを抽出します。入力ファイル名の拡張子を「.txt」に変更したファイル名で出力フォルダに出力します。


■パラメータ

パラメータ
内容
出力テキストファイルパス
[必須]
出力先のテキストファイルパスを指定する。
抽出対象が複数ページの場合、先頭行に「pageX」と出力されます。
-pageNo
テキストを抽出するページ番号。省略可。
1ページ目は「0」指定。
複数指定する場合はカンマで区切る。
指定がない場合、全ページのテキストを抽出する。
-sortテキストを座標順に並べ替える。