PDF、組版と文書変換のアンテナハウス株式会社

サイトマップ
hr トップ
ページ
hr デスクトップ
製品情報
hr システム
製品情報
hr DITA
サービス
hr 電子書籍
サービス
hr サポート hr 製品の購入
について
hr お問い合わせ hr 会社案内 hr

評価版のお申し込み

OEMについて詳しくはこちら

PDFの内部情報をXML形式に変換!

ライブラリの構成

本ライブラリは、以下の各種ファイルを提供します。
  • AHPDFXML仕様書:AHPDFXMLの仕様について説明したHTML形式のドキュメントです。
  • コマンドラインインターフェース 仕様書
  • C++インターフェース仕様書:本ライブラリをアプリケーションから呼び出すためのインターフェースについて説明しています。
  • 実行形式:ライブラリ本体のバイナリモジュール一式

PDFからAHPDFXMLの変換方法

PDFからAHPDFXMLの変換方法を説明します。
本ライブラリのコマンドライン(AHPDFXMLCmd.exe)を使用して以下のパラメータを指定します。
  • -i "入力するPDFファイルのパス"
  • -o "出力するAHPDFXMLのフォルダ"
  • -p "ファイル名に付加するプレフィックス文字列"
【例】AHPDFXMLCmd.exe -i C:\in\sample.pdf” -o "C:\out" -p "result"

サンプルXSLTスタイルシート

サンプルとして、AHPDFXMLを利用するために、XSLTスタイルシートをご用意しています。
  • AHPDFXML→XSL-FO:出力結果をAH FormatterでPDFに変換して確認できます。
  • AHPDFXML→DocBook:AHPDFXMLを読み込み、DocBook形式に変換して出力します。
  • AHPDFXML→Text:AHPDFXMLを読み込み、Textを抜き出します。
下記はDocBookに変換するXSLTスタイルシートの実行例です。
【例】pdftodocbook.bat "C:\out\result_catalog.xml"
pdftodocbook.batの内容
@ECHO OFF
SET ANT_HOME=C:\Ant\apache-ant-1.9.3
SET PATH=C:\Ant\apache-ant-1.9.3\bin;%PATH%
SET CLASSPATH=C:\Saxon\SaxonHE9-5-1-5J\saxon9he.jar;%CLASSPATH%
call ant -f C:\Sample\xsl\ahpdfxmlToDocBook\build.xml -Dargs.input=%1 -Dargs.output=%~dp1%~n1_db.xml
start %~dp1%~n1_db.xml
※サンプルスタイルシートの実行には下記が必要です。
①Java
http://www.oracle.com/
②XSLTプロセッサSaxon
http://saxon.sourceforge.net/
③ビルドツール Apache Ant
http://ant.apache.org/
④AH Formatter
pdftofoスタイルシートの実行のためには『AH Formatter』が必要です。
http://www.antenna.co.jp/AHF/
スペース
トップページサポートお問い合わせ会社案内
サイトマップ個人情報保護の考え方とお願い
Copyright Antenna House, Inc. All rights reserved.
Antenna House is a trademark of Antenna House, Inc.