- PDFの文章プロパティ取得
- PDFの段落・行・文字情報取得
- PDFの表情報(行・セル)取得
- PDFから画像ファイル抽出
PDFの内部のテキスト、表、図をXML形式に変換!
PDFXML 変換ライブラリ V3.0(以下、本ライブラリ)は、 PDFファイルを読み込み、内部のテキスト、テーブル、図、画像などをXML形式に変換するプログラムです。 XMLへは文字情報、位置、フォント情報などが出力されます。 本ライブラリを使用することで、簡単にPDFデータの再利用ができます。
Antenna House PDFXMLの概要
本ライブラリが出力するXML形式を「PDFXML形式」と呼びます。
PDFXML形式は、PDFに含まれるコンテンツをテキスト、表、画像などの情報単位にまとめてXML表現に置き換えます。
PDFに含まれるコンテンツをPDFXML形式に変換
PDFXMLとして取り出せる情報
段落・行・文字情報
段落、行、文字情報を取得します。
段落、行、文字の位置とサイズ情報(矩形)を得られます。
インデント、行間、文字間情報を得られます。
文字情報(文字の大きさ、文字の色、文字のフォント、文字修飾(bold/italic、網かけ))を得られます。
表情報(行・セル)
線画などを使い一定のパターンで描画された領域を表とみなして表情報を生成します。
表、行、セルの位置とサイズ情報(矩形)を得られます。
セル情報には段落、行、文字情報を含みます。
画像ファイル抽出
PDFに含まれる画像データを、外部ファイルとして抽出します。
お知らせ
-
改訂情報2023年11月9日
-
PDFXML 変換ライブラリ V3.0 改訂11a版 をリリースしました。
→ 改訂情報ページ
-
改訂情報2023年10月12日
-
PDFXML 変換ライブラリ V3.0 改訂11版 をリリースしました。
→ 改訂情報ページ
-
改訂情報2022年6月16日
-
PDFXML 変換ライブラリ V3.0 改訂10版 をリリースしました。
→ 改訂情報ページ
-
改訂情報2021年8月26日
-
PDFXML 変換ライブラリ V3.0 改訂9版 をリリースしました。
→ 改訂情報ページ
-
お知らせ2021年7月1日
-
弊社製品の対応プラットフォーム(OS、JavaVMなど)の動作保証について規定を変更しました。
関連情報
お問い合わせ
- Webフォーム
- Webフォームからお問い合わせ
- 電子メール
- sis@antenna.co.jp