OEM販売のご相談
  • PDFの文章プロパティ取得
  • PDFの段落・行・文字情報取得
  • PDFの表情報(行・セル)取得
  • PDFから画像ファイル抽出

PDFXML 変換ライブラリ

PDFの内部のテキスト、表、図をXML形式に変換!

PDFXML 変換ライブラリ V3.0(以下、本ライブラリ)は、 PDFファイルを読み込み、内部のテキスト、テーブル、図、画像などをXML形式に変換するプログラムです。 XMLへは文字情報、位置、フォント情報などが出力されます。 本ライブラリを使用することで、簡単にPDFデータの再利用ができます。

Antenna House PDFXMLの概要

本ライブラリが出力するXML形式を「PDFXML形式」と呼びます。
PDFXML形式は、PDFに含まれるコンテンツをテキスト、表、画像などの情報単位にまとめてXML表現に置き換えます。

PRイメージ
PDFのデータを再利用

PDFに含まれるコンテンツをPDFXML形式に変換

PDFXMLとして取り出せる情報

段落・行・文字情報

段落、行、文字情報を取得します。
段落、行、文字の位置とサイズ情報(矩形)を得られます。
インデント、行間、文字間情報を得られます。
文字情報(文字の大きさ、文字の色、文字のフォント、文字修飾(bold/italic、網かけ))を得られます。

表情報(行・セル)

線画などを使い一定のパターンで描画された領域を表とみなして表情報を生成します。
表、行、セルの位置とサイズ情報(矩形)を得られます。
セル情報には段落、行、文字情報を含みます。

画像ファイル抽出

PDFに含まれる画像データを、外部ファイルとして抽出します。

改訂情報
2023年11月9日

PDFXML 変換ライブラリ V3.0 改訂11a版 をリリースしました。
改訂情報ページ

改訂情報
2023年10月12日

PDFXML 変換ライブラリ V3.0 改訂11版 をリリースしました。
改訂情報ページ

改訂情報
2022年6月16日

PDFXML 変換ライブラリ V3.0 改訂10版 をリリースしました。
改訂情報ページ

改訂情報
2021年8月26日

PDFXML 変換ライブラリ V3.0 改訂9版 をリリースしました。
改訂情報ページ

お知らせ
2021年7月1日

弊社製品の対応プラットフォーム(OS、JavaVMなど)の動作保証について規定を変更しました。

『プラットフォーム動作保証について変更のお知らせ』