OEM販売のご相談
  • PDFの文章プロパティ取得
  • PDFの段落・行・文字情報取得
  • PDFの表情報(行・セル)取得
  • PDFから画像ファイル抽出

PDFXML 変換ライブラリ

PDFの内部のテキスト、表、図などを幅広く再利用!

『PDFXML 変換ライブラリ V3.0』(以下、本ライブラリ)は、 PDFファイルを読み込み、内部のコンテンツ(テキスト・表・図・画像など)を平易なXML形式に変換して出力します。 各コンテンツの詳細な情報を取り出すことで、PDFデータをさまざまな用途に再利用できます。

重要なお知らせ:PDFマルチ変換ライブラリへの移行について

Antenna House PDFXMLの概要

本ライブラリが出力するXML形式を「PDFXML形式」と呼びます。
PDFXML形式はPDFのコンテンツをテキスト・表・画像などの情報単位にまとめ、分かりやすく扱いやすい表現に置き換えることで、データの再利用を容易にします。

PRイメージ
PDFのデータを再利用

PDFに含まれるコンテンツを扱いやすい形式に変換

PDFから取り出せる情報

段落・行・文字情報

  • テキストを段落・行・文字ごとの情報に分類します。
  • 段落・行・文字を囲む矩形の位置とサイズを出力します。
  • インデント・行間・文字間の値を出力します。
  • 文字情報(文字の大きさ・文字の色・文字のフォント・文字修飾(bold/italic、網かけ))を出力します。

表(行・セル)情報

  • 線画などを使い一定のパターンで描画された領域を表とみなし、表情報を生成します。
  • 表・行・セルの位置とそれらを囲む矩形のサイズを出力します。
  • セル情報には段落・行・文字の情報を含んで出力します。

画像情報

  • PDFに含まれる画像データは、外部ファイルとして出力します。
お知らせ
2025年9月30日

本製品の販売は終了しました。後継製品は、「マルチ変換ライブラリ」をご参照ください。

お知らせ
2025年3月7日

Windows 64 ビット版の単体販売は終了しました。

改訂情報
2024年11月28日

PDFXML 変換ライブラリ V3.0 改訂14版 をリリースしました。
改訂情報ページ

改訂情報
2024年6月13日

PDFXML 変換ライブラリ V3.0 改訂13版 をリリースしました。
改訂情報ページ

改訂情報
2024年4月11日

PDFXML 変換ライブラリ V3.0 改訂12版 をリリースしました。
改訂情報ページ

改訂情報
2023年11月9日

PDFXML 変換ライブラリ V3.0 改訂11a版 をリリースしました。
改訂情報ページ

改訂情報
2023年10月12日

PDFXML 変換ライブラリ V3.0 改訂11版 をリリースしました。
改訂情報ページ