PDFマルチ変換ライブラリ

マンガでわかる!!アンテナハウス システム製品利用例シリーズ

非定型PDF請求書の内容を自動抽出編

今回は、PDFからのデータ抽出と、業務システムに取り込んで再利用する方法をご紹介します。

1ページ目 馬場さーん、助けて~。ん?どうしたの? お客様から「客先から提供されるPDFの請求書を自動で管理システムに取り込みたい」って要望が来ているのですが。それは全部決まったレイアウトなの? 客先ごとのレイアウトのPDFがあるって感じみたいです。表が多い感じ? 表もあるんですが、定型の文字列以降を抽出したいってパターンみたいです。

2ページ目 う~ん、地方自治体や官公庁の工事費の積算PDFみたいに表が多いレイアウトならExcelに出来れば便利そうだけど。そうですよね。でも元がExcelで、表を利用した形式もありますが、発注書みたいな形式もあるようなので…。【PDFをExcelに出力する】って事と【抽出するのは定型の文字列以降にある】ことを前提に考えたほうがいい気がして…。ここで話してもしょうがないし、アンテナハウスさんに訊いてみましょ。ですね!―――と、いうことなんですが…。

3ページ目 両方問題ないよ。【抽出するものは定型の文字列以降にある】に関しては、『PDFXML変換ライブラリ』でXML形式にした後で、無料で公開しているスタイルシートでテキスト化すれば便利に使えるし、【PDFをExcelに出力】も『PDFtoCells変換ライブラリ』を使えば、Excelファイルにもなる!へぇ~!でもそれって、二つ買わないとダメってことですよね。ふふふ…。いい質問だねぇ。何を隠そう!今は『PDFマルチ変換ライブラリ』としてセット販売中!しかもお値段据え置きでそのままの価格だよ!おお~!!早速伝えてきます!

4ページ目 ―――というわけで、この方法で解決できそうです。わ~!ありがとうございます!その方法を軸に、社内で検討してみます。近年、様々なシステム開発において「PDFからデータを取得し、業務システムに取り込んで再利用する」ということが増えています。PDFからデータを取得するにはExcelとXML、“どちらが都合がいいか”“効率的に再利用できるのは?” そんな悩みは、『PDFマルチ変換ライブラリ』で解決できます。評価版もあるので、ぜひお試しください!

電子メール
sis@antenna.co.jp

関連情報