PDFからOffice変換ソフトの比較検討

更新日: 2007/04/09

《ご注意》

この記事は2007年4月に公開したものです。その後2年以上を経過して、最近(2009年8月時点)では各社のPDFからOffice変換ソフトの変換方式や性能が大分変わっています。できるだけ早期に最新の状況に基づいて、もう一度整理してみたいと考えています。以下につきましては、あくまでも2007年4月時点のものであることにご留意の上、ご参考情報としていただければ幸いです。(2009/08/22追記)

PDFからOffice変換ソフトについて

PDFをOffice文書やExcelなどの表に変換するソフトが最近幾つか販売されています。これらのソフトの代表として、「リッチテキストPDF」と「いきなりPDF to Data」(ソースネクスト)について比較してみました。

「リッチテキストPDF」と「いきなりPDF to Data」

この2製品には、根本的な方式の違いがあります。「リッチテキストPDF」は、PDFファイルのデータを解読してPDFの命令を直接データ化する方式です。これに対して「ソースネクスト製「いきなりPDF to Data」は、PDFを画像化して、画像から文字認識をしてデータ化するソフトです。文字認識にはパナソニック製のOCRソフトを使っています。

リッチテキストPDF」はいわばデジタル方式ですが、「いきなりPDF to Data」はいわばアナログ方式。それぞれに一長一短がありますので、よくご理解頂いた上で製品を選択してください。

「リッチテキストPDF」「いきなりPDF to Data」
PDF を読む方式PDFファイル内の描画命令を直接解読する。PDFを1ページずつ描画してラスター画像に変換する。その画像をOCR処理する。
文字をコード化する方法PDF中の文字コードを取得する。PDF中に文字コードが埋め込まれている必要がある。OCRで文字認識するので文字コードが埋め込まれていなくても良い。
文字コード化の精度文字コードがあれば精度は100%保証される。PDFを作成したソフトによっては、文字をベクトル画像としてのみ扱っていて、PDFの中に文字コードが埋め込まれていない場合もあり、このようなPDFでは文字コードを取得できない。文字の認識誤りがあり、コード化の精度は100%にならない。またOCRソフト自体が、JISの全文字の識別を保証していない。
フォントに指定された属性ファミリー、文字の大きさ、文字の飾りなどの認識精度PDFの命令として指定されているフォント・ファミリー名、フォント・サイズ、フォントのカラーなどをそのまま、変換先のOffice文書に引き継ぎ、変換先のPCに存在するフォント・ファミリーに対応つける。PDFで使われているのと同じフォント・ファミリーがあれば完全に再現できる。文字の大きさの認識は厳密ではないようだ。また、使用するフォントは、ユーザがMSゴシック、MS明朝を指定する。文書内のフォント・ファミリーの切り替えは認識できていないと思われる。また、飾り文字、カラー指定の文字などは著しく認識精度が低下しているように見える。
スキャナで作成したPDFへの対応1ページを1枚の画像としてしまう。 OCRで文字認識処理することは可能だが、スキャン時の画像品質が悪いとOCR処理結果は、間違いが多く、実用に耐えないものとなる。
表の解読PDFの描画命令中の線のパターンから表を認識する。表をどのように認識しているかは不明。
画像の解読イメージ画像はPDFファイル内に埋め込まれている画像データを取り出す。線画はPDFの描画命令から解読する。OCRで画像を認識するので画像の再現性は悪い。画像データの再利用は無理ではないだろうか。

参考資料

PDF千夜一夜・関連記事

外部資料

OCR方式とPDFの描画命令解読方式の違いについて、より詳しい解説と比較評価は、『日経パソコン』の下記の記事(Web版)が参考になります。

 

Copyright © 1996-2013 Antenna House, Inc. All right reserved.
Antenna House is a trademark of Antenna House, Inc.