PDF活用講座『PDFからOffice変換編』

この記事は、アンテナハウスのブログサイト『I love software!』に2011年7月11日～14日にかけて掲載された記事を元に加筆・修正されたものです。

第３回　画像PDFはここにご注意!

最近は、スマートフォンやiPadなどの普及で電子書籍が注目され、「自炊」という新語？もすっかり定着してスキャナに関する関心も高まっているようですね。

さて、スキャナで作成したPDFはご存じの通り文字が画像化したデータになりますから、そのままでは再利用の役に立ちません。これを活用するためには画像化された文字をテキスト編集できる文字コードの並びに置き換えてやる必要があります。

そこで登場するのがOCR機能です。

OCRでは、点の集まりである画像データから文字とおぼしき部分を抽出して、あらかじめ登録された文字パターンと照合するという作業をします。このことから、文字認識の精度は元画像の画質（画像の粗さ）やレイアウトの複雑さなどの要素に大きく影響されます。

画質が良いかどうかをOCRでは解像度（dpi = Dots Per Inch）という尺度で測ります。
これは画像のきめ細かさ(密度)を示すもので、値が大きいほど画質は良くなりますが、その分サイズも大きくなります。ちなみにOCRに適した解像度は300～400dpi程度といわれています。これ以下だと誤認識が多くなるようです。また、400dpi以上では認識精度はあまり変わらず、逆にサイズが大きくなることで読み取りに時間がかかってしまいます。

下記は、同じ書類を解像度を変えてスキャンし、OCR処理した結果例です。
（図をクリックすると拡大して表示します）
[▼元のPDF]

[▼150dpi でスキャンしたPDFからWordへ変換]

[▼300dpi でスキャンしたPDFからWordへ変換]

スキャンした際の解像度が低いと文字の誤認識が起こりやすいことがおわかりいただけると思います。

なお、スキャンした画像のPDFから、本製品を使用して検索可能なPDF（透明テキスト付きPDF）を作成する場合も同様に、元の画像の解像度が適切でないとテキストの変換精度が落ちて検索性が低くなってしまいますから、ご注意ください。
画像PDFをOCR処理する場合の注意事項につきましては、OCRを使用した変換についてもご参照ください。

次回は、PDFをWordに変換する場合に選択できるオプションについてお話しします。

＜＜前のページ
テキストPDFなのに文字化け!?

次のページ＞＞
段組みとテキストボックス、どちらを選ぶ?

PDF、組版と文書変換のアンテナハウス株式会社

PDF活用講座『PDFからOffice変換編』

第３回 画像PDFはここにご注意!

第３回　画像PDFはここにご注意!