OCR処理を使った変換・その他

4–4 OCR処理を使った変換・その他

　イメージスキャナーを使って作成したPDFを変換すると、処理エラーが発生する場合があります。

　スキャナーで作成したPDFを変換する場合、本製品ではいったんページ全体を画像に変換し、これを対象としてOCR処理します。このときページサイズが大きかったり、画像の解像度（dpi）を高く指定しているとメモリーを多量に消費するため、画像化に失敗することがあります。
このような場合は、スキャナーの設定で解像度の値を小さく設定して取り込んだ後、変換してみてください。ただし、この値を低くし過ぎると認識率が低下します。スキャン対象とする原稿にもよりますが、一般的に300～400dpiの範囲で指定するのが適当です。

　イメージスキャナーを使って作成したPDFを変換すると、文字化けがひどく期待した結果が得られません。

　スキャナーで作成したPDFを変換する場合、本製品ではいったんページ全体を画像に変換し、これを対象としてOCR処理します。このとき、文字認識率は元のPDFの状態により変化します。
スキャンされたPDFの画像の品質が元々低い場合には、OCR処理によって文字を認識することが困難です。状態にもよりますが、おおよそ200dpi以下の解像度の場合に文字の認識精度がかなり低下します。そうでない場合には、［OCR設定］ダイアログボックスを表示して［DPI値］を高く設定することで改善する場合があります。

　［スキャナーから読み取る］を選択するとエラーが表示されて次に進めません。

　［スキャナーから読み取る］を選択したときに以下のエラーが表示される場合は、お使いのパソコンにスキャナードライバーがインストールされていない可能性があります。
スキャナーのCDまたはメーカーの製品ページから機種とOSに適合したスキャナードライバーを取得し、インストールしてください（スキャナードライバーの詳細は、各スキャナーメーカーにお問い合わせください）。

images/scan_error.png

図4･1 「スキャナー」エラー画面（1）

　［スキャナーから読み取る］を選択し、「ソースの選択」画面でスキャナーを選択するとエラーが表示されて次に進めません。

　「ソースの選択」画面でスキャナーを選択したときに以下のエラーが表示される場合は、スキャナーがパソコンに接続されていない可能性があります。その場合はいったんエラー画面を閉じ、お使いのパソコンにスキャナーが接続されているかを確認してから、再度［スキャナーから読み取る］の操作を行ってみてください。

images/scan_error2.png

図4･2 「スキャナー」エラー画面（2）

　変換先に「OCR」を指定すると、出力されるPDFのサイズが元のファイルより大きくなります。

　処理対象が画像ファイルの場合は、ファイルの種類によって出力されるPDFのファイルサイズが大きくなる場合があります。（特にJPEGファイルの場合）
処理対象がPDFの場合は、OCR処理して得られたテキストと元のPDFから変換した画像とでページを再構成してPDFに出力します。このため、PDFの内容や画像を作成する際の解像度（DPI値）により出力されるPDFのファイルサイズが大きくなる場合があります。一般に解像度のが大きいほど、出力されるPDFのサイズも大きくなります。

【ヒント】

「OCR」処理を選択した場合、PDFの出力方法を［元データの情報を保持してOCR結果を埋め込む］にすると、既定の変換に比較して作成されるPDFのサイズを小さくできる可能性があります。

　「OCR補正」機能を使って表の領域を指定したところ、領域の中の文字が何も変換されません。

　「OCR補正」機能で「表」領域を指定した場合は、領域中に含まれる線の情報を参照して表とその中に含まれるテキストを認識します。「表」領域の範囲中に線の情報が何もないと「表」として判断がされず、テキストを含め変換対象となりません。線の情報を含まない範囲を変換する場合は、横書きテキスト領域を指定してください。

　変換先に「OCR」を指定して英文のPDFを変換したところ、複数の英単語がつながって変換されてしまいました。

　PDFにOCR処理を行う場合は、既定の言語として「日本語」が設定されています。この状態で日本語以外の言語で記述された文書を変換すると英単語の区切りがされす、すべてつながった状態で変換される場合があります。
そのような時は、OCRオプションの設定で言語を切り替えて変換することで改善される可能性があります。