OCR処理を使った変換/その他

question.gif イメージスキャナを使って紙文書を取り込んで作成したPDFファイルをOCR処理した際、処理エラーが発生する場合があります。

answer.gif 本製品を使って文字が画像化されたPDFファイルから変換する場合、いったんPDFファイルのページ全体を画像に変換し、これを対象としてOCR処理します。
この場合、画像解像度(DPI)の値を高く指定しているとメモリを多量に消費するために画像化に失敗することがあります。
このようなときには、[OCR設定]ボタンをクリックして表示される「OCR設定」ダイアログの[DPI値]の値を小さく設定した後、処理してみてください。ただし、この値を低くし過ぎると認識率が低下します。スキャン対象となった画像にもよりますが、一般的に300~400dpiの範囲で指定するのが適当です。


question.gif イメージスキャナを使って紙文書を取り込んで作成したPDFファイルをOCR処理した際、文字化けがひどく期待した結果が得られません。

answer.gif 本製品で文字が画像化されたPDFファイルから変換する場合、いったんPDFファイルのページ全体を画像に変換してからOCR 処理します。
この場合、元のPDFファイルの状態により画像化された文字認識率が左右されます。
スキャンされたPDFファイルの画像の品質が元々低い場合には、OCR処理によって文字を認識することが困難です。状態にもよりますが、おおよそ200dpiを境にこれ以下の解像度の場合、文字認識が、かなり低下します。
そうでない場合には、[OCR設定]ボタンをクリックして表示されるダイアログの[DPI値]で、高解像度に設定することで改善する場合があります。ただし、解像度を高くすると処理にメモリや処理時間を大量に必要としますので、注意してください。


question.gif OCR処理によって出力されるPDFファイルのサイズが、処理対象となるファイルより大きくなります。

answer.gif 処理対象となるのが画像ファイルの場合、ファイルのフォーマットによっては、処理対象となる画像ファイルより出力されるPDFファイルのほうが、ファイルサイズが大きくなる場合があります。(特にJPEGファイルの場合)
処理対象がPDFファイルの場合、ページをいったん画像に変換し、その画像をOCR処理し、得られたテキストと変換した画像とでページが構成されたPDFファイルとして出力します。
そのため、PDFファイルの内容や、OCR処理オプションのDPIの設定によっては、出力されるPDFファイルのほうがファイルサイズが大きくなる場合があります。一般にDPIの設定値が大きいほど、出力されるPDFファイルのサイズが大きくなります。

lighton.gif 【ヒント】


question.gif OCR補正機能を使って表の領域を指定したところ、領域の中の文字が何も変換されません。

answer.gif OCR補正機能を使って表の領域を指定した場合は、領域中に含まれる線の情報を参照して表とその中に含まれるテキストを認識します。このため、表領域を指定した範囲の中に線の情報が何もない場合は、表として判断がされず、テキストを含めて変換対象となりません。線の情報を含まない範囲を変換する場合は、横書きテキスト領域を指定してください。