OCR(Optical Character Reader、またはOptical Character Recognition)とは画像内のデータを読み取り、文字の形状に基づいて文字を識別して実際の文字データに変換する事です。PDF ServerではOCRした文字をテキストファイルとして出力します。また、PDFの場合は画像の上に文字情報を重ねてセットします。
OCRテキスト埋め込みイメージ(実際には透明なOCRテキストを赤字で表示した例)
PDF Serverでは以下のファイルがOCR設定の対象となっています。
MEMO |
|
OCR設定は、[変換設定] → [入力設定] → [OCR設定]以下で行います。
OCRを実行するかどうかは[変換設定] → [入力設定] → [OCR設定] → [OCR 処理設定]にて行います。
「OCR」処理の項目で「全ページOCR処理を行う」もしくは「指定ページのみOCR処理を行う」を選択します。
「OCR エラーが発生した場合も無視してPDFを作成する」をチェックした場合、PDF ServerはOCRでエラーが発生した場合でも、これを無視してPDFを作成するようになります。
「すべてのPDFファイルでOCRテキスト付きPDFを作成する」にチェックをいれるとすべてのPDFファイルを対象にOCR処理を行うようになります。これはPDF ServerでOCR対象外も含めたPDFファイルに対して有効になります。この項目がチェックしてある場合、PDF Serverは入力ファイルがPDFだった場合、ページ単位で一度ラスターイメージに変換してからOCRを実行してそれをPDFにし、結合します。
このオプションを有効にすることで、どんなPDFでもOCR処理することができますが、ラスターイメージに変換するため、以下のデメリットがあります。