OCR

OCR(Optical Character Reader、またはOptical Character Recognition)とは画像内のデータを読み取り、文字の形状に基づいて文字を識別して実際の文字データに変換する事です。PDF ServerではOCRした文字をテキストファイルとして出力します。また、PDFの場合は画像の上に文字情報を重ねてセットします。

Please enter alt text.

OCRテキスト埋め込みイメージ(実際には透明なOCRテキストを赤字で表示した例)

PDF Serverでは以下のファイルがOCR設定の対象となっています。

MEMO

  • 画像が1枚のみのPDFファイルとは、紙原稿をイメージスキャナを使って読み込んで作成されたPDFファイルの事です。ただし、高圧縮PDFファイルは対象外となっていますので注意して下さい。
  • 条件付きですが、すべてのPDFファイルでOCRを実行する事が可能です。詳細については「すべてのPDFでOCRテキスト付きPDFを作成する」の項を参照して下さい。

OCR設定は、[変換設定] → [入力設定] → [OCR設定]以下で行います。

Please enter alt text.

OCRを実行するかどうかは[変換設定] → [入力設定] → [OCR設定] → [OCR 処理設定]にて行います。

Please enter alt text.

「OCR」処理の項目で「全ページOCR処理を行う」もしくは「指定ページのみOCR処理を行う」を選択します。

OCR エラーの無視

「OCR エラーが発生した場合も無視してPDFを作成する」をチェックした場合、PDF ServerはOCRでエラーが発生した場合でも、これを無視してPDFを作成するようになります。

すべてのPDFファイルでOCRテキスト付きPDFを作成する

「すべてのPDFファイルでOCRテキスト付きPDFを作成する」にチェックをいれるとすべてのPDFファイルを対象にOCR処理を行うようになります。これはPDF ServerでOCR対象外も含めたPDFファイルに対して有効になります。この項目がチェックしてある場合、PDF Serverは入力ファイルがPDFだった場合、ページ単位で一度ラスターイメージに変換してからOCRを実行してそれをPDFにし、結合します。

このオプションを有効にすることで、どんなPDFでもOCR処理することができますが、ラスターイメージに変換するため、以下のデメリットがあります。