以下では、OCR機能の概要を説明します。
OCR(Optical Character Recognition:光学式文字認識)とは、画像データから文字を認識しパソコン上で検索・編集可能な文字データに置換する機能です。
画像データやOCRスキャナーで作成したPDFは文字が画像化されているため、テキスト検索やOfficeアプリケーション等で編集して利用できる文字データが含まれていません。しかし、画像にOCR(文字認識)処理を行うことで、画像化された文字を認識し文字データに置換して再利用できます。
また、内部に文字データを含むPDFであっても画面に表示する文字の外観と文字コードの対応づけがされていない場合は正しい文字が取得できず、変換先で"?"に置換されます。このような場合もいったんPDFを画像化してOCR処理を行うことで、文字を認識し文字データとして取り出すことができます。
言 語 | 自動設定時のフォント |
日本語 | MS Pゴシック(和文フォント認識時)、 Arial(英数字の認識時) |
英語・ドイツ語・フランス語・スペイン語・イタリア語・スウェーデン語・デンマーク語・ノルウェー語・オランダ語・ポルトガル語・チェコ語・ハンガリー語・ポーランド語・ルーマニア語・リトアニア語・スロバキア語・クロアチア語・スロベニア語・ルクセンブルク語・フィンランド語 | Times New Roman(セリフ体フォントの認識時)、Arial(サンセリフ体フォントの認識時)、Courier New(等幅フォントの認識時) |
リトアニア語・ラトビア語・トルコ語・カタルーニャ語・ブルガリア語・マケドニア語・ロシア語・セルビア語・ウクライナ語 | Times New Roman(セリフ体フォントの認識時)、Arial(サンセリフ体フォントの認識時)、Courier New(等幅フォントの認識時) |
ギリシャ語 | Times New Roman(セリフ体フォントの認識時)、Arial(サンセリフ体フォントの認識時)、Courier New(等幅フォントの認識時) |
ベトナム語 | Times New Roman |
タイ語 | Tahoma |
韓国語 | Malgun Gothic |
簡体字中国語 | SimSun |
繁体字中国語 | Microsoft JhengHei |
機 能 | 説 明 |
認識できる最大文字サイズ | 認識可能な文字サイズの制限は解像度に依存します。(300dpiで最大256ピクセル) |
対応する画像解像度 | 96~500dpi(300~400dpiを推奨) |
調整可能な項目 | ・言語種類 ・dpi値・画像の回転(自動 / 左右90° / 180°) ・傾きの補正(自動 / 左右45°) ・フォントの指定 |
OCR処理には以下の制限があります。
OCR処理では、対象画像を4種類の領域([横書き]・[縦書き]・[表]・[画像])に分けて認識します。この領域認識がうまくいかないと、変換結果が期待したものになりません。
本製品のOCR補正機能では、ページ内の画像を手動で任意の領域に分割し文字認識処理を行うことができます。既定のOCR処理で領域認識がうまく行われず結果が思わしくなかった場合に、本機能を使用することで改善できる可能性があります。