瞬簡PDF 変換 12OCR変換機能
OCRを使った変換
テキスト情報のないPDFや画像ファイルも、OCR(文字認識)処理により編集可能なOfficeファイルに変換できます。
また、TWAIN対応のスキャナーから直接画像を取り込む機能により、紙原稿も簡単にOfficeファイルへ変換できます。
本製品では、PDFの他に以下の画像形式からの変換に対応します(画像形式によっては内部フォーマットの相違などから正常に判別・変換できない場合があります)。
- Windows Bitmap(BMP)
- JPEG(Exif)
- JPEG File Interchnage Format(JFIF)
- Portable Network Graphics(PNG)
- Graphics Interchange Format(GIF)
- Tag Image File(TIFF)
OCRを使用した変換について
OCRとは画像化された文字(紙をスキャナーで取り込んだ文字等)をコンピューター上で扱える文字に変換する機能です。この機能により、従来画像として出力されていた文字を、編集可能な文字として出力します。
またOCR処理時には、あらかじめ解像度(dpi値)・回転や傾きの角度・出力時の日本語フォント/欧文フォントなど、詳細な設定を行った上で変換することもできます。
※OCRを使用した変換では、元の画像の画質によって文字が正しく認識できない場合があります。文字を正しく認識させるためには次のような画像がお勧めです。
- ビットマップ形式の画像
- 歪みやノイズの少ない画像
- 解像度の高い画像(300~400dpiを推奨)
OCR結果の補正機能
「OCR結果の補正」機能は、画像化されたPDFファイルの変換を行う際に、テキスト・表・画像にしたい箇所をそれぞれ変換前に設定することで、より正確な変換をサポートする機能です。
- 「OCR結果を補正」画面の呼び出し
メイン画面で変換先のファイル形式を設定後、ファイルを選択して「編集」メニューから「OCR結果を補正」を選択します。 - 領域の修正
操作画面では自動的にテキスト・表・画像にする領域を認識し、その範囲を表示します。ここで表示された領域の大きさ・種別・位置などを手動で変更したり、画像の傾き・回転などの補正を行うことができます。
OCR結果の補正機能では次のような設定を行うことができます。ページの回転を設定することができます。変換対象となるPDFが横に回転しているようなデータを処理する際に設定してください。
設定可能な角度は 回転なし / 自動 / 右90度 / 180度 / 左90度 のいずれかで、「自動」を選択した場合、プログラムがPDF内に含まれる画像を判断して回転を行います。スキャナで取り込んだ画像は傾いていることがあります。そのような場合、角度を指定して傾きを補正することができます。
傾きの補正では -45度から45度までの角度を指定することができますが、「自動」を設定することで、画像の傾き角度を自動的に判断し補正することもできます。OCR処理を行う範囲を自動的に認識します。領域認識を行うことで文字として処理される箇所や表として処理される箇所などが自動的に設定され、範囲を視覚的に認識することができます。 これら領域認識で判定された範囲は任意に変更することもできます。 変換対象となるPDF内で横書きのテキストとして認識させたい範囲を指定します。
指定された範囲はOCRの際に横書きテキストとして処理されます。変換対象となるPDF内で縦書きのテキストとして認識させたい範囲を指定します。
指定された範囲はOCRの際に縦書きテキストとして処理されます。変換対象となるPDF内で画像として認識させたい範囲を指定します。
指定された範囲はOCRの際に画像として処理されます。変換対象となるPDF内で表として認識させたい箇所を指定します。
指定された範囲はOCRの際に表として処理されます。 - 変換の実行
指定した設定を使って変換を行います。実行する際に変換先ファイル形式の指定や透明テキスト付きPDFの作成などの処理を選択することもできます。※ OCR結果の補正機能で指定した横書き、縦書き、画像、表の各範囲はOCR実行時に指定通りにならない場合があります。