トップページ > デスクトップ製品情報 > 瞬簡PDF 変換 8 製品トップ > OCRによる透明テキスト付きPDFの作成
『瞬簡PDF 変換 8』ではスキャナーから取り込んだような画像ファイル、または画像PDFに対して、OCR(文字認識)処理を行い、その結果を透明テキストとして埋め込んだPDFを作成できます。これにより文字情報を含まないPDFファイルでも、本文の文字列検索が可能になります。
さらに、『瞬簡PDF 変換 8』では、元のPDFにテキストやしおり・注釈などがある場合に、元の情報をそのまま継承して画像化された文字分だけ透明テキストにしたPDFを作成するオプションも用意しました。元のPDFの検索性を損なうことなく、画像化された文字データについても透明テキストが付加されたPDFファイルが作成でき、PDFをさらに便利にお使いいただくことが可能となります。

※OCR処理によって出力されるPDFファイルのサイズが、処理対象となる元のファイルより大きくなる場合があります。
これはページを一旦OCR処理に適した解像度の画像に変換し、その画像と処理結果のテキストとで構成されたPDFファイルを出力するためです。
そのため、PDFファイルの内容や、OCR処理オプションのDPIの設定によっては、出力されるPDFファイルのほうが、ファイルサイズが大きくなる場合があります。一般にDPIの設定値が大きいほど、出力されるPDFファイルのサイズが大きくなります。
PDFからテキストや画像を取り出してそれぞれファイルに保存することができます。これにより、PDF内のデータを別のソフトに取り込んで再利用することが可能になります。
データ抽出機能は以下のような特長があります。
複数のPDFを登録しておくことで、一括でデータの抽出を行うことができます。
複数ページに渡ったPDFデータの場合、3ページ目のテキストまたは画像のみ取り出すといった、ページを指定してのデータ抽出も できます。
テキスト抽出時に以下のエンコードが指定可能です。
取り出したテキストに改行コードを付加するかどうか指定ができます。
※
改行コードはCRLF(Win)固定になります。
PDFに含まれる画像を抽出して保存できます。画像抽出を行った場合、取り出された画像はビットマップ形式(BMP)またはJPEG形式(JPG)、PNG形式(PNG)のいずれかとなります(指定することはできません) 。