以下では、OCR機能の概要について説明します。
OCR(Optical Character Recognition:文字認識)機能とは、活字のイメージデータを文字認識して、テキストデータに変換する機能です。
画像データや、スキャナで作成したPDFなど、文字が画像化されたファイルにOCR(文字認識)処理を行うことで、画像化された文字をテキスト化して再利用することができます。
また、フォント埋め込みされたPDFなど、テキスト情報が付いていないPDFファイルにOCR(文字認識)処理を行うことで、文字をテキスト化して再利用することができます。
- 認識言語と文字種類
![]()
- フォント、解像度その他機能
![]()
OCR処理には以下の制限があります。
- OCR処理した結果は、元となる画像(原稿)の状態(画質、解像度)や読み取り時の設定などに影響されます。
- 画質:画質とは、OCR処理エンジンに与えるイメージの品質です。画質には、オリジナル文書そのものの品質と、スキャンするときの設定、そしてスキャナの特性が影響を与えます。具体的には、ノイズ・原稿の歪み・色の不均質などがあげられます。
画質の悪い画像データや、画質が悪いままPDF化された文書は、OCR処理を行っても判読できない可能性が高く文字の認識率が低くなります。
- 解像度:解像度とは、1インチ四角(1インチは約25.4mm)の範囲内でいくつ点を表現できるかにより画像の細密さを表現する単位です。
一般的には解像度の数値が大きいほどより精密な画像が作成でき、細部まで細かく表現することができます。
解像度が小さいと、小さな文字などがつぶれてしまいOCR処理を行った場合に認識率が低くなります。
ただし、解像度を高くして画像を作成すると非常に多くのメモリを消費するため、パソコンで使用可能なメモリ使用量をオーバーした場合にはOCR処理を行うための前段階でイメージ作成に失敗することがありますので、注意が必要です。
- 画像の複雑さ:画像中に文字、図、グラフ、線などが混在していると、OCR処理に影響を与えます。
ここで「複雑さ」とは、定量的に平準化が難しい状態を指します。人間の目には「単純」に見えることであってもOCR処理エンジンの処理特性上は「複雑」である場合、結果がオリジナル文書と異なったものになる可能性があります。
- 横書き、縦書きの混在:OCR処理では、画像中の範囲をいくつかの領域に分割して領域毎に文字認識処理を行います。この際に横書き・縦書きが混在していずれか判別がつきがたい場合などは、領域分割がうまく行われず、結果として文字認識率が低くなる可能性があります。