PDFテキスト活用法ガイドライン

更新日: 2021/8/4

PDFファイル(以下、PDF)の中に含まれている文字情報の活用場面を想定して、弊社のWebページや製品関連ページにおける、それぞれについてのより詳しい解説、説明、サンプル、動画(YouTube「アンテナハウスPDFチャンネル」)などの情報を整理してみました。なお、ここで文字は図形として見える形であり、文字をコード化した情報をテキストとしています。

利用形態:対話的な操作かシステム組み込みか

PDFの上のテキストを利用するときの形態を大きく分類すると、ユーザー(人間)がPDFを画面に表示して対話式に利用する方法、サーバー上などで動作するシステム中にPDFからテキストを取り出す機能(ツール)を組み込んで実行する形態になります。

テキストをユーザーが対話的にコピーする

Adobe Readerや、ブラウザ内蔵のPDFリーダーなどではPDFを画面に表示して再利用したいテキストの範囲を選択してコピーする機能があります。但し、PDFがテキスト・コピー禁止だと、コピー操作そのものがうまくできません。

雑誌の誌面のように、文字が複雑にレイアウトされているとき、テキストの文章としてのつながりを確保しながら取り出すのは難しいことがあります。こうしたPDFからテキストを効率的に取り出すための特別なツールとして、アンテナハウスの「PDF Advanced Extractor」(現在開発中)があります。

テキストをシステムで利用するとき

一度に大量のPDFからテキストを利用するとき、あるいはPDF上のテキストを定期的に利用するときは、あらかじめ一定のロジックをプログラムしておいて自動処理すると効率的です。アンテナハウスの「PDF Tool API」には、PDFの中のテキストを利用するための、プログラム開発者向けのAPIがあります。

テキストを文章として利用する

文章としてのテキストの利用形態を考えてみます。契約書、報告書などは作成する都度内容もレイアウトも変更になります。ページの本文領域全体に配置された文章のような散文テキストの利用目的は多様です。例えば、①全文検索、②HTMLへの変換、③テキストをワープロで編集する、といった用途があります。

全文検索

PDFを全文検索に使うときは、普通は、短時間で大量処理が必要なためサーバー上で動く専用のテキスト抽出ツールを使います。

HTMLに変換する

HTMLに変換するときは、見出しや画像をタグとして設定できると便利です。

テキストをワープロで編集する

PDF上のテキストをワープロで編集するとき、PDFリーダーで表示した画面からテキストをコピーしてワープロにペーストすることができます。しかし、『瞬簡PDF 変換』のような変換ツールでPDFのテキスト、表、画像などのコンテンツを含め、丸ごとワープロに変換できます。

テキストをデータとして使う

罫線で区切られたセルなどに表形式で配置されたテキストをスプレッドシートなどに変換して使いたいということがあります。良くあるのは、評価試験結果、設計データ、積算情報、成績表などがPDF化して配信されていて、そのデータをスプレッドシートに取り込んで利用したいという要望です。PDFから取り出したいテキストデータとしては次のような種類があります。

  1. コードやID
  2. 日付
  3. 数値データ
  4. 短い文字列:固有名詞、社名など
  5. 商品名

「瞬簡PDF変換」を使えば、PDFからデータを取り出してスプレッドシートに変換できます。

テキストをキーとして使う

PDFページ上のテキストをキーワードとして使ってPDFの種類などを識別、PDFを分類したいということもよくあります。この目的では、指定した位置にある文字情報をテキストとして読み取って、PDFを識別できます。

指定位置のテキスト(キーワード)を取り出してPDFを識別する

指定したページ上の座標で矩形範囲を指定し、その矩形の中に含まれる文字列を取り出してPDFを識別したり、分類したりすることができます。

指定位置を割り出す方法(目視)

PDFの上の位置を指定するためには、ページの上の位置座標が分かっている必要があります。一番単純な方法は、PDFを印刷して定規で位置を調べることですが、アンテナハウスのデスクトップ製品でもPDF上の座標を表示できます。また、PDF Viewer SDKにもカーソル位置の情報を表示する機能があります。これらは目視で位置情報を取り出すことになります。

『書けまっせのカーソル位置情報』
『PDF Vieser SDK』のカーソル位置情報

キーワードの位置座標を取得する方法

指定位置を割り出す方法としては、前項のようにPDFを表示・印刷して調べる方法以外に、検索キーワードを使ってPDFを検索し、ヒットした文字列の座標位置を取得する方法もあります。

PDF中のテキスト活用の難しさ・注意点

テキストがPDFの中にコード化した情報として含まれているか、画像のようなビットマップのデータとしてあらわされているかの区別は重要です。

PDFに文字をコード化した情報として含む

コード化した情報として含まれている場合については、PDFの内部データ(コンテントストリーム)を解析して取り出せます。詳しくは次をご参照ください。

PDF内の文字情報をコード化したテキストとして取り出すのは難しい場合もあります。PDFからうまくテキストを取り出すのが難しいのはどういうときか、次の資料に整理されています。

PDFの中で文字が画像として扱われているとき

複合機、スキャナーなどで書面、帳票、雑誌のページなどをスキャンして作製したPDFではスキャンしたページ全部が一つの画像となっています。このような画像の上の文字をコンピューターで扱えるコードにするには、OCR(文字認識ソフト)でテキストにする必要があります。OCR処理の結果がどうなっているか、OCR処理の注意事項については次をご参照ください。

ウェビナー動画

PDFからテキストを取り出したい! 使えるテクニックをご紹介

データはPDFファイルしかないのに、その中のテキストデータをどうしても取り出したいことがあります。そんな時に使えるテクニックをご紹介します。

ビジネスパーソン必見! PDFファイルの修正法

自分が取り扱う仕事の資料や見積書のPDFファイルについて、作成後に誤りを見つけた時、皆さんはどのように対応しているでしょうか。
PDFファイルをそのまま修正することで手間を省き、作業時間を短縮させる「PDFファイルの修正方法」を、ツールを使って教えます。

PDFに文字が書ける!自動認識機能でラクラク文字入力!「瞬簡PDF 書けまっせ 8」のご紹介

PDFの申請書をいまだに手書きで記入したりしていませんか?
『瞬簡PDF 書けまっせ』を使えば書類作成がぐんと楽になります。実際に申請書への記入をしながら様々な機能をご紹介していきます。

お問い合わせは

本ページへのご意見・ご質問は、info@antenna.co.jpまでお気軽にお問合せください。

また、弊社オンラインショップでは本ページで紹介した製品をお得な価格でご購入いただけます。是非ご利用ください。


△ページ上部へ
スペース