タグ付きPDFとはどんなもの

更新日:

タグ付きPDFとはどんなもの

このページの目的

タグ付きPDFという言葉を見かけるようになりましたが、タグ付きPDFとは一体どういったものなのでしょうか。ここでは普通のPDFとは何が違うのか、タグ付きPDFでできることやその性質についてまとめました。

はじめに

欧米の政府関係機関においては、タグ付きPDFはPDFアクセシビリティの重要な要素として普及しています。それに対して、日本ではタグ付きPDFについてはあまり注目されて来ませんでした。

しかし、2016年4月より施行された障害者差別解消法では、官公庁・行政機関は、障害者より要求があったときは実施に伴う負担が過重でない範囲で情報をアクセシブルにすることが義務付けられています。こうしたことで日本でも官公庁や行政はタグ付きPDFの提供が始まっています。

タグ付きPDFとはなにか

文書の各部分に、部・章、見出し、引用、箇条書き、表などの構成上・意味上の役割を与えることを文書の構造化といいます。文書の構造化により、読み手が意味をより理解し易くなります。タグ付きPDFは、内部に文書構造を指定するタグを付与したPDFのことです。

タグ付きPDFでは、PDFの中でテキストや画像などのコンテンツをマークで囲い、マークにタグを付与します。また、文書の階層や表などの構造を表すタグを定めて、構造を表すタグとコンテンツを表すタグを使ってタグのツリー構造(タグツリー)を作成します。

タグ付きPDFは必須機能では無くオプション機能です。そして、現在、作成され配布されているPDFの大部分はタグ付きPDFではありません。この理由は次に述べるように、視覚的に読むだけならPDFの内部に文書構造を指定するタグを持たせる必要はないからでしょう。

PDFはオフィスソフトなどで文書を編集した結果をプリンタで印刷する操作で作成するのが一般的であり、PDFは印刷物のデジタル表現です。

印刷物においては、章・節などの区切りは改丁・改ページ・改段で、見出しは文字のサイズや行取りで、段落の種類は行頭・行末の余白でといったように視覚的なスタイル付けによって文書構造が表現されています。人間が文書の意味を理解するときは、こうした視覚情報を暗黙のうちに援用しています。

タグ付きPDFでできること

タグ付きPDFが必要になるのは、PDFを視覚的に読むときではなく、PDF内部のデータを別の目的で使うときです。タグ付きPDFの仕組みを利用すると次のようなことができます。

PDFの内容の読み上げ順序の指定

PDFをコンピュータで読み上げるときは内部のテキストを順番に読みます。しかし、PDFの内部でのテキストの並びと表示されるテキストの並びとが一致していないことがあると、画面の表示と読み上げ順が異なってしまいます。タグツリーがあれば、ツリーの順番にタグを辿っていき、そのタグに結びつけられたコンテンツを読み上げることで、正しい読み上げ順序となります。

また、印刷されたページには、柱やページ番号のようにナビゲーションのための情報や、本文領域の上や下の罫線、本文と脚注の間の罫線、テキストボックスの枠線や背景など領域を判別しやすくするための情報などの修飾的情報があります。これらの、音声で読み上げる必要のない情報を区別して除外できます。

PDFを変換して再利用する

PDFの内部にセクション・見出し・表・段落などの論理的な構造の指定があれば、PDFからオフィスアプリケーションなどの編集用ファイルに戻すときにより適切な変換ができます。また、PDFからHTML(Webページ)に変換するときも、見出し・表・箇条書きのような論理的な構造を使って、より良い結果を得ることができます。

PDFのリフロー表示

タグ付きPDFで決めている標準タグは、Webページを記述するためのHTMLに類似しています。タグ付きPDFに準拠するリーダーは、PDFを印刷レイアウトで表示するとともに、PDF内部に設定されているタグを使ってレイアウトして画面表示もできます。

これによりPDFを、あたかもHTMLをスマホの画面上にブラウザで表示するように、画面の端でテキストを折り返して表示(リフロー表示という)ができます。

(参考)PDFのリフロー表示。タグ付きPDFとタグの付いていないPDFの比較。(CAS-UB ブログ)

アクセシビリティサポート

アクセリビリティサポートの中核は既に説明した読み上げ順序や論理構造ですが、さらにタグ付きPDFの仕組を使えば、①文書全体やマークした範囲の言語指定、②イメージ・数式などテキストに翻訳できない項目の代わりに読み上げるための代替テキストの設定、③略語・頭字語などに対する展開語(例えばISOという頭字語にInternational Organization for Standardization)の指定ができます。

タグ付きPDFの標準タグと属性

タグ付きPDFでは標準タグの種類を決めています。標準以外のタグを使うこともできますが、その場合は標準的なタグとの対応関係が分かるようにしなければなりません。

また、属性の標準も決めています。属性の多くはリフロー表示のためのレイアウト属性とPDFの内容を他の形式に変換する時に参照されるものです。他に、箇条書きのラベルと表のセルに関する属性もあります。

標準タグはその役割によって分類されています。次にどのようなタグがあるかを示します。

グループ化のためのタグ

他のタグをグループ化するために使うタグです。タグツリーはトップレベルのタグを一つだけもちます。完全なドキュメントのときトップレベルのタグは、Documentとします。ドキュメントの断片のときPart、Art、Sect、Divのどれか一つをトップレベルのタグとするのが良いです。

他のグループ化のタグには、ブロック引用(BlockQuote)、キャプション(Caption)、目次(TOC)、目次項目(TOCI)、インデックス(Index)があります。

ブロックレベルのタグ

段落(P)、見出し(H、H1~H6)、箇条書き(L、LI、Lbl、LBody)のようにドキュメントの行を積み重ねていく方向に配置するテキストやその他の内容領域を示す。

テーブルのためのタグ

テーブル(Table)タグは、ブロックレベルのタグです。下位のタグとしては、テーブル行(TR)、テーブルヘッダーセル(TH)、テーブルデーターセル(TD)、テーブルヘッダー(THead)、テーブルボディ(TBody)、テーブルフッター(TFoot)があります。これらはテーブルの内部を構造化するものでブロックレベルのタグではありません。

テーブルの標準属性

テーブルは行と列から構成されますが、幅広い表の構造を表現するにはセル結合などのための機能も必要です。このためにRowSPan(自然数)、ColSpan(自然数)、Headers(配列)、Scope(名前)、Summary(文字列)といった属性が使えます。

行内のためのタグ

テキストの一部分を表すタグです。行内で文字の進行方向に積み重ねます。スパン(Span)、引用(Quote)、ノート(Note)、参照(Reference)、目録エントリー(BibEntry)、コード(Code)、リンク(Link)、注釈(Annot)があります。

イラストのためのタグ

イラストタグは図(Figure)、数式(Formula)、フォーム(Form)のどれかです。イラストが文書内の段落の一部にあるときはFigureタグを使って表現します。

タグ付きPDFの例

次のような1ページの簡単なPDFをタグ付きPDFにする例を示します。

PDFのページ内容

この文書は、見出し1とその本文、見出し2とその本文、画像のキャプションと画像、表のキャプションと表、という順序になっています。本文領域の上にヘッダー、下にページ番号が印刷されています。

PDFのコンテントには、例えば、次のようにマークアップできます。

コンテンツツリー

タグ付きPDFでタグツリーをどのように作るかは一意では無く自由度が高いです。ここではルートタグは、Sectとし、見出し1と本文、見出し2と本文、画像、表とキャプションの4ブロックがすべて兄弟関係と考えてタグを付けます。第一階層はすべてルートタグ(Sect)の子供とします。

こうして作成したタグツリーは次のようになります。

タグツリー

タグ付きPDFを利用するPDFプロファイル仕様

PDFの全機能はあまりにも多いため、利用者の立場から用途を絞った仕様が提案されています。こうした機能の使い方を定める仕様をプロファイル仕様といいます。タグ付きPDFは、PDFのプロファイル仕様である長期保存(PDF/Aファミリー)やPDFのアクセシビリティー(PDF/UA)の一部として採用されています。

参考資料

関連情報