PDF、組版と文書変換のアンテナハウス株式会社

サイトマップ
hr トップ
ページ
hr デスクトップ
製品情報
hr システム
製品情報
hr DITA
サービス
hr 電子書籍
サービス
hr サポート hr 製品の購入
について
hr お問い合わせ hr 会社案内 hr

PDF活用講座『PDFからOffice変換編』

第6回 変換したらPDFにない文字が出現!?

先日、あるお客様から「PDFをExcelに変換したところ、元のPDFにはない文字がExcelに変換されてしまった。どうして?」というお問い合わせをいただきました。

以下は、元のPDFで文字が表示されている箇所です。

余分な文字が変換されてしまうPDF

これをExcelに変換してみると、確かにお客様の言われるとおり、全然違う数字になって変換されてしまいました。
Excelに変換
(図をクリックすると拡大して表示します)

そこで、とりあえずPDF内のテキストがどうなっているか、Adobe Readerで表示したPDFからこの部分のテキストを抜き出してみました。
すると、以下のようなテキストになっていました

------------
1 式
1200
1 式
7 801 式
------------

とりあえず、Excelの変換結果は元のPDFに入っている文字データをそのまま反映して変換されているらしいことが分かりました。

では、なぜこのPDFでは、文字が入っているのに見えないのでしょうか?
実際にPDFがどのようになっているか、ツール(残念ながら当社製ではありませんが)を使ってPDFの中身をみてみることにしましょう。

最初に見えている文字の部分を脇に移動してみます。元の文字があったところには特に何も見えません。

PDFの編集
(図は説明のため、一部の線などを省略しています)

次に、何も見えないところを探してみますと、もうひとつ枠のない白い四角形がありました。

PDFの編集

これもどかしてみますと...

PDFの編集

白い枠の下から、なんと、"780"の文字が出てきました! 下の方に隠されていたんですね。

同じように、もう一箇所のところも上から順に重なっているものをどかしてみますと...

PDFの編集

こちらには、やはり"1200"が隠されていました。

このPDFがどのように作られたものなのか分かりませんが、きっと何かPDFを編集するツールを使って既存の文字列を隠す形でこのような操作をしたのでしょう。
そういえば、アンテナハウスの人気ソフト『書けまっせ!!PDF4』にも、[修正テープ]機能といって四角い枠でPDFに既にあるテキストや画像を見えなくしてしまう機能があります。 同じような処理がこのPDFにもされているわけで、このPDFだけ特殊ということではないかも知れません。

文字の上の四角形がどのような意図でそこに配置されたか、PDFを読んで変換する場合にはなかなか判断が難しいところです。 瞬簡/リッチテキストPDFでは、現在、PDF内の文字を画像や線画より優先して変換する仕様としています。 このためPDF内にあるすべての文字データが変換先に反映されるようになっています。ですが、もしこのようなPDFがあちこちで作られているとしたら今後何かの対応が必要かもしれません。うーん、ちょっと悩ましいですねぇ。

さて、次回は「PDFでページ毎に分かれてしまった表をExcelで元に戻す方法」についてお話ししましょう。

スペース
トップページサポートお問い合わせ会社案内
サイトマップ個人情報保護の考え方とお願い
Copyright Antenna House, Inc. All rights reserved.
Antenna House is a trademark of Antenna House, Inc.