トップページ > デスクトップ製品情報 > 瞬簡PDF 変換 9 製品トップ > PDF活用講座 > PDFからOffice変換編
先日、あるお客様から「PDFをExcelに変換したところ、元のPDFにはない文字がExcelに変換されてしまった。どうして?」というお問い合わせをいただきました。
以下は、元のPDFで文字が表示されている箇所です。
これをExcelに変換してみると、確かにお客様の言われるとおり、全然違う数字になって変換されてしまいました。
(図をクリックすると拡大して表示します)
そこで、とりあえずPDF内のテキストがどうなっているか、Adobe Readerで表示したPDFからこの部分のテキストを抜き出してみました。
すると、以下のようなテキストになっていました。
------------
1 式
1200
1 式
7 801 式
------------
とりあえず、Excelの変換結果は元のPDFに入っている文字データをそのまま反映して変換されているらしいことが分かりました。
では、なぜこのPDFでは、文字が入っているのに見えないのでしょうか?
実際にPDFがどのようになっているか、ツール(残念ながら当社製ではありませんが)を使ってPDFの中身をみてみることにしましょう。
最初に見えている文字の部分を脇に移動してみます。元の文字があったところには特に何も見えません。
次に、何も見えないところを探してみますと、もうひとつ枠のない白い四角形がありました。
これもどかしてみますと...
白い枠の下から、なんと、"780"の文字が出てきました! 下の方に隠されていたんですね。
同じように、もう一箇所のところも上から順に重なっているものをどかしてみますと...
こちらには、やはり"1200"が隠されていました。
このPDFがどのように作られたものなのか分かりませんが、きっと何かPDFを編集するツールを使って既存の文字列を隠す形でこのような操作をしたのでしょう。
そういえば、アンテナハウスの人気ソフト『瞬簡PDF 書けまっせ』にも、[修正テープ]機能といって四角い枠でPDFに既にあるテキストや画像を見えなくしてしまう機能があります。
同じような処理がこのPDFにもされているわけで、このPDFだけ特殊ということではないかも知れません。
文字の上の四角形がどのような意図でそこに配置されたか、PDFを読んで変換する場合にはなかなか判断が難しいところです。 瞬簡PDF 変換では、現在、PDF内の文字を画像や線画より優先して変換する仕様としています。 このためPDF内にあるすべての文字データが変換先に反映されるようになっています。ですが、もしこのようなPDFがあちこちで作られているとしたら今後何かの対応が必要かもしれません。うーん、ちょっと悩ましいですねぇ。
さて、次回は「PDFでページ毎に分かれてしまった表をExcelで元に戻す方法」についてお話ししましょう。