Word文書をXML形式に変換!

「Word文書」から「XML形式」への変換結果の一例です。
クリックで拡大されます。

変換サンプルのダウンロードはこちら。(LZH形式)

主な仕様
Microsoft WordのDOC文書を、DTDで定義されたXML形式に変換します。
Word文書をどのようなXMLに変換するのかの指定は、DTDおよびルールファイルによって行います。

特徴
Word文書に指定されたスタイルをXMLの要素に、テキストをその要素の内容に変換します。その場合に指定する要素名は任意に指定可能です。
特定のスタイルをトリガとして、それ以降のテキストを指定した要素の内容として出力することも出来ます。
Word文書のプロパティ(タイトルや作成者等)を任意の要素の内容として出力することが出来ます。
Word文書の文字に指定された文字書式情報(下線や太字等)、見出し、箇条書き、ブックマーク等の情報も、要素や属性として出力することが出来ます。
表については、表独自のルールが用意されていて、任意の形式での出力が可能です。
画像については、画像ファイルの出力を行い、その画像へのリンク情報をXMLに出力することが出来ます。

変換の仕組みの説明
変換は次の図のように2ステップで行います。
  1. 第一ステップ
    • Wordのバイナリ文書を、Wordの機能によるスタイル名、文字書式、箇条書き、表などの設定を要素型名、属性名と属性値とする中間XML形式にします。
    • 表の形式は、XHTML形式またはCALS形式の選択ができます。
    • CSSの出力もできます。
    • グラフィックスは、Wordの内部での保存形式によりEMF、PNGなどとなります。
  2. 第二ステップ
    • 中間形式のXMLからターゲットDTDのXMLに変換します。
    • この変換は、XMLから別のXMLへの変換です。
    • 弊社では、このために開発した特別な変換プログラムを使用します。
    • 変換プログラムは、ルールファイル(次項参照)を使って、タグのマッチングと置き換えを行います。
WordのDOCから中間形式XML変換
第一ステップ(WordのDOC形式から中間形式への変換)には次の2つの方式を開発しています。
  • Micorsoft Wordを動かして、WordにDOCからXMLへの変換を行わせる方式。この場合、変換を行うマシンに、Microsoft Word 2000またはXPがインストールされている必要があります。
  • Micrsoft Wordを使わないで、Wordで作成・保存したしたバイナリ形式ファイル(DOCファイル)を直接読むバージョンも開発中です。DOCファイルを直接読むバージョンを使えば、変換を行うマシンにMicrosoft Wordがインストールされている必要はありません。
ルールファイルについて
第二ステップのルールファイルは、XSLTに似た独自形式のXMLファイルです。
変換を行う際に、要素を挿入する位置をある程度DTDを見て判断するため、ルールファイルで全ての要素の挿入位置を指定する必要はありません。
要素の挿入可能位置が複数存在するような場合には、どこに挿入するのかの指定も可能です。
ルールファイルは、個別にカスタマイズが必要です。

制限事項
Word文書上で的確なスタイル付けがされてないと、自由に文書構造の指定が出来ず、平たんな構造のXMLにしか変換できません。
パスワードで保護された文書の変換はできません。あらかじめWord上でパスワードを解除していただく必要があります。

動作環境

対応OS: Microsoft Windows XP、2000、NT4.0

その他
製品の性格上、第二ステップの変換はカスタマイズが必要ですので、パッケージ化されてはおらず、個別見積もりとなります。なお、ご要望があれば、第一ステップのみの販売も致します。
※このU/Iはカスタマイズの一例です
お問い合わせ先
内容につきましてのお問い合わせは、sis@antenna.co.jpまでどうぞ

Last update: August 12, 2003
XMLトップページ Home Pageへ