既存ドキュメントの再利用とXML化に!
価格:12,800
5月18日出荷開始!
  
       

製品概要
文書を作成したアプリケーションが無くても、文書を直接読み込んで、テキスト部分だけを抜き出すことができます。
また、OLEオブジェクトからもテキスト文字列を抽出できます。

「TagEditor」を購入された方は、「TagEditor」のメニューから「TextExport」を起動する事や、本製品のメニューから「TagEditor」や他のツールを起動する事もできるようになっています。


制限事項
パスワードで保護されたファイルからのテキスト抽出はできません。あらかじめオリジナルのアプリケーションでパスワードを解除していただく必要があります。


動作環境
CPU:インテルx86系(WindowsNTの場合)
対応OS:Microsoft Windows/95/98/2000/NT4.0

※Windows2000/NT4.0の場合、Administratorの権限がないとインストールできません。
※本ソフトはクライアントライセンス専用です。 サーバライセンス版につきましては別途開発中です。


テキスト抽出対象ファイル
Microsoft Word V6/V7(95)/97/98/2000
Microsoft Excel V4/V5/V7(95)/97/98 for Macintosh/2000
Microsoft PowerPoint 95/97/2000
Microsoft RTF 1.3/1.4/1.5
Adobe Acrobat PDF 1.2/1.3
富士通 OASYS V3/4/5/6/7 分離形式
富士通 OASYS V3/4/5/6/7 OA2形式
富士通 OASYS V3/4/5/6/7 OA3形式
富士通 OASYSオンライン形式
Lotus 1-2-3 97/98/MillenniumEdition9.5/2000/OASYS 1-2-3 97
Lotus 1-2-3 R5
JUSTSYSTEM 一太郎 V6/V6.3/dash2
JUSTSYSTEM 一太郎 7/8/9/lite/10



OLEテキスト抽出対象ファイル
Microsoft Word Ver6/95/97/2000
Microsoft Excel Ver5/95/97/2000
Microsoft RTF
Microsoft Powerpoint 95/97/2000
Adobe PDF 1.2/1.3
JUSTSYSTEM 一太郎 7/8/9/10

※抽出するかどうかは、設定する事が可能。


共通仕様
抽出したテキストの符号化方式はWindows-31J固定です。
 
制御コードについて
    ワープロの本文中の制御コードのうち、TAB 、改行コード以外の制御コードは削除します。
定義外文字
  抽出先の符号化方式で使われる基本文字集合にない文字は類似の文字(1 文字または1 文字の組合せ)にマップします。
類似の文字が無い場合は、"〓"(2 バイト)、"?" (1 バイト)に置換します。
ユーザ外字
抽出先の符号化方式でユーザ定義文字を使用可能な場合、アプリケーションのユーザ外字領域の先頭から順番に、ユーザ定義文字領域にマップします。
抽出先の符号化文字集合で、ユーザ定義文字を使用できない場合は、アプリケーションのユーザ外字は、"〓"(2 バイト)、"?" (1 バイト)に置換します。
抽出できないPDFファイル
Macintosh CPU 68000系 で作成されたPDFのLZW圧縮されたテキスト部分はテキストを抽出できません。
OLEオブジェクト抽出
OLEオブジェクトの3階層まで抽出できます。4階層以上の場合、エラーとなります。


ワープロに関する仕様
●全角文字罫線(一太郎Ver.6、OASYS、OASYSオンラインのみ有効)について
アプリケーションが全角文字罫線(罫線の高さが1 行を占め、幅が全角1 文字分を占める罫線)を使用している場合、全角文字罫線を出力する/しないを設定で切りかえることができます。
全角文字罫線を出力する場合は、文字罫線コードに置き換えて出力します。
全角文字罫線を出力しない場合は、全角空白コードに置き換えて出力します。

その他の罫線について
    全角文字罫線以外の種類の罫線は、削除します。
表について
  表は解除し、セルの内容を文章として抽出します。
制限事項
図形、イメージ、線画、枠、数式は無視します。
Word、RTF文書に挿入された自動更新の日付、時間は正しく抽出できません。
Word、RTF文書の特殊文字は一部抽出できません。
Word、RTFファイルのフィールドの内容は一部抽出できません。


プレゼンテーションファイルに関する仕様
●プレゼンテーション・ファイルからは、スライドとノートのテキストを抽出します。

●スライド番号は抽出しません。

●スライドとノートを区別するタグの出力について
各種設定で「タグを出力する」を指定した場合、抽出時に以下のタグを付加して出力します。
<slide>、</slide>、<notes>、</notes>などのタグを出力します。

タグの出力仕様
 スライド1:<slide></slide>
 スライド2:<slide></slide>



 スライドn:<slide></slide>
  ノート1:<notes></notes>
  ノート2:<notes></notes>



ノートn:<notes></notes>

※ スライド毎に<slide></slide>でスライドからの抽出データを括り、ノートからの抽出データを<slide>外に順番に出力します。


表計算に関する仕様

●表計算形式ファイルからテキストを抽出し、CSV 形式でテキストファイルに出力します。
●行
   
  1. ワークシートの一行を文字列の一行として出力します。
  2. 行は上から順に出力します。
  3. 一行の終了には改行コードを出力します。
  4. データが存在しない行は改行コードのみ出力します。
  5. 後続する行が存在しない場合は連続する空行は出力しません。 従って、ワークシートの最後に空行が一行出力されることになります。
●列
 
  1. 一行内の出力は、列の先頭から列順に出力します。
  2. 列間は「,」で区切ります。
  3. データの無いセルは、データ無しとして出力します。 この場合「前セルデータ,後セルデータ」といった形で、「列区切りのカンマ」が連続して出力されることになります。 但し、データが後ろに続かない場合は、最後の「,」は出力しないものとします。
●セル
  1. 文字データセルは「"」で括って出力します。 出力する文字列に「"」が含まれる場合は「\」でエスケープして出力します。
  2. フォント、配置、罫線、パターン書式は全て無視します。
  3. 色属性以外の表示書式は、反映して出力します。表示書式を反映した場合に、数値データセルであるにも関わらず数値文字でない文字が含まれてしまう場合は、文字列として「"」で括って出力します。 (指数表現など)
  4. 数値文字は「0 〜9 」の数値と符号である「+」「-」と小数点「.」から構成される文字列です。 符号は先頭になければなりません。 また、小数点は数値文字列中に一つしか存在してはなりません。
  5. 数値は10 進数で表現されるものとします。
  6. セル内改行コードは無視し、行を連結して出力します。
●シート
ワークシートの区切りには改行コードを出力します。
●以下の形式のファイルは抽出対象外となります。
  1. テンプレートファイル
  2. アドインファイル
  3. ワークシートが含まれないブックファイル
  4. セル値レコードをなにも含まないワークシート
  5. 含まれているワークシートすべてが変換対象で無いブックファイル
●Excel98(Macintosh)の外字の抽出は保証できません。


PDFに関する仕様
●文字と改行位置に不適当な場合があります。
 
●抽出されたテキストの順番は必ずしもPDF の表示結果と一致しません。

●ユーザ定義Cmap文字は抽出できない場合があります。または、symbol文字は文字化けする場合があります。

●立体文字に設定されている文字が、3重に出力されます。

販売は終了しました。




XMLトップページ
Home Pageへ