テキスト抽出対象ファイル
アプリケーション Japanese English GB18030 GBK BIG5 Korean OLE
Microsoft
Word Ver6/Ver7(95)/97/98/2000/XP/2003/2001 for Macintosh
Excel Ver4/Ver5/Ver7(95)/ 97/98 for Macintosh
/2000/XP/
2003/2001 for Macintosh
PowerPoint 95/97/2000/XP/2003/2001 for Macintosh
RTF
Works 2000 - - - - - -
Visio 2000/2002/2004 - - - - -
Visio
Visio V4/V5 - - - - -
ジャストシステム
一太郎 Ver5/Ver6/Ver6.3/Dash2 - - - - - -
一太郎 7/8/9/10/11/12/13/2004/2005/Lite - - - - - -
Adobe
Adobe PageMaker 6.0/6.5/7.0
PDF
Acrobat PDF 1.2/1.3/1.4/1.5/1.6、
いきなりPDF Professional、Antenna House PDF Driver
富士通
OASYS V3/V4/V5/V6/V7/V8/2002 - - - - - -
OASYS Online形式 - - - - - -
Lotus
Lotus1-2-3 R5 - -
Lotus1-2-3 97/98/OASYS 1-2-3 V6/V7/V8 - -
Lotus1-2-3 2000 - - -
Lotus1-2-3 MillenniumEdition9.5 - - - - - -
Claris
Mac WriteII - - - - - -
ClarisWorks 4.0 - - - - - -
Apple
AppleWorks 6 - - - - -
Corel
WordPerfect Office 2000(WordPerfect 8/9 のみ) - - - -
Corel Presentations 9(Slide show 7/8/9) - - - - -
Quark
QuarkXPress 3.3/4 - - - - - -
AutoDesk
AutoCAD R13/LT95/R14/LT97/2000/2002 DXF
AutoCAD R13/LT95/R14/LT97/2000/2002 DWG
IGES - - - - -
富士ゼロックス
DocuWorks V4.x/V5.x/V6.x - - - -
金山ソフト
WPS Office 97/2000/2002/2003(金山文字のみ) - - -
その他
HTML -
XML -
「注」
パスワードで保護されたファイル(PDFを除く)からテキスト抽出、変換、検索はできません。
OLEテキスト抽出とは、例えば、Word文書の中に埋め込んでいるExcel文書のテキストを抽出できます。抽出するかどうかは、設定することが可能です。本ソフトはリンクOLEオブジェクトは抽出できません。
MicrosoftのIRM(InformationRightmanagement)機能を使って、ドキュメントへのアクセスの制限(閲覧、変更Etc.)を設定したWord2003、Excel2003、PowerPoint2003ファイルからのテキスト抽出はできません。
2GByteを超えるファイルからのテキスト抽出はできません。
表やデータベースファイルは、CSVファイルとして出力されます。
一太郎12/13は、一太郎/8/9/10/11と同じカテゴリとして識別されます。AutoCAD2002はAutoCAD2000と同じカテゴリとして識別されます。


テキスト抽出仕様
  1. 共通仕様

    1.1制御コード
    • ワープロ本文中の制御コードのうち、改行コード以外の制御コードは削除します。

    1.2定義外文字
    • 抽出先の符号化方式で使われる基本文字集合にない文字は類似の文字(1 文字または1 文字の組合せ)にマップします。
    • 類似の文字が無い場合は、"〓"(2 バイト)、"?" (1 バイト)に書き換えて出力します。

    1.3 ユーザ外字
    • 抽出先の符号化文字集合で、ユーザ定義文字を使用できない場合は、アプリケーションのユーザ外字は、"〓"(2 バイト)、"?" (1 バイト)に書き換えて出力します。

    1.4 OLEオプジェクト抽出
    • 埋め込みOLEオプジェクトの3階層まで抽出できます。3階層以上の場合、エラーを返します。
    • リンクされるOLEオブジェクトは抽出できません。

    1.5 圧縮ファイルからの抽出
    • パスワードで保護したファイルからテキスト抽出はできません。
    • OASYS分離形式ファイル(*.doc, *.fmt)のテキスト抽出には、圧縮ファイル中のファイルを一つづ解凍→テキスト抽出→解凍されたファイルを削除という処理をしている為に、テキスト抽出はできません。
    • 圧縮ファイル内のファイルに対してプロパティ抽出、ページ抽出、PDFのパスワード文書の抽出には対応していません。

    1.6 ストリームへの抽出
    • ストリームからのテキスト抽出はできません。
    • 暗号付PDFファイルのストリームへの抽出はできません。

    1.7 抽出されたテキストの順番は必ずしもレイアウトの表示結果と一致しません。

  2. ワープロ文書

    2.1全角文字罫線(一太郎、OASYS、OASYSオンラインのみ有効)
    • アプリケーションが全角文字罫線(罫線の高さが1 行を占め、幅が全角1 文字分を占める罫線)を使用している場合、全角文字罫線を出力する/しないを切りかえることができます。
    • 全角文字罫線を出力する場合は、文字罫線コードに置き換えて出力します。
    • 全角文字罫線を出力しない場合は、全角空白コードに置き換えて出力します。

    2.2その他の罫線
    • 全角文字罫線以外の種類の罫線は、削除します。

    2.3 表
    • 表は解除し、セルの内容を文書として抽出します。

    2.4 制限事項
    • 図形、イメージ、線画、枠、数式は無視します。
    • Word、RTF文書に挿入された自動更新の日付、時間は正しく抽出できません。
    • Word、RTF文書の特殊文字は一部抽出できません。
    • Word、RTFファイルのフィールドの内容は一部抽出できません。

    2.5 RTF
    • 番号付き段落の段落番号と箇条書きの行頭文字が抽出できます。
    • 制限事項
      1. 箇条書き
        箇条書きの行頭文字は、抽出先文字集合はどれが指定されでも「??」を出力します。
      2. 段落番号とアウトライン
        段落番号とアウトライン番号は、指定された抽出先文字集合に該当文字がある場合、抽出できますが、ない場合は、1.2書いた仕様に従って出力します。

    2.6 一太郎12、13、一太郎2004、一太郎2005
    • 制限事項
      1. ファイルの識別結果としては、「Ichitaro 8/9/10/11」となります。
      2. 圧縮して保存した文書は識別、抽出できません。
      3. 文書中の特定の行に付ける行番号は抽出できません。
      4. マスキング
      フールド、入力ガイド内の文字は埋め文字で指定した文字に置き換わる場合、その指定した文字が抽出できますが、マスキング文書ではレイアウト枠は塗りつぶし色 で設定した色で塗りつぶされる場合、枠内の文字が抽出できません。

  3. プレゼンテーションファイル抽出仕様
    3.1テキスト抽出処理概要
    プレゼンテーション・ファイルからは、スライドとノートのテキストを抽出します。

    3.2 スライド番号は抽出しません。

    3.3抽出データ中のタグ出力
    オプションで「タグを出力する」を指定した場合、抽出時に以下のタグを付加して出力します。
    • <slide>、</slide>、<notes>、</notes>などのタグを出力します。
    • タグの出力仕様
      スライド1:<slide></slide>
      スライド2:<slide></slide>


      スライドn:<slide></slide>
      ノート1:<notes></notes>
      ノート2:<notes></notes>


      ノートn:<notes></notes>

      ※ スライド毎に<slide></slide>でスライドからの抽出データを括り、ノートからの抽出データを<slide>外に順番に出力します。

  4. 表計算
    • 表計算形式ファイルからテキストを抽出し、CSV 形式でテキストファイルに出力します。
      1. ワークシートの一行を文字列の一行として出力します。
      2. 行は上から順に出力します。
      3. 一行の終了には改行コードを出力します。
      4. データが存在しない行は改行コードのみ出力します。
      1. 一行内の出力は、列の先頭から列順に出力します。
      2. 列間は「,」で区切ります。
      3. データの無いセルは、データ無しとして出力します。 この場合「前セルデータ,後セルデータ」といった形で、「列区切りのカンマ」が連続して出力されることになります。
        但し、データが後ろに続かない場合は、最後の「,」は出力しないものとします。
    • セル
      1. 文字データセルは「"」で括って出力する場合、 出力する文字列に「"」、あるいは「\」が含まれる場合は「\」でエスケープして出力します。「"」で括らないて出力する場合、出力する文字列に「"」、あるいは「\」が含まれる場合、「\」でエスケープしません。
      2. フォント、配置、罫線、パターン書式は全て無視します。
      3. 色属性以外の表示書式は、反映して出力します。表示書式を反映した場合に、数値データセルであるにも関わらず数値文字でない文字が含まれてしまう場合は、文字列として出力します。 (指数表現など)
      4. 数値文字は「0 〜9 」の数値と符号である「+」「-」と小数点「.」から構成される文字列です。 符号は先頭になければなりません。 また小数点は数値文字列中に一つしか存在してはなりません。
      5. 数値は10 進数で表現されるものとします。
      6. セル内改行コードは半角空白に出力し、行を連結して出力します。

    • シート
      ワークシートの区切りには改行コードを出力します。
    • 以下の形式のファイルは抽出対象外となります。
      1. テンプレートファイル
      2. アドインファイル
      3. ワークシートが含まれないブックファイル
      4. セル値レコードをなにも含まないワークシート
      5. 含まれているワークシートすべてが変換対象で無いブックファイル
    • Excel抽出の制限事項
      1. ヘッダとフッタでは、指定された頁番号、頁数、日付、時刻、ファイル名、シート名を抽出しません。
      2. 「シートの保護」を設定したファイルが抽出できますが、「ブックの保護」を指定したファイルの抽出はできません。
      3. セルのプロパティ設定で【ユーザ定義】を選択されている場合は、表示されている文字列と抽出結果文字列が一致しない場合が有ります。
  5. PDF
    • 文字と改行位置が不適当な場合があります。
    • TYPE3フォントは抽出できません。
    • ユーザ定義Cmap文字は抽出できない場合があります。または、symbol文字は文字化けする場合があります。
    • 立体文字に設定されている文字が、多重に出力されます。
    • 文字のフォントがWingdingsの時、該当文字が抽出できません。例えば、Word、PPT文書で作成した箇条書きの行頭文字(○●◆□■など)をPDFファイルに変換すると、該当行頭文字が正しく抽出できません。
    • Acrobatの「テキスト選択ツール」でコピーできない文字が抽出できません。
    • Acrobat 7のセキュリティの設定で、互換性のある形式が"Acrobat7.0およびそれ以降"に設定されているファイルからのテキスト抽出はできません
    • 本製品は対応しているPDFファイルは、Windows版Acrobat3/4/5/6/7内に組み込まれている「PDFWriter」「Distiller」及びアンテナハウス社製PDF ドライバで出力された物のみです。上記以外のPDFに関しては、文字化け/抽出エラー等が発生する可能性があります。
  6. CAD
    • テキストの抽出はその格納する座標値によって順序を並べます。優先順序はY-X-Zです。
  7. HTML
    • タグと属性を無視して、タグと属性以外の文字列を抽出します。
    • <TITLE>....</TITLE>間の文字列は、本文と区別するため、{....}ように抽出されます。
  8. XML
    • 文書の先頭に文字列<?xml version="1.0" ....?>があるファイルのみXMLファイルと認識します。(判定条件)
    • XMLファイルでスタイルシートファイルを指定した場合、そのスタイルシートファイル中のテキストをテキストファイルの先頭に抽出します。
    • タグと属性を無視して、タグと属性以外の文字列を抽出します。
    • Office2003で作成するXMLファイルは「Word XML」、「Excel XML」と識別されます。
    • Office2003で作成するXMLファイル中のOLEは抽出できません。
  9. Office 2001 for Macintosh
    • Office 2001:Mac、Excel98は、Appleのユーザ定義文字の抽出は保証できません。
  10. QuarkXPress
    • 制限事項
      削除された内容が抽出される場合があります。
  11. DocuWorks
    • セキュリティが設定されたファイルはエラーとなります。
    • 太文字、影付きで修飾された文字が、複数の文字が出力されます。
    • テキストの抽出結果は、格納されているテキストデータの座標値によって出力順序が変わります。見た目では、頁の先頭にある文字(段落)でも頁の先頭に出力されるとは限りません。格納されている座標値に依存します。頁内の枠内文字列は、本文の先頭に抽出されます。
    • 縦書きテキストは一文字毎に改行されます。
    • DocuWorks文書中に添付された外部ファイルあるいは埋め込んだOLEオブジェクト(MS Word/Excel/PowerPoint/RTF、PDF、DocuWorks、一太郎、OASYS(複合型、結合型)、AutoCAD R14/LT97 DWG、HTML、WordPerfect)のテキストが抽出できます。(実際にOLE埋め込みされたファイルの抽出に対応するには、それぞれの抽出対応エンジンが必要です。)Lotus1-2-3は対応していません。
  12. Visio
    • 自動更新の日付、時間は正しく抽出できません。
    • ヘッダ/フッタ内[p,P,t,d,D]の特殊文字は抽出しません。
    • ヘッダ/フッタは以下のようにシートごと抽出します。
      1 sheet目の名称
      header / footer
      1 sheet目の内容
      2 sheet目の名称
      Header / footer
      2 sheet目の内容

    • フィールド文字の抽出がされない場合があります。


サーバ版ページへ戻る