テキスト抽出対象ファイル
アプリケーション Japanese English ChineseGBK ChineseBIG5 Korean OLE
Microsoft
Word Ver6/Ver7(95)/97/98/2000/XP/2001 for Macintosh
Excel Ver4/Ver5/Ver7(95)/ 97/98 for Macintosh/2000/XP
Excel 2001 for Macintosh
PowerPoint 95/97/2000/XP/2001 for Macintosh
RTF
Works 2000 - - - - -
JUSTSYSTEM
一太郎 Ver5/Ver6/Ver6.3/Dash2 - - - - -
一太郎 7/8/9/10/11/12/Lite - - - - -
Adobe
PDF 1.2/1.3/1.4
Adobe PageMaker 6.0/6.5
富士通
OASYS V3/V4/V5/V6/V7/V8 - - - - -
OASYS Online形式 - - - - -
Lotus
Lotus1-2-3 R5 - -
Lotus1-2-3 97/98/OASYS 1-2-3 V6/V7/V8 - -
Lotus1-2-3 2000 - - -
Lotus1-2-3 MillenniumEdition9.5 - - - - -
Claris
Mac WriteU - - - - -
ClarisWorks 4.0 - - - - -
Apple
AppleWorks 6 - - - -
Corel
WordPerfect Office 2000(WordPerfect 8/9 のみ) - - - -
Corel Presentations 9(Slide show 7/8/9) - - - -
Quark
QuarkXPress 3.3/4 - - - - -
AutoDesk
AutoCAD R13/LT95/R14/LT97/2000/2002 DXF
AutoCAD R13/LT95/R14/LT97/2000/2002 DWG
IGES - - - -
その他
HTML -
XML -
「注」
パスワードで保護されたファイル(PDFを除く)からテキスト抽出、変換、検索はできません。
OLEテキスト抽出とは、例えば、Word文書の中に埋め込んでいるExcel文書のテキストを抽出できます。抽出するかどうかは、設定することが可能です。本ソフトはリンクOLEオブジェクトは抽出できません。
表やデータベースファイルは、CSVファイルとして出力されます。
一太郎12は一太郎/8/9/10/11と同じカテゴリとして識別されます。AutoCAD2002はAutoCAD2000と同じカテゴリとして識別されます。


テキスト抽出仕様
  1. 共通仕様

    1.1制御コード
    • ワープロ本文中の制御コードのうち、改行コード以外の制御コードは削除します。

    1.2定義外文字
    • 抽出先の符号化方式で使われる基本文字集合にない文字は類似の文字(1 文字または1 文字の組合せ)にマップします。
    • 類似の文字が無い場合は、"〓"(2 バイト)、"?" (1 バイト)に書き換えて出力します。

    1.3 ユーザ外字
    • 抽出先の符号化方式でユーザ定義文字が使用可能な場合、アプリケーションのユーザ外字領域の先頭から順番に、ユーザ定義文字領域にマップします。
    • 抽出先の符号化文字集合で、ユーザ定義文字を使用できない場合は、アプリケーションのユーザ外字は、"〓"(2 バイト)、"?" (1 バイト)に書き換えて出力します。

    1.4 OLEオプジェクト抽出
    • 埋め込みOLEオプジェクトの3階層まで抽出できます。3階層以上の場合、エラーを返します。
    • リンクされるOLEオブジェクトは抽出できません。

    1.5 抽出されたテキストの順番は必ずしもレイアウトの表示結果と一致しません。

  2. ワープロ文書

    2.1全角文字罫線(一太郎、OASYS、OASYSオンラインのみ有効)
    • アプリケーションが全角文字罫線(罫線の高さが1 行を占め、幅が全角1 文字分を占める罫線)を使用している場合、全角文字罫線を出力する/しないを切りかえることができます。
    • 全角文字罫線を出力する場合は、文字罫線コードに置き換えて出力します。
    • 全角文字罫線を出力しない場合は、全角空白コードに置き換えて出力します。

    2.2その他の罫線
    • 全角文字罫線以外の種類の罫線は、削除します。

    2.3 表
    • 表は解除し、セルの内容を文書として抽出します。

    2.4 制限事項
    • 図形、イメージ、線画、枠、数式は無視します。
    • Word、RTF文書に挿入された自動更新の日付、時間は正しく抽出できません。
    • Word、RTF文書の特殊文字は一部抽出できません。
    • Word、RTFファイルのフィールドの内容は一部抽出できません。

    2.5 RTF
    • 番号付き段落の段落番号と箇条書きの行頭文字が抽出できます。
    • 制限事項
      1. 箇条書き
        箇条書きの行頭文字は、抽出先文字集合はどれが指定されでも「??」を出力します。
      2. 段落番号とアウトライン
        段落番号とアウトライン番号は、指定された抽出先文字集合に該当文字がある場合、抽出できますが、ない場合は、1.2書いた仕様に従って出力します。

    2.6 一太郎12
    • 制限事項
      1. 圧縮して保存した文書は識別、抽出できません。
      2. 文書中の特定の行に付ける行番号は抽出できません。
      3. マスキング
      フールド、入力ガイド内の文字は埋め文字で指定した文字に置き換わる場合、その指定した文字が抽出できますが、マスキング文書ではレイアウト枠は塗りつぶし色 で設定した色で塗りつぶされる場合、枠内の文字が抽出できません。

  3. プレゼンテーションファイル抽出仕様
    3.1テキスト抽出処理概要
    プレゼンテーション・ファイルからは、スライドとノートのテキストを抽出します。

    3.2 スライド番号は抽出しません。

    3.3抽出データ中のタグ出力
    オプションで「タグを出力する」を指定した場合、抽出時に以下のタグを付加して出力します。
    • <slide>、</slide>、<notes>、</notes>などのタグを出力します。
    • タグの出力仕様
      スライド1:<slide></slide>
      スライド2:<slide></slide>


      スライドn:<slide></slide>
      ノート1:<notes></notes>
      ノート2:<notes></notes>


      ノートn:<notes></notes>

      ※ スライド毎に<slide></slide>でスライドからの抽出データを括り、ノートからの抽出データを<slide>外に順番に出力します。

    3.4表内文字列の抽出は、元データが抽出されるテキストの順番と一致しません。

  4. 表計算
    • 表計算形式ファイルからテキストを抽出し、CSV 形式でテキストファイルに出力します。
      1. ワークシートの一行を文字列の一行として出力します。
      2. 行は上から順に出力します。
      3. 一行の終了には改行コードを出力します。
      4. データが存在しない行は改行コードのみ出力します。
      1. 一行内の出力は、列の先頭から列順に出力します。
      2. 列間は「,」で区切ります。
      3. データの無いセルは、データ無しとして出力します。 この場合「前セルデータ,後セルデータ」といった形で、「列区切りのカンマ」が連続して出力されることになります。
        但し、データが後ろに続かない場合は、最後の「,」は出力しないものとします。
    • セル
      1. 文字データセルは「"」で括って出力する場合、 出力する文字列に「"」、あるいは「\」が含まれる場合は「\」でエスケープして出力します。「"」で括らないて出力する場合、出力する文字列に「"」、あるいは「\」が含まれる場合、「\」でエスケープしません。
      2. フォント、配置、罫線、パターン書式は全て無視します。
      3. 色属性以外の表示書式は、反映して出力します。表示書式を反映した場合に、数値データセルであるにも関わらず数値文字でない文字が含まれてしまう場合は、文字列として出力します。 (指数表現など)
      4. 数値文字は「0 〜9 」の数値と符号である「+」「-」と小数点「.」から構成される文字列です。 符号は先頭になければなりません。 また小数点は数値文字列中に一つしか存在してはなりません。
      5. 数値は10 進数で表現されるものとします。
      6. セル内改行コードは半角空白に出力し、行を連結して出力します。

    • シート
      ワークシートの区切りには改行コードを出力します。
    • 以下の形式のファイルは抽出対象外となります。
      1. テンプレートファイル
      2. アドインファイル
      3. ワークシートが含まれないブックファイル
      4. セル値レコードをなにも含まないワークシート
      5. 含まれているワークシートすべてが変換対象で無いブックファイル
    • Excel抽出の制限事項
      1. ヘッダとフッタでは、指定された頁番号、頁数、日付、時刻、ファイル名、シート名を抽出しません。
      2. 「シートの保護」を設定したファイルが抽出できますが、「ブックの保護」を指定したファイルの抽出はできません。
  5. PDF
    • 文字と改行位置の不適当な場合があります。
    • ユーザ定義Cmap文字は抽出できない場合があります。または、symbol文字は文字化けする場合があります。
    • 立体文字に設定されている文字が、多重に出力されます。
    • 本製品は対応しているPDFファイルは、Windows版Acrobat3/4/5内に組み込まれている「PDFWriter」「Distiller」で出力された物のみです。上記以外のPDFに関しては、文字化け/抽出エラー等が発生する可能性があります。
    • PDFには、LZW圧縮されたテキスト部分があります。LZW圧縮テキストは抽出できません。
  6. CAD
    • テキストの抽出はその格納する座標値によって順序を並べます。優先順序はY-X-Zです。
  7. HTML
    • タグと属性を無視して、タグと属性以外の文字列を抽出します。
    • <TITLE>....</TITLE>間の文字列は、本文と区別するため、{....}ように抽出されます。
  8. XML
    • 文書の先頭に文字列<?xml version="1.0" ....?>があるファイルのみXMLファイルと認識します。(判定条件)
    • XMLファイルでスタイルシートファイルを指定した場合、そのスタイルシートファイル中のテキストをテキストファイルの先頭に抽出します。
    • タグと属性を無視して、タグと属性以外の文字列を抽出します。
  9. Macintosh
    • Office 2001:Mac、Excel98は、Appleのユーザ定義文字の抽出は保証できません。
  10. QuarkXPress
    • 制限事項
      削除された内容が抽出される場合があります。

パッケージ版ページへ戻る
サーバ版ページへ戻る