■リッチ・テキスト・コンバータ2005のテキスト抽出処理仕様

 

ここでは、 『リッチ・テキスト・コンバータ2005』 に搭載された、プレゼンテーションデータや組版データからのテキスト抽出処理について、各文書形式毎に抽出可能なデータを説明します。

【対応形式】

※『リッチ・テキスト・コンバータ2005 パーソナル』では、PowerPointからのテキスト抽出のみ対応可能です。

PowerPoint
対応形式 PowerPoint 97/2000/2001/XP/2003
文字書式 以下の文字書式は無視してテキスト(文字データ)のみ抽出します。
   フォント
   スタイル
   サイズ
   文字色
   文字飾り
   フォント配置
   インデント
   文字の間隔
スライド  
 スライド番号 抽出できません。
 フッター 抽出します。
ノートと配布資料  
 テキストボックス 抽出します。
 ヘッダー 抽出します。
 ページ番号 抽出できません。
 フッター 抽出します。

箇条書き

テキストのみ抽出します。
段落番号 テキストのみ抽出します。
日付と時刻  
 固定方式 抽出します。
 自動更新 抽出できません。

コメント

抽出します。
テキストボックス 抽出します。
グラフ/チャート 無視します。
表内のテキストを抽出します。
ハイパーリンク ハイパーリンクのテキストを抽出します。
アウトラインからスライド 抽出します。
記号と特殊文字 数字、アルファベット、漢字、符号を抽出します。
クリップアート 無視します。
オートシェイプ 以下のオートシェイプからはテキストのみ抽出します。
   線
   コネクタ
   基本図形
   ブロック矢印
   ローチャート
   星とリボン
   吹き出し

組織図

無視します。
ワードアート テキストを抽出します。
OLEオブジェクト OLEオブジェクトとして埋め込まれたWord97以降、Excel97、PowerPoint97以降のテキストを三階層まで抽出します。
その他 PowerPoint2003で暗号化された文書からは抽出できません。

戻る

Quark XPress
対応形式 Quark XPress 3.3/4
フォント フォントの種類は変換しません。
サイズ フォントのサイズは無視します。
ルビ 抽出できません。
文字飾り 以下の文字飾りは無視してテキスト(文字データ)のみ抽出します。
 オールキャップス
 スモールキャップス
 アンダーライン
 ワードアンダーライン
 アウトライン
 シャドウ
 上付き
 下付き
 肩文字
スタイル 以下のスタイルは無視してテキストのみ抽出します。
 文字の変形
 シェード(テキスト)
 トラッキング(字送り)
 ベースラインシフト
 水平フリップ
 垂直フリップ
 縦組み中の文字の回転
 縦組み/横組み
 行揃え
 行送り
 ドロップキャップス
テキストパスツール 抽出します。
テキストのボックス化 抽出できません。
方形テキストボックスツール テキストボックス内のテキストを抽出します。
リンク OLEオブジェクト内のテキストは抽出できません。
図形 図形内のテキストを抽出します。
回転ツール 抽出します。

戻る

 

PageMaker
対応形式 PageMaker 6.0/6.5J
フォント フォントの種類は変換しません。
サイズ フォントのサイズは無視します。
ルビ 抽出できません。
文書書式 以下の設定は無視してテキスト(文字データ)のみ抽出します。
 行送り
 行揃え
 字下げ
 段落間隔
 縦中横
文字飾り 以下の文字飾りは無視してテキストのみ抽出します。
 文字間隔
 文字幅
 文字位置
 文字色
 傍点
 合成文字
 網掛け枠囲い
 縦書き/横書き

オブジェクト

以下のオブジェクトは無視します。

 線
 塗り
 フレーム
 アレンジ
 画像
 多角形
OLEオブジェクト OLEオブジェクトとして埋め込まれたWord97以降、Excel97、PowerPoint97以降のテキストを三階層まで抽出します。

戻る

 

WordPerfect
対応形式 WordPerfect 7/8/9
フォント フォントの種類は変換しません。
サイズ フォントのサイズは無視します。
ふりがな 抽出できません。
文書書式 以下の設定は無視してテキスト(文字データ)のみ抽出します。
 段組
 行
 ドロップキャップ
 枠線塗りつぶし
 縦/横書き
 アウトライン/箇条書き
特殊文字/記号 テキストのみ抽出します。
日付/時刻 抽出します。
割り注 抽出します。
ラベル 無視します。
抽出します。
ヘッダ/フッタ 抽出します。
脚注/巻末脚注 抽出します。
透かし絵 無視します。
グラフィック 無視します。
線と図形 無視します。
数式 抽出できません。

オブジェクト

以下のオブジェクトは無視します。

 チャート
 イメージファイル

テキストボックス

抽出します。

コメント

抽出できません。
ハイパーリンク 抽出します。
しおり 抽出します。
OLEオブジェクト OLEオブジェクトとして埋め込まれたWord97以降、Excel97、PowerPoint97以降のテキストを三階層まで抽出します。

戻る

 

Slide Show
対応形式 Presentations 7/8/9
フォント フォントの種類は変換しません。
サイズ フォントのサイズは無視します。
文書書式 以下の設定は無視してテキスト(文字データ)のみ抽出します。
 段落
 揃え
 カーニング
 箇条書き
特殊文字/記号 テキストのみ抽出します。
日付/時刻 抽出します。
テキスト行 抽出します。
組織図 無視します。
チャート 無視します。
グラフィック 無視します。
線と図形 無視します。
数式 抽出できません。

スプレッドシート

無視します。

テキストボックス 抽出します。
プロパティ 抽出しません。
OLEオブジェクト OLEオブジェクトとして埋め込まれたWord97以降、Excel97、PowerPoint97以降のテキストを三階層まで抽出します。

戻る

 

AutoCad(DXF/DWG)
対応形式 AutoCad R13/R14/2000/2002
Insert
 ・Block 内容を文末に抽出します。
 ・External Reference 外部引用のファイルはファイルパスのみ抽出します。

Format

 ・Text Style 抽出しません。
 ・Dimention Style 抽出しません。

 ・Units

テキストのみ抽出します。
Draw
 ・Multi Line Text 抽出します。
 ・Single Line Text 抽出します。
Dimention
 ・Linear 抽出します。
 ・Aligned 抽出します。
 ・Ordinate 抽出します。
 ・Radius 抽出します。
 ・Diameter

抽出します。

 ・Angular 抽出します。
 ・Tolerance 抽出します。
OLEオブジェクト OLEオブジェクトとして埋め込まれたWord97以降、Excel97、PowerPoint97以降のテキストを三階層まで抽出します。
※テキストの抽出はその格納する座標値によって順序を並べます。優先順序はY-X-Zです。

戻る

 

IGES
対応形式 IGES
Insert
 ・Block 内容を文末に抽出します。
 ・External Reference 外部引用のファイルはファイルパスのみ抽出します。

Format

 ・Text Style 抽出しません。
 ・Dimention Style 抽出しません。

 ・Units

テキストのみ抽出します。
Draw
 ・Multi Line Text 抽出します。
 ・Single Line Text 抽出します。
Dimention
 ・Linear 抽出します。
 ・Aligned 抽出します。
 ・Ordinate 抽出します。
 ・Radius 抽出します。
 ・Diameter

抽出します。

 ・Angular 抽出します。
 ・Tolerance 抽出します。
OLEオブジェクト 抽出できません。

戻る

 

XML
対応形式 XMLドキュメント
本文 タグ<>と</>間の文字を抽出します。
CDATA CDATAで定義した内容を抽出します。
文字列の引用 抽出します。
テーブル 抽出します。
ハイパーリンク 抽出します。
実体の引用 抽出します。
イメージ、画像 無視します。

※ファイルの先頭に <?XML version = “1.0”?> があるファイルをXMLファイルと判定します。

※スタイルシート(xls)ファイルからは抽出できません。
※ 対になったタグ<>と</>、或は<>と<>間の文字を抽出し、改行コードを付加します。
※ルビ文字は被ルビ文字の後に続けて出力します。
※テーブル内のデータは、各セルの内容を1行にして出力します。
※タグ<>と</>間の改行コードは無視して一つの半角スペースを出力します。
※タグ<>と</>間に半角スペースが連続してある場合は、一つの半角スペースにして抽出します。