TextPorter 機能紹介：テキスト抽出仕様

共通仕様

制御コード

ワープロ本文中の制御コードのうち、改行コード以外の制御コードは削除します。

定義外文字

抽出先の符号化方式で使われる基本文字集合にない文字は類似の文字(1 文字または1 文字の組合せ)にマップします。
類似の文字が無い場合は、"〓"（2 バイト）、"？" (1 バイト)に書き換えて出力します。

ユーザ外字

抽出先の符号化文字集合で、ユーザ定義文字を使用できない場合は、アプリケーションのユーザ外字は、"〓"（2 バイト）、"？" (1 バイト)に書き換えて出力します。

OLEオプジェクト抽出

埋め込みOLEオプジェクトの３階層まで抽出できます。３階層以上の場合、エラーを返します。
リンクされるOLEオブジェクトは抽出できません。
暗号化されたMicrosoft Officeファイルが、その中にOLEで埋め込まれたものを含む場合、OLEで埋め込まれたものは、抽出できません。
暗号化されたMicrosoft Officeファイルが、他のアプリケーションに添付された場合は、抽出できません。

圧縮ファイルからの抽出

パスワードで保護したファイルからテキスト抽出はできません。
OASYS分離形式ファイル（*.doc, *.fmt）のテキスト抽出には、圧縮ファイル中のファイルを一つづ解凍→テキスト抽出→解凍されたファイルを削除という処理をしている為に、テキスト抽出はできません。
圧縮ファイル内のファイルに対してプロパティ抽出、ページ抽出、PDFのパスワード文書の抽出には対応していません。
LZH形式は、lha5/lha6/lha7 をサポートしております。
自己解凍形式の圧縮ファイルには対応しておりません。
RAR形式は、RAR5 をサポートしておりません。

ストリームへの抽出

ストリームからのテキスト抽出はできません。
暗号付PDFファイルのストリームへの抽出はできません。
Windows x64版でストリーム使用する場合は、setlocale()にてロケールの設定を行ってください。

その他

抽出されたテキストの順番は必ずしもレイアウトの表示結果と一致しません。

制限事項

このページに記述がない制限事項については、マニュアルを参照してください。マニュアルは評価版をお申し込みいただくと、ダウンロードできます。

ワープロ文書

全角文字罫線（一太郎、OASYS、OASYSオンラインのみ有効）

アプリケーションが全角文字罫線（罫線の高さが1 行を占め、幅が全角1 文字分を占める罫線）を使用している場合、全角文字罫線を出力する/しないを切りかえることができます。
全角文字罫線を出力する場合は、文字罫線コードに置き換えて出力します。
全角文字罫線を出力しない場合は、全角空白コードに置き換えて出力します。

その他の罫線

全角文字罫線以外の種類の罫線は、削除します。

表

表は解除し、セルの内容を文書として抽出します。

制限事項

図形、イメージ、線画、枠、数式は無視します。
Word、RTF文書に挿入された自動更新の日付、時間は正しく抽出できません。
Word、RTF文書の特殊文字は一部抽出できません。
Word、RTFファイルのフィールドの内容は一部抽出できません。

RTF

番号付き段落の段落番号と箇条書きの行頭文字が抽出できます。

制限事項

箇条書き
箇条書きの行頭文字は、抽出先文字集合はどれが指定されでも「??」を出力します。
段落番号とアウトライン
段落番号とアウトライン番号は、指定された抽出先文字集合に該当文字がある場合は抽出できますが、ない場合は、定義外文字の仕様に従って出力します。

一太郎8から13、一太郎2004から2023

制限事項

ファイルの識別結果としては、「Ichitaro Document」となります。
圧縮して保存した文書は識別、抽出できません。
文書中の特定の行に付ける行番号は抽出できません。
マスキング
フールド、入力ガイド内の文字は埋め文字で指定した文字に置き換わる場合、その指定した文字が抽出できますが、マスキング文書ではレイアウト枠は塗りつぶし色で設定した色で塗りつぶされる場合、枠内の文字が抽出できません。

プレゼンテーションファイル

テキスト抽出処理概要

スライド番号は抽出しません。

抽出データ中のタグ出力
オプションで「タグを出力する」を指定した場合、抽出時に以下のタグを付加して出力します。

<slide>、</slide>、<notes>、</notes>などのタグを出力します。

タグの出力仕様

タグの出力順番

スライド１：<slide></slide>
スライド２：<slide></slide>
・
・
スライドｎ：<slide></slide>
ノート１：<notes></notes>
ノート２：<notes></notes>
・
・
ノートｎ：<notes></notes>
※ スライド毎に<slide></slide>でスライドからの抽出データを括り、ノートからの抽出データを<slide>外に順番に出力します。

表計算

テキスト抽出処理概要

表計算形式ファイルからテキストを抽出し、CSV 形式でテキストファイルに出力します。

行

ワークシートの一行を文字列の一行として出力します。
行は上から順に出力します。
一行の終了には改行コードを出力します。
データが存在しない行は改行コードのみ出力します。

列

一行内の出力は、列の先頭から列順に出力します。
列間は「,」で区切ります。
データの無いセルは、データ無しとして出力します。この場合「前セルデータ,後セルデータ」といった形で、「列区切りのカンマ」が連続して出力されることになります。
但し、データが後ろに続かない場合は、最後の「,」は出力しないものとします。

セル

文字データセルは「"」で括って出力する場合、出力する文字列に「"」、あるいは「\」が含まれる場合は「\」でエスケープして出力します。「"」で括らないて出力する場合、出力する文字列に「"」、あるいは「\」が含まれる場合、「\」でエスケープしません。
フォント、配置、罫線、パターン書式は全て無視します。
色属性以外の表示書式は、反映して出力します。表示書式を反映した場合に、数値データセルであるにも関わらず数値文字でない文字が含まれてしまう場合は、文字列として出力します。（指数表現など）
数値文字は「0 ～9 」の数値と符号である「+」「-」と小数点「.」から構成される文字列です。符号は先頭になければなりません。また小数点は数値文字列中に一つしか存在してはなりません。
数値は10 進数で表現されるものとします。
Excel2007 からの抽出時、小数点以下の数値が丸められて抽出される場合があります。
セル内改行コードは半角空白に出力し、行を連結して出力します。
DMC_GETTEXT_OPT1_OUTPUT_RAW_NLを指定すると、セル内改行を半角空白にせず、出力します。出力する改行コードは、
DMC_GETTEXT_OPT_CRLF (デフォルト)
DMC_GETTEXT_OPT_CR
DMC_GETTEXT_OPT_LF
DMC_GETTEXT_OPT_U2028
DMC_GETTEXT_OPT_U2029
の指定に従います。

シート

ワークシートの区切りには改行コードを出力します。

以下の形式のファイルは抽出対象外となります。

テンプレートファイル（Excel2007 除く）
アドインファイル
ワークシートが含まれないブックファイル
セル値レコードをなにも含まないワークシート
含まれているワークシートすべてが変換対象で無いブックファイル

Excel抽出の制限事項

ヘッダとフッタでは、指定された頁番号、頁数、日付、時刻、ファイル名、シート名を抽出しません。
「シートの保護」を設定したファイルは抽出できますが、「ブックの保護」を指定したファイルの抽出はできません。
セルのプロパティ設定で【ユーザ定義】が選択されている場合は、表示されている文字列と抽出結果文字列が一致しない場合があります。

PDF

制限事項

PDFの仕様に準拠していないPDFは、動作保証ができません。

PDF抽出モジュールは、V4.1より新しいモジュールを採用しております。旧バージョンと抽出結果が異なる場合があります。主な違いは以下の通り。

抽出処理速度が従来のモジュールよりも遅くなります。
抽出順番が従来の出力と異なる場合があります。

PDFパッケージ(Acrobat 9 ポートフォリオ)に対応しております。PDFパッケージを抽出する場合は、オプション DMC_GETTEXT_OPT1_INSERTF を指定してください。指定しない場合は表紙のみの抽出となります。
文字と改行位置が不適当な場合があります。
文字間の空白が無視。または、挿入される場合があります。
文字のフォントがType3の時、正しく抽出できません。
ユーザ定義CMap文字は抽出できない場合があります。または、symbol文字は文字化けする場合があります。
立体文字に設定されている文字が、多重に出力されます。
文字のフォントがWingdingsの時、該当文字が抽出できません。
Word、PowerPoint文書の場合、箇条書きの行頭文字（○●◆□■など）が、正しく抽出できない場合があります。
Acrobatの「テキスト選択ツール」でコピーできない文字が抽出できません。
ScanSnapで作成されたフォントが「NotDefSpecial」で、PDF内で「Adobe-Identity-UCS 」のCMapエンコーディングを参照しているPDFファイルは正しく抽出できません。
本ライブラリは、以下の圧縮形式に対応しております。PDFファイル内、以下以外で圧縮されたデータは抽出できません。
　　FlateDecode, LZWDecode, ASCII85Decode, RunLengthDecode
カスタムエンコーディングを使っている文字は、正しく抽出できません。カスタムエンコーディングを使っていると、たとえば、Adobe Readerで文字列をコピーして、エディタにペーストしたとき、文字化けします。
PDF内に１つの文字列としてまとまって入っている文字は、表示、印刷上、不連続に離れていても、そのまま１つの文字列として抽出されます。

CAD

抽出仕様

テキストの抽出はその格納する座標値によって順序を並べます。優先順序はY-X-Zです。
データ間は区切りません。（デフォルト）

HTML

抽出仕様

タグと属性を無視して、タグと属性以外の文字列を抽出します。
<TITLE>．．．．</TITLE>間の文字列は、本文と区別するため、｛．．．．｝のように抽出されます。
で括られたコメントデータは抽出しません。

XML

抽出仕様

文書の先頭に文字列<?xml version="1.0" ．．．．?>があるファイルのみXMLファイルと認識します。（判定条件）
XMLファイルでスタイルシートファイルを指定した場合、そのスタイルシートファイル中のテキストをテキストファイルの先頭に抽出します。
タグと属性を無視して、タグと属性以外の文字列を抽出します。

DocumentProperties
WorksheetOptions
PhoneticText
ExcelWorkbook
docOleData
:binData
instrText
fldData

Office2003で作成したXMLファイル中のOLEオブジェクトは抽出しません。
XMLファイル内でDTDが指定されていた場合、DTDが見つからない場合はDTDを無視して抽出します。

Office 2001 for Macintosh, Excel98 for Macintosh

制限事項

Office 2001 for Macintosh、Excel98 for MacintoshのAppleユーザ定義文字の抽出は保証できません。

QuarkXPress

制限事項

削除された内容が抽出される場合があります。

DocuWorks

制限事項

セキュリティが設定されたファイルはエラーとなります。
署名されたファイルは、セキュリティ設定扱いとなり、エラーとなります。
太文字、影付きで修飾された文字が、複数の文字が出力されます。
テキストの抽出結果は、格納されているテキストデータの座標値によって出力順序が変わります。見た目では、頁の先頭にある文字（段落）でも頁の先頭に出力されるとは限りません。格納されている座標値に依存します。頁内の枠内文字列は、本文の先頭に抽出されます。
縦書きテキストは一文字毎に改行されます。
DocuWorks文書中に添付された外部ファイルあるいは埋め込んだOLEオブジェクト（MS Word/Excel/PowerPoint/RTF、PDF、一太郎、OASYS（複合型(OA3)、結合型(OA2)、オンライン形式(OAS)）、AutoCAD R14/LT97 DWG、HTML、WordPerfect）のテキスト抽出ができます。（OLE埋め込みされたファイルの抽出に対応するには、それぞれの抽出対応エンジンが必要です。）
DocuWorksのデータを添付した場合は、Docuworksで圧縮されて格納されるため、error 3007が返ります。
Lotus1-2-3は対応していません。
表示ページを削除した場合は、ファイルが添付されていても、テキスト抽出できません。

Visio

制限事項

自動更新の日付、時間は正しく抽出できません。

ヘッダ/フッタ内[p,P,t,d,D]の特殊文字は抽出しません。

ヘッダ/フッタは以下のようにシートごと抽出します。
1 sheet目の名称
header / footer
1 sheet目の内容
2 sheet目の名称
Header / footer
2 sheet目の内容

フィールド文字の抽出がされない場合があります。

Outlook/Outlook Express

制限事項

抽出には、HTMLエンジンと、RTFエンジンを使用します。

添付ファイルを抽出する場合は、DMC_GETTEXT_OPT1_INSERTRFをセットしてください。

ストリーム出力の場合は、添付ファイルを外部フォルダに作成することができません。本文に出力します。

Office 2007/2010/2013/2016/2019/2021/2024

OLE

V5.5以降では、Word 2007/2010/2013/2016/2019/2021/2024, Excel 2007/2010/2013/2016/2019/2021/2024, PowoerPoint 2007/2010/2013/2016/2019/2021/2024 にOLEで埋め込んだWord 2003/2007/2010/2013/2016/2019/2021/2024, Excel 2003/2007/2010/2013/2016/2019/2021/2024, PowperPoint 2003/2007/2010/2013/2016/2019/2021/2024, Visio, PDF, 一太郎2004から2023を抽出できます。

Word 2003/2007/2010/2013/2016/2019/2021/2024, Excel 2003/2007/2010/2013/2016/2019/2021/2024, PowperPoint 2003/2007/2010/2013/2016/2019/2021/2024, PDF, 一太郎2004から2023, DocuWorksに埋め込まれたWord 2007/2010/2013/2016/2019/2021/2024, Excel 2007/2010/2013/2016/2019/2021/2024, PowoerPoint 2007/2010/2013/2016/2019/2021/2024 を抽出できます。

OASYS

制限事項

OLE オブジェクトとしてのOASYS 文書は、DocuWorks 文書、Office 2007文書に埋め込まれたときのみ、抽出します。

OpenOffice 1.0

制限事項

ファイルの判別機能のみです。テキスト抽出機能はありません。

OpenOffice.org 3.1/3.2/3.3, Libre Office 3.3/3.4

制限事項

OLEには対応していません。PDFに埋め込まれたときのみ抽出可能。