OEM販売のご相談

TextPorter 機能紹介:概要

『TextPorter』は、さまざまなアプリケーションのファイルからテキストを抽出する、クラウドコンピューティング時代のサーバ組込用テキスト抽出エンジンです。Microsoft Office, PDFなど主要なアプリケーション・ファイルを識別し、作成したアプリケーションがなくても、ファイルからテキストを抽出可能です。

主要なアプリケーション・ファイルからテキスト抽出

文書を作成したアプリケーションがなくても、指定したファイル、または埋め込まれたOLEオブジェクトからテキスト文字列、プロパティを取り出せます。

対応しているファイル形式は、 「抽出対象ファイル形式」 をご覧ください。

主要なアプリケーション・ファイルの識別

ファイルを作成したアプリケーション名称とそのバージョンを識別します。

さまざまな文字コードに対応

抽出するテキストの文字符号化方式は、下記の4タイプを切り替えることができます。また、テキストファイルの文字符号化方式や改行コードの種別を変換することができます。

国際規格 ISO-10646-UCS-2、ISO-10646-UCS-4、UTF-8、UTF-16
日本語 Shift_JIS、Windows31J、EUC-JP、ISO-2022-JP、Shift_JIS-2004、ISO-2022-JP-2004、EUC-JIS-2004
英 語 ISO-8859-1
中国語/韓国語 GB18030、GBK、Big5、KS_C_5601_1987

言語インターフェイスを用意

『TextPorter』の機能を、ライブラリとして、C/C++, Java から呼び出せるように、これらの言語インターフェイスを用意しています。これに加えて、Windowsでは COM インターフェイス、Microsoft .NET Frameworkも用意しています。

また、C++で書かれたサンプルプログラムが付属しています。これをそのまま、あるいはお客様の要望に合わせて改良してビルドすれば、実行可能なコマンドとして、プログラム内からプロセスとして起動して使うこともできます。もちろん、コンソールでコマンドラインのソフトとして使うことも可能です。

注:  Java,インターフェースは、プラットフォームによってサポートしてないものもあります。詳細はお問い合わせください。