6 #ifndef PDFTK_PTLPARAMEXTRACTTEXT_H_
7 #define PDFTK_PTLPARAMEXTRACTTEXT_H_
9 #include "PtlParamString.h"
32 AHEXTRACTTEXT_UNI_C0_CONTROLS = 0x00000001,
33 AHEXTRACTTEXT_UNI_SPACE = 0x00000002,
34 AHEXTRACTTEXT_UNI_NO_BREAK_SPACE = 0x00000004,
35 AHEXTRACTTEXT_UNI_SOFT_HYPHEN = 0x00000008,
36 AHEXTRACTTEXT_UNI_SPACES = 0x00000010,
37 AHEXTRACTTEXT_UNI_IDEOGRAPHIC_SPACE = 0x00000020,
38 AHEXTRACTTEXT_UNI_VARIATION_SELECTOR = 0x00000040,
39 AHEXTRACTTEXT_UNI_REPLACEMENT_CHARACTER = 0x00000080,
40 AHEXTRACTTEXT_UNI_ALL = 0x0FFFFFFF
44 int m_dataParamExtractText;
46 int getHandle()
const;
201 #endif // PDFTK_PTLPARAMEXTRACTTEXT_H_
void setTextOverlapRatio(float overlapRatio)
テキストがテキスト抽出する範囲の矩形とどれくらい重なっていたら抽出対象とするか。
void appendRect(const PtlRect &rectMM)
テキスト抽出する範囲の矩形を追加。
void setDifferentTextOmitRatio(float overlap, bool applyAtDifferentColor)
違う文字が重なっている場合、文字と文字がどれだけ重なっていると取り除くかの設定。
void setIgnoreActualText(bool ignoreActualText)
ActualTextを無視するかを設定。
void setTextType(TEXT_TYPE type)
抽出するテキストのタイプを設定。
‾PtlParamExtractText()
デストラクタ
void setOverlapAsLine(float overlap)
文字と文字がどれだけ重なっていると同じ行とみなすかの設定。
void setUnicodeToSpace(CP_UChar uni)
指定のUnicodeをSpaceに置き換えるか設定。
TEXT_TYPE
Definition: PtlParamExtractText.h:23
void setUnicodeToRemove(int flag)
指定のUnicodeを削除するか設定。
PtlParamExtractText(const PtlParamExtractText &obj)
コピーコンストラクタ
PtlParamExtractText & operator=(const PtlParamExtractText &obj)
コピーオペレータ
void setUnicodeToSpace(int flag)
指定のUnicodeをSpaceに置き換えるか設定。
void setUnicodeToRemove(CP_UChar uni)
指定のUnicodeを削除するか設定。
void setSameTextOmitRatio(float overlap)
同じ文字が重なっている場合、文字と文字がどれだけ重なっていると取り除くかの設定。
PtlParamExtractText()
コンストラクタ
UNI_FLAG
削除、若しくはスペース(U+0020)に変換するユニコード。
Definition: PtlParamExtractText.h:31
PDFの矩形座標を表現したクラスです。 矩形は左下(left,bottom)、右上(right,top)で表現されます。 座標の単位はmmで原点(0,0)は左下となりますので注意してください。
Definition: PtlRect.h:20
ページコンテントからのテキスト抽出処理のパラメータを表現したクラスです。
Definition: PtlParamExtractText.h:20