PDFTool  7.0
PtlParamExtractText.h
1 // PtlParamExtractText.h
3 // Copyright (C) 2018-2020 Antenna House,Inc.
4 // All rights reserved.
6 #ifndef PDFTK_PTLPARAMEXTRACTTEXT_H_
7 #define PDFTK_PTLPARAMEXTRACTTEXT_H_
8 
9 #include "PtlParamString.h"
10 
11 namespace PdfTk {
12 
13 class PtlRect;
14 
19 class PDFTK_API PtlParamExtractText
20 {
21 public:
22  // 抽出するテキスト
23  enum TEXT_TYPE {
24  TEXT_RAW = 1,
25  TEXT_SORT = 2
26  };
27 
31  enum UNI_FLAG {
32  AHEXTRACTTEXT_UNI_C0_CONTROLS = 0x00000001,
33  AHEXTRACTTEXT_UNI_SPACE = 0x00000002,
34  AHEXTRACTTEXT_UNI_NO_BREAK_SPACE = 0x00000004,
35  AHEXTRACTTEXT_UNI_SOFT_HYPHEN = 0x00000008,
36  AHEXTRACTTEXT_UNI_SPACES = 0x00000010,
37  AHEXTRACTTEXT_UNI_IDEOGRAPHIC_SPACE = 0x00000020,
38  AHEXTRACTTEXT_UNI_VARIATION_SELECTOR = 0x00000040,
39  AHEXTRACTTEXT_UNI_REPLACEMENT_CHARACTER = 0x00000080,
40  AHEXTRACTTEXT_UNI_ALL = 0x0FFFFFFF
41  };
42 
43 private:
44  int m_dataParamExtractText;
45 public:
46  int getHandle() const;
47 
48 public:
54 
61 
66 
67 public:
73 
74 public:
83  void setTextType(TEXT_TYPE type);
84 
94  void appendRect(const PtlRect& rectMM);
95 
119  void setIgnoreActualText(bool ignoreActualText);
120 
128  void setTextOverlapRatio(float overlapRatio);
129 
138  void setOverlapAsLine(float overlap);
139 
148  void setSameTextOmitRatio(float overlap);
149 
159  void setDifferentTextOmitRatio(float overlap, bool applyAtDifferentColor);
160 
168  void setUnicodeToSpace(int flag);
169 
177  void setUnicodeToSpace(CP_UChar uni);
178 
186  void setUnicodeToRemove(int flag);
187 
196  void setUnicodeToRemove(CP_UChar uni);
197 };
198 
199 } // namespace PdfTk
200 
201 #endif // PDFTK_PTLPARAMEXTRACTTEXT_H_
PdfTk::PtlParamExtractText::setTextOverlapRatio
void setTextOverlapRatio(float overlapRatio)
テキストがテキスト抽出する範囲の矩形とどれくらい重なっていたら抽出対象とするか。
PdfTk::PtlParamExtractText::appendRect
void appendRect(const PtlRect &rectMM)
テキスト抽出する範囲の矩形を追加。
PdfTk::PtlParamExtractText::setDifferentTextOmitRatio
void setDifferentTextOmitRatio(float overlap, bool applyAtDifferentColor)
違う文字が重なっている場合、文字と文字がどれだけ重なっていると取り除くかの設定。
PdfTk::PtlParamExtractText::setIgnoreActualText
void setIgnoreActualText(bool ignoreActualText)
ActualTextを無視するかを設定。
PdfTk::PtlParamExtractText::setTextType
void setTextType(TEXT_TYPE type)
抽出するテキストのタイプを設定。
PdfTk::PtlParamExtractText::‾PtlParamExtractText
‾PtlParamExtractText()
デストラクタ
PdfTk::PtlParamExtractText::setOverlapAsLine
void setOverlapAsLine(float overlap)
文字と文字がどれだけ重なっていると同じ行とみなすかの設定。
PdfTk::PtlParamExtractText::setUnicodeToSpace
void setUnicodeToSpace(CP_UChar uni)
指定のUnicodeをSpaceに置き換えるか設定。
PdfTk::PtlParamExtractText::TEXT_TYPE
TEXT_TYPE
Definition: PtlParamExtractText.h:23
PdfTk::PtlParamExtractText::setUnicodeToRemove
void setUnicodeToRemove(int flag)
指定のUnicodeを削除するか設定。
PdfTk::PtlParamExtractText::PtlParamExtractText
PtlParamExtractText(const PtlParamExtractText &obj)
コピーコンストラクタ
PdfTk::PtlParamExtractText::operator=
PtlParamExtractText & operator=(const PtlParamExtractText &obj)
コピーオペレータ
PdfTk::PtlParamExtractText::setUnicodeToSpace
void setUnicodeToSpace(int flag)
指定のUnicodeをSpaceに置き換えるか設定。
PdfTk::PtlParamExtractText::setUnicodeToRemove
void setUnicodeToRemove(CP_UChar uni)
指定のUnicodeを削除するか設定。
PdfTk::PtlParamExtractText::setSameTextOmitRatio
void setSameTextOmitRatio(float overlap)
同じ文字が重なっている場合、文字と文字がどれだけ重なっていると取り除くかの設定。
PdfTk::PtlParamExtractText::PtlParamExtractText
PtlParamExtractText()
コンストラクタ
PdfTk::PtlParamExtractText::UNI_FLAG
UNI_FLAG
削除、若しくはスペース(U+0020)に変換するユニコード。
Definition: PtlParamExtractText.h:31
PdfTk::PtlRect
PDFの矩形座標を表現したクラスです。 矩形は左下(left,bottom)、右上(right,top)で表現されます。 座標の単位はmmで原点(0,0)は左下となりますので注意してください。
Definition: PtlRect.h:20
PdfTk::PtlParamExtractText
ページコンテントからのテキスト抽出処理のパラメータを表現したクラスです。
Definition: PtlParamExtractText.h:20