アウトライナー2.6 はPDF文書内部を解析して、しおりと目次の項目を自動抽出できます。章タイトルや中見出し、小見出しなど、見出し項目の階層構造をしおりや目次項目に簡単に再現できます。
PDFファイルをアウトライナーで開くと、[メインツールバー]の[自動生成]ボタンが使えるようになります。この機能を使って、自動でしおりと目次の項目を抽出し、しおりと目次項目の一覧を作成します。
[自動生成]画面
[しおりを自動生成する]
しおりを自動生成する場合は、[しおりを自動生成する]にチェックを入れます。
- しおりを自動生成したとき、既存のしおりは削除されます。既存のしおりを残しておきたい場合は[既存のしおりを残す]にチェックを入れます。
しおりの自動生成は、本文から見出し候補をピックアップして生成する方法と、既存の目次ページにある見出し項目からしおり項目を生成する方法があります。既存の目次ページからしおり項目を作成する場合、しおりの移動先のページ番号と移動先のY座標値は本文で同一の見出しを探して設定します。目次の見出しと本文の見出しの文字列が同一でないとき移動先を正しく設定できません。
しおりを既存の目次から自動生成する場合は、[既存の目次からしおりを生成する]にチェックを入れます。
- [既存の目次からしおりを生成する]場合は、[PDFの先頭から数えた目次ページの範囲]で、既存の目次ページの範囲を次の例のように入力します。
- 【例】「2-4」(PDFの先頭ページから数えて2 ~4 ページが目次)
PDFの実際のページ位置と目次に記されているページ番号にズレがある場合、[PDFの先頭から数えたページ番号-表示ページ番号]に、目次のページ番号が実際のPDFのページ位置になるよう数値を入力します。
- 【例】「5」(目次に記されているページ2 が、実際のPDFの先頭ページから数えて7 ページになる場合)
この設定にチェックを入れると、下記の[目次を自動生成する][ページ番号をつける]は使用できません。また、「アウトライン自動生成ウィザード」の次の画面「見出し項目抽出条件」の[文書タイトルを自動認識して除外][目次の最大レベル][見出しの最大文字数]は設定できません。
[目次を自動生成する]
目次を自動生成する場合は、[目次を自動生成する]にチェックを入れます。目次の項目抽出と目次のページ(この段階では無地のページ)を生成します。自動レイアウトされた目次ページ内容は、PDF出力の際に生成されます。
[ページ番号をつける]
[ページ番号をつける]にチェックを入れると、しおり及び目次の生成と同時に、ページ番号を追加します。
[詳細設定]ボタンをクリックすると、[ページ番号追加]画面が表示され、ページ番号についての設定ができます。[ページ番号追加]画面については「ページ番号の追加」を参照してください。
挿入したページ番号は、ページの移動や削除などでページの構成が変わっても、自動的に番号を振り直します。初期設定では[ページ番号をつける]にチェックが入っています。ページ番号は後で簡単に追加できるので、ここで追加しなくても問題ありません。
ページ番号はいくつでも追加できます。既にページ番号を追加している場合、さらに追加するか確認のダイアログを表示します。
- 設定の保存
- 「アウトライン自動生成ウィザード」の「自動生成」画面と、次の画面「見出し項目抽出条件」の設定内容をXML形式で保存できます。[保存]ボタンをクリックすると表示される画面で、保存先とファイル名を指定して[保存]ボタンをクリックします。保存したXMLデータを読み込むには、[読込]ボタンをクリックすると表示される画面で、読み込みたいXMLファイルを指定して[開く]ボタンをクリックします。
- ※[ページ番号を付ける]のチェック状態は、XMLファイルに保存されません。
- [既定値として保存]ボタンをクリックすると、現在の「アウトライン自動生成ウィザード」の「自動生成」画面と、「見出し項目抽出条件」画面の設定内容を既定値(デフォルト)にできます。既定値として保存後、新たにPDFファイルを開いて「アウトライン自動生成ウィザード」ダイアログを開くと、既定値として保存した設定の状態から作業を開始できます。
- ※ 自動生成を実行せずに[キャンセル]ボタンをクリックした場合は、[既定値として保存]もキャンセルされます。
[見出し項目抽出条件]画面
[自動生成]画面で、[次へ]ボタンをクリックすると、[見出し項目抽出条件]画面に切り替わります。[戻る]ボタンをクリックすると[自動生成]画面に戻ります。
[完了]ボタンをクリックすると、自動生成が実行されます。
「ページ範囲」
- [除外ページ]: 表紙や目次など、見出しの抽出対象から除外したいページがある場合は、除外するページ範囲を入力します。
- 【例】「1,2-4」(1 ページと2 ~4 ページを除外する)
- [文書タイトルを自動認識して除外する]: 文書のタイトルを認識して、見出し項目から除外します。
- [図、表を自動認識して除外する]: 図や表を認識して、見出し項目から除外します。
- [日付を自動認識して除外する]: 日付を認識して、見出し項目から除外します。
「見出しレベル」
- [しおりの最大レベル]: しおりは階層構造になっています。抽出する階層レベルを指定できます。
- [目次の最大レベル]: 目次は階層構造になっています。抽出する階層レベルを指定できます。
「その他条件」
- [見出しの最大文字数]: 見出しとみなす際の最大文字数を指定(指定数より多い場合は見出しとしない)します。
- [指定フォントサイズ以下の文字列を除外する]: 指定されたフォントサイズ以下の文字列を、見出し項目から除外します。フォントサイズを数値で入力してください。0 は指定なしとみなします。
- [句点やピリオドで終わる文字列を見出しとする]: チェックを入れると句点(。)やピリオド(.)で終わる文字列を見出し対象として判断します。
- [読点が含まれる文字列を見出しとする]: チェックを入れると読点(、)が含まれる文字列を見出し対象として判断します。
- [括弧でくくられた文字列を見出しとする]: チェックを入れると括弧でくくられた文字列を見出し対象として判断します。ただし、チェックをはずしても すみつき括弧(【】) だけは見出し対象となります。
- [インデント幅で見出しレベルを判定する]: チェックを入れると見出しレベルを判定する材料としてインデント幅を使用します。
- [ゴシック体の行を見出しとする]: チェックを入れると文字列中のフォントがすべてゴシック体の行を見出し対象として判断します。
- [太字を見出しとする]: チェックを入れると太字の文字列を見出し対象として判断します。
「余白条件」
柱やノンブルなどは自動判別して見出し項目から除外しますが、自動判別できない場合は、柱やノンブルなどがある範囲をmm単位で指定してください。
- [左端から入力値(mm)領域の文字列を除外する]: 各ページ左端から右方向の入力した値の範囲にある文字列を見出し判定対象から除外します。
- [右端から入力値(mm)領域の文字列を除外する]: 各ページ右端から左方向の入力した値の範囲にある文字列を見出し判定対象から除外します。
- [上端から入力値(mm)領域の文字列を除外する]: 各ページ上端から下方向の入力した値の範囲にある文字列を見出し判定対象から除外します。
- [下端から入力値(mm)領域の文字列を除外する]: 各ページ下端から上方向の入力した値の範囲にある文字列を見出し判定対象から除外します。
[完了]ボタンをクリックすると、処理が開始され作業の進行状況を示す画面が表示されます。作業が完了すると、抽出した項目数を表示しますので[OK]ボタンをクリックします。
[モード切替バー]の[しおりモード]ボタンをクリックすると「しおりペイン」にしおりが、[目次モード]ボタンをクリックすると「目次ペイン」に目次項目が作成されていることが確認できます。