Web クローラー XML 構成リファレンス

 

適用先: FAST Search Server 2010

トピックの最終更新日: 2016-11-29

FAST Search Web クローラーは、Web サイトから情報を自動的に取得し、その情報を Microsoft FAST Search Server 2010 for SharePoint インデックスに渡します。FAST Search Web クローラーを構成する場合は、この記事で説明する書式で XML 構成ファイルを作成し、crawleradmin.exe コマンドライン ツールを使用してそのファイルを Web クローラーに送信する必要があります。

この記事で指定する書式は、crawlercollectiondefaults.xml ファイルでも使用されます。このファイルは、新しいクロール コレクションに設定されるすべての既定のオプションと値を格納します。このファイルを変更すると、すべての新しいコレクションの既定値が変更されます。既定値は、特定のクロール コレクション用に作成した XML 構成で指定されないオプションに適用されます。

これらの構成ファイルは、XML スキーマに準拠した書式で記述する必要があります。この記事では、構成ファイルの簡易な例と一般的な例を示します。構成ファイルの要素とセクションの概要については、「Web クローラー XML 構成クイック リファレンス」の表を参照してください。

主な用語

"Web サイト" は、SharePoint サイトではなく、www.contoso.com などの Web サイトにあるコンテンツを指します。

"ホスト名" は、http://contoso/ の "contoso" 部分または http://download.contoso.com/ の "download.contoso.com" 部分を指します。完全修飾名でなくてもかまいません。この記事では、"Web サイト" を実際のサイトとコンテンツを指す言葉として使用し、"ホスト名" を特定の Web サーバーに到達するために使用されるネットワーク名として使用することで、両者を使い分けます。1 つのサイトに複数のホスト名がある場合があります。

新しいクロール構成の作成

注意

構成ファイルを変更する場合は、次の最小要件を満たしていることを確認します。FAST Search Server 2010 for SharePoint がインストールされているローカル コンピューターの FASTSearchAdministrators メンバーである必要があります。

この XML 構成書式を使用して新しいクロール構成を作成するには、次の手順を実行します。

  1. 事前に用意されている 3 種類のクロール構成テンプレートの 1 つを <FASTSearchFolder>\etc (<FASTSearchFolder> は FAST Search Server 2010 for SharePoint をインストールした C:\FASTSearch などのフォルダーのパス) から新しいファイル (MyCollection.xml など) にコピーし、新しいファイルを作成します。このファイルをテキスト エディターで編集して、必要な要素と設定を追加します。

    注意

    テキスト エディター (メモ帳など) を使用して、crawlercollectiondefaults.xml を変更します。このとき、汎用の XML エディターは使用しないでください。

  2. crawleradmin.exe –f MyCollection.xml を実行してクロール構成をクローラーに追加します。このコマンドの MyCollection.xml の部分は、手順 1. で作成したファイルの名前で置き換えます。

詳細については、「crawleradmin.exe リファレンス」を参照してください。

crawlercollectiondefaults.xml のカスタマイズ

警告

このファイルに加えた変更は、次の操作を行うと上書きされ、失われます。

  • Set-FASTSearchConfiguration Windows PowerShell コマンドレットを実行する。

  • FAST Search Server 2010 for SharePoint の更新プログラムまたは Service Pack をインストールする。

変更が失われることを回避するには、ファイルを変更した後でバックアップを作成しておきます。
Set-FASTSearchConfiguration Windows PowerShell コマンドレットを実行した後や FAST Search Server 2010 for SharePoint の更新プログラムまたは Service Pack をインストールした後で、変更を再度適用します。

注意

構成ファイルを変更する場合は、次の最小要件を満たしていることを確認します。FAST Search Server 2010 for SharePoint がインストールされているローカル コンピューターの FASTSearchAdministrators メンバーである必要があります。

このファイルを編集するには

  1. テキスト エディターを使用して crawlercollectiondefaults.xml を編集し、必要な要素と設定を追加します。既存のファイルが <FASTSearchFolder>\etc\ 内に用意されているので、これを編集の土台にすることができます。

    注意

    テキスト エディター (メモ帳など) を使用して、crawlercollectiondefaults.xml を変更します。このとき、汎用の XML エディターは使用しないでください。

  2. nctrl.exe restart crawler を実行して、手順 1. で設定したオプションで FAST Search Web クローラーを再起動します。

Web クローラー XML 構成クイック リファレンス

以下の表に、Web クローラー XML 構成書式の要素の一覧を示します。要素は任意の順序で記述できますが、次の例外があります。DomainSpecification 要素は、CrawlerConfig 要素の内部に記述します。プライマリ要素の SubDomainLogin、および NodeDomainSpecification 要素の内部に記述します。section サブ要素と attrib サブ要素は、プライマリ要素の内部に任意の順序で記述できます。member サブ要素は、attrib 要素の内部のみに記述できます。

<CrawlerConfig>
      <DomainSpecification>
             <SubDomain/>
             <Login/>
             <Node/>
             <attrib>
                    <member/> 
             </attrib>
             <section/>
      </DomainSpecifcation>
</CrawlerConfig>

通常は、attrib サブ要素と section サブ要素の両方を SubDomainLogin、および section 要素に記述します。Node 要素には、これらのすべての要素とサブ要素を含めることができます。

要素 説明

CrawlerConfig

このトップレベルの要素は、この後に記述される XML が Web クローラー構成オブジェクトであることを指定します。

DomainSpecification

この要素は、クロール コレクションを指定します。

SubDomain

この要素は、クロール サブコレクションの構成を指定します。

Login

この要素は、HTML フォームベース認証に使用されます。

Node

この要素の値は、特定のノード スケジューラに関するクロール コレクションまたはクロール サブコレクションの構成パラメーターに優先して適用されます。

attrib

このサブ要素は、その値、または一連のメンバー要素によって構成を指定します。

member

このサブ要素は、構成を一覧形式で指定します。

section

このサブ要素は、複数の設定が種類別に分けられたセクションを指定します。以下の表に、使用可能なすべてのセクションの一覧を示します。

この表では、section オプションを Web クローラー XML 構成ファイルの書式で定義します。セクションを CrawlerConfig 要素の内部に含めることはできません。

セクション名 説明

include_domains

クロール コレクションに含める URI を指定する一連のホスト名フィルターを定義します。

exclude_domains

クロール コレクションから除外する URI を指定する一連のホスト名フィルターを定義します。

include_uris

クロール コレクションに含める URI を指定する一連の URI 規則を定義します。

exclude_uris

クロール コレクションから除外する URI を指定する一連の URI 規則を定義します。

log

Web クローラー プロセスのログ動作を指定します。

storage

Web クローラーによるコンテンツとメタデータの保管方法を指定します。

pp

ノード スケジューラの後処理動作を指定します。

ppdup

重複サーバー設定を指定します。

feeding

クロール コレクションを表す情報をインデックス作成エンジンに送信する方法を指定する最低 1 つの section 要素から構成されます。

cachesize

Web クローラー プロセスのキャッシュ サイズを構成します。

http_errors

HTTP/HTTPS エラーの応答コードと条件を処理する方法を指定します。

ftp_errors

FTP URI の応答コードとエラー条件を処理する方法を指定します。

workqueue_priority

クロール キューの優先度レベルを指定し、キューへの URI の挿入やキューからの URI の取り出しに適用される規則とモードを指定します。

link_extraction

抽出するハイパーリンクの種類を指定します。

limits

クロール コレクションのフェール セーフ制限を指定します。

focused

集中スケジュールを構成します。

passwd

認証が必要とされる Web サイトの資格情報を構成します。

ftp_acct

FTP URI のクロールに使用する FTP アカウントを指定します。

exclude_headers

HTTP ヘッダー フィールドの内容に基づいてクロールから除外するアイテムを指定します。

variable_delay

通常とは異なる遅延要求レートを使用する時間帯を指定します。

adaptive

アダプティブ クロールオプションを指定します。

weights

アダプティブ クロールの実行時に各 URI にスコアを与えます。weights セクションは、adaptive セクション内に指定する必要があります。

sitemap_weights

サイトマップの <URL> エントリには changefreq 要素を指定できます。この要素は、URI を更新できる頻度を指定します。文字列の値が数値のウェイトに変換され、アダプティブ クロールに使用されます。sitemap_weights セクションは、adaptive セクション内に指定する必要があります。

site_clusters

クローラーがホスト名をノード スケジューラにルーティングする通常の動作を上書きする構成パラメーターを指定します。

crawlmode

クロール コレクションの範囲を制限します。

post_payload

コンテンツを HTTP POST 要求に送信します。

rss

クロール コレクションの RSS フィード サポートを初期化し、構成します。

logins

このセクションは、Login 要素の特殊なケースです。複数の Login 要素を結合したのが、この logins セクションです。HTML フォームベース認証を定義するには、1 つの logins セクションまたは 1 つ以上の Login 要素が必要です。不完全な構成が適用されないように、ログインを削除するには logins を使用する必要があります。crawleradmin を使用してクローラーから構成情報をエクスポートすると、Login 要素が取得されることに注意してください。

parameters

HTML フォームに使用する認証資格情報を設定します。このセクションは、Login 要素または logins セクションに指定する必要があります。

subdomains

クロール サブコレクションの構成を指定します。このセクションは、SubDomain 要素の特殊なケースです。複数の SubDomain 要素を結合したのが、この subdomains セクションです。不完全な構成が適用されないように、サブドメインを削除するには subdomains を使用する必要があります。crawleradmin を使用してクローラーから構成情報をエクスポートすると、SubDomain 要素が取得されることに注意してください。

Web クローラー XML 構成ファイルのファイル形式

構成ファイルに記述する XML 要素は、< で始まり、/> で終わります。

要素の基本的な書式を以下に示します。

<attrib name="" type="値"> 値**</attrib>**

次に例を示します。

<attrib name="accept_compression" type="boolean"> yes </attrib>

要素名、セクション名、属性名、および属性値では、大文字と小文字が区別されます。属性の名前と種類は、引用符 (" ") で囲む必要があります。要素は、複数の行にわたって定義できます。スペース、復帰、改行、およびタブの文字は、要素の定義に含まれていても無視されます。

次に例を示します。

<attrib
    name=" accept_compression "
    type="boolean"
> yes </attrib
>

ヒント

パラメーターの定義が長い場合は、値を別々の行に分けて記述し、インデントを使用して読みやすくしてください。

<CrawlerConfig> 要素は特殊なケースであり、必ず指定する必要があります。他のすべての要素は <CrawlerConfig> 要素内に記述します。この要素は </CrawlerConfig>. で閉じられます。

XML ファイルの基本構造を次の例に示します。

<?xml version="1.0"?>
<CrawlerConfig>
    <DomainSpecification>
        ...
    </DomainSpecification>
</CrawlerConfig>

コメントは、<!----> で囲んで任意の場所に追加できます。

CrawlerConfig

このトップレベルの要素は、この後に記述する XML が Web クローラー構成オブジェクトであることを示します。Web クローラー構成ファイルは、CrawlerConfig XML 要素を 1 つのみ格納できます。

DomainSpecification

この要素は、クロール コレクションを指定します。

<CrawlerConfig>
  <DomainSpecification name="sp">
  ...
  </DomainSpecification>
</CrawlerConfig>

"sp" は、実際のクロール コレクション名で置き換えてください。

attrib

この要素は、構成オプションを指定します。単一の値を指定するか、member 要素を使用して複数の値を指定できます。

属性

名前 種類 意味

info

string

クロール コレクションについて説明するテキストです。

fetch_timeout

integer

<秒>

Web アイテムの最大ダウンロード時間を秒単位で指定します。Web サーバーの動作が遅く、ダウンロードする Web アイテムが大きい場合は、この値を増やします。

既定値: 300

allowed_types

list-string

 

Web アイテムの有効な MIME タイプを指定します。

Web クローラー プロセスは、他の MIME タイプを破棄します。この構成パラメーターでは、ワイルドカードを使用してフィールド全体を表すことができます。ワイルドカード文字は、アスタリスク記号です。たとえば、"text/*" または "*/*" と指定できますが、"*/html" または "application/ms*" といった指定はできません。

既定値:

  • text/html

  • text/plain

  • application/msword

  • application/msexcel

  • application/ppt

  • application/pdf

force_mimetype_detection

boolean

yes|no

アイテムの検出に独自の MIME タイプを使用する Web クローラー プロセスを指定します。ほとんどの場合、Web アイテムがダウンロードされるときにその MIME タイプが Web サーバーから HTTP ヘッダーの一部として渡されます。このオプションを有効にすると、Web サーバーから渡された MIME タイプとクローラーによって検出された MIME タイプのうち、より正確と見なされるほうが Web アイテムにタグ付けされます。

既定値: no

allowed_schemes

list-string

HTTP

HTTPS

FTP

Web クローラーが処理する URI スキームを指定します。

既定値: HTTP

ftp_passive

boolean

yes|no

Web クローラーがパッシブ FTP モードを使用することを指定します。

既定値: yes

domain_clustering

boolean

yes|no

ホスト名を同じドメインから同じサイト マネージャー プロセスにルーティングするかどうかを指定します。このオプションは、Cookie などの情報を共有する必要があるホスト名を扱う場合に便利です。通常は、このような情報はサイト マネージャー プロセス間でやり取りされません。複数ノード構成でこのオプションを有効にすると、同じドメイン ( www.contoso.com と forums.contoso.com など) にあるホスト名も同じノード スケジューラにルーティングされます。

単一ノードでの既定値: no

複数ノードでの既定値: yes

max_inter_docs

integer

<正の整数> または値なし

Web サイトのインターリーブを実行する前にクロールするアイテムの最大数を指定します。既定で、クローラーは Web サイトが空になるまでクロールします。つまり、Web サイトごとの Web アイテムの最大数に達するまでクロールします。ただし、Web アイテムの "バッチ" を Web サイトから一度にクロールして、Web サイト間でインターリーブを行うようにクローラーを構成することもできます。この属性は、クローラーがインターリーブを行って他のサーバーのクロールを開始する前に、サーバーから連続してクロールする Web アイテムの数を指定します。クローラーは、リソースが解放された場合に前のサーバーのクロールを再開します。

既定値: 値なし (無効)

max_redirects

integer

<値>

URI から抽出する HTTP リダイレクトの最大数を指定します。

既定値: 10

diffcheck

boolean

yes|no

Web クローラーが重複データの検出を実行することを指定します。重複データの検出は、2 つ以上の Web アイテムに同じコンテンツが含まれるかどうかをチェックして行われます。

既定値: yes

near_duplicate_detection

boolean

yes|no

Web クローラーが厳密ではない重複データ検出アルゴリズムを使用することを指定します。単語の並びに固有のパターンがあるかどうかで、データに重複があるアイテムを検出します。

既定値: no

max_uri_recursion

integer

<値>

この属性は、URI にパターンの繰り返しを探すために使用します。このオプションで指定した回数のパターンが現れると、その URI は破棄されます。値 0 を指定すると、このチェックは行われません。

たとえば、https://www.contoso.com/widget のリンク先が https://www.contoso.com/widget/widget である場合、1 要素の繰り返しと見なされます。

既定値: 5

ftp_searchlinks

boolean

yes|no

Web クローラーが、FTP サーバーからダウンロードしたアイテム内にハイパーリンクを検索することを指定します。

既定値: yes

use_javascript

boolean

yes|no

JavaScript サポートを Web クローラーで有効にするかどうかを指定します。有効にすると、Web クローラーは、外部 JavaScript をダウンロードしてから解析および実行し、リンクを抽出します。

注意

JavaScript の処理にはリソースが集中的に消費されるので、大規模なクロールではこのオプションを有効にしないでください。

注意

JavaScript の処理にはブラウザー エンジン コンポーネントが使用されます。詳細については、「beconfig.xml のリファレンス」を参照してください。

既定値: no

javascript_keep_html

boolean

yes|no

インデックス付けエンジンに送信するものを指定します。このパラメーターを yes に設定すると、JavaScript を処理して生成された HTML が使用されます。それ以外の場合は、元の HTML アイテムが使用されます。

use_javascript 構成パラメーターを yes に設定した場合は、このオプションを使用しないでください。

javascript_delay

real

<秒>

値を指定しないと、Web クローラーは、delay 構成パラメーターと同じ値を使用します。

JavaScript によって HTML アイテムに関連付けられている依存アイテムを取得する場合に、遅延時間を秒単位で指定します。

既定値: 0 (遅延なし)

exclude_exts

list-string

<コンマで区切られたファイル拡張子の一覧>

クロールから除外するファイル名拡張子を指定します。

既定の一覧: 値なし

use_http_1_1

boolean

yes|no

Web クローラーが HTTP/1.1 を使用することを指定します。no に設定すると、HTTP/1.0 が使用されます。

既定値: yes

accept_compression

boolean

yes|no

Web クローラーが 圧縮された Web アイテムを Web サーバーから受け付けるように指定します。use_http_1_1 構成パラメーターを有効にしない場合は、このパラメーターは効力を持ちません。

既定値: yes

dbswitch

integer

<値>

Web クローラーが見つけなかった Web アイテムを削除せずにクロール ストアとインデックスに残しておくクロール サイクル数を指定します。dbswitch_delete パラメーターの値によって、ここで指定したクロール サイクル数に達するまで見つからなかった Web アイテムの扱い方が決定されます。

注意

この値を 1 または 2 のように非常に小さい数に設定すると、Web アイテムが誤って削除される可能性があります。

既定値: 5

dbswitch_delete

boolean

yes|no

Web クローラーは、Web サーバーから削除された Web アイテムを検出しようとします。このパラメーターは、このような Web アイテムの扱い方を指定します。アイテムをすぐに削除したり、使用できなくなったことを確認するために取得できるように作業キューに配置したりすることができます。

yes に設定すると、古すぎる Web アイテムは削除されます。no に設定すると、Web アイテムの再取得がスケジュールされ、Web サーバーに存在しないことが確認された場合にのみ削除されます。

このチェックは、Web サイトから最新の情報を取得する各サイクルの最初に自動的に実行されます。

注意

このパラメーターは、既定値から変更しないでください。

既定値: no

html_redir_is_redir

boolean

yes|no

このパラメーターを html_redir_thresh と一緒に使用すると、HTML Web アイテム内の META Refresh タグが HTTP リダイレクトであるかのように扱われます。このパラメーターを有効にすると、META Refresh タグを含む Web アイテムはインデックス付けされません。無効にすると、通常の Web アイテムとして扱われ、インデックス付けされます。

既定値: yes

hmtl_redir_threshold

integer

<値>

HTML Web アイテムに含まれる META Refresh タグを HTTP リダイレクトとして扱う最大の時間を秒単位で指定します。html_redir_is_redir を設定しない場合、このパラメーターは無視されます。

たとえば、次のように指定したと仮定します。

<META HTTP-EQUIV="Refresh" CONTENT="3;URL=http://www.some.org/some.html">

CONTENT 属性に指定した値 (この例では 3) と同じかそれ未満の値を html_redir_threshold に指定した場合は、META Refresh タグがリダイレクトとして扱われます。

既定値: 3

robots_ttl

integer

<秒>

Web クローラーが Web サイトから robots.txt ファイルを取得する間隔を指定します。この間隔は秒単位で指定する必要があります。

既定値: 86400

use_sitemaps

boolean

yes|no

Web クローラーがサイトマップを検出し、解析することを指定します。

Web クローラーは、サイトマップ内の lastmod 属性を使用して、サイトマップを最後に取得した後で Web アイテムが変更されたかどうかを確認します。変更されていない Web アイテムは、再度クロールしません。

例外は、コレクションでアダプティブ更新モードが使用される場合です。アダプティブ更新モードでは、クローラーはサイトマップの priority 属性と changefreq 属性を使用して、Web アイテムをクロールする間隔を決めます。サイトマップに含まれる他のタグは、クローラーのメタ データベースに保管されてから、クロールされたプロパティとしてインデックス付けのために送信されます。

注意

ほとんどのサイトマップは、robots.txt ファイル内に指定されます。そのため、robots 属性を有効にすると最良のクロール結果が得られます。

既定値: no

max_pending

integer

<値>

1 つの Web サイトに一度に送信できる同時 HTTP 要求の最大数を指定します。

既定値: 2

robots_auth_ignore

boolean

yes|no

Web サーバーから HTTP 40x 認証エラーが返された場合に、Web クローラーが robots.txt を無視するかどうかを指定します。no に設定すると、Web クローラーは、エラーを返した Web サイトをクロールしません。

robots.txt 標準には、この動作は Web クローラーが Web サイトを完全に無視するためのヒントとして記載されています。ただし、Web サーバーの構成が不適切なためにサイトがクロールの対象から誤って除外される可能性があります。このオプションを有効にして、Web サイトがクロールされるようにしてください。

既定値: yes

robots_tout_ignore

boolean

yes|no

robots.txt への要求がタイム アウトになった場合に、Web クローラーが robots.txt の規則を無視するかどうかを指定します。

Web サイトをクロールする前に、Web クローラーは robots.txt ファイルを Web サーバーから取得するために要求します。robots.txt 標準では、このファイルへの要求がタイム アウトになった場合に Web サイトをクロールしません。このパラメーターを yes に設定すると、この robots.txt 規則は無視され、Web サイトはクロールされます。

注意

クロール対象の Web サイトを所有していない場合は、このオプションを no から変更しないでください。

既定値: no

rewrite_rules

list-string

URI を書き直すために使用される規則を指定します。

書き直しの規則を構成する 2 つの要素は、照合する表記 (match_pattern) と、この表記に置き換える置換文字列 (replacement_string) です。照合する表記は、1 つのグループにまとめられた照合正規表現です。

書き直しの規則の書式は、@match_pattern@replacement_string@ です。ここで、@ は、表記自体に含まれない非スペースの区切り文字です。

extract_links_from_dupes

boolean

yes|no

Web クローラーが、重複する Web アイテムからハイパーリンクを抽出することを指定します。2 つの Web アイテムに同じデータが重複して存在する場合でも、ハイパーリンクは異なる可能性があります。このハイパーリンクを使用して Web クローラーがさらにコンテンツを発見できる可能性があります。

既定値: no

use_meta_csum

boolean

yes|no

Web クローラーが、生成された重複データ検出識別符号に META タグを含めることを指定します。

既定値: no

csum_cut_off

integer

<値>

重複データ識別符号を生成するために使用する最大バイト数を指定します。このパラメーターを 0 に設定すると、この機能は無効になります (つまり、無制限にすべてのバイトが使用されます)。

既定値: 0

if_modified_since

boolean

yes|no

Web クローラーが If-Modified-Since の値が含まれる HTTP ヘッダーを送信するかどうかを指定します。

既定値: yes

use_cookies

boolean

yes|no

Web クローラーが Cookie を送信および保存するかどうかを指定します。ログインが使用される Web サイトにはこの機能が自動的に有効になりますが、すべての Web サイトに対して有効にすることもできます。

既定値: no

uri_search_mime

list-string

<値>

Web クローラーがハイパーリンクを抽出する MIME タイプを指定します。

この構成パラメーターには、フィールド全体のレベルでワイルドカードを使用できます。ワイルトカードにはアスタリスク記号を使用します。text/* または */* のような記述はできますが、*/html または application/ms*. などは指定できません。

既定値:

  • text/html

  • text/vnd.wap.xml

  • text/wml

  • text/x-wap.wml

  • x-application/wml

  • text/x-hdml

max_backoff_counter

integer

<値>

このオプションを max_backoff_delay と一緒に指定すると、接続に失敗した Web サイトに再接続を試みる頻度を減らすアルゴリズムを制御できます。

この後で接続を試みたときにネットワーク エラーが発生するたびに、次に Web サイトを要求するまでの遅延時間が、遅延設定の初期値から max_backoff_delay の最大値 (秒単位) に達するまで増えます。この遅延時間の増加は、要求が正常に完了するまで継続されますが、要求の回数が max_backoff_counter の値を超えることはありません。回数が最大数に達すると、Web サイトのクロールは一時的に停止されます。

そうなる前に、Web サイトに影響していたネットワークの問題が解決されると、内部バックオフ カウンターの値が減らされ、要求の遅延時間が、Web アイテムのダウンロードが正常に完了するたびに半分に短縮され、最終的に遅延設定の初期値に戻ります。

既定値: 50

max_backoff_delay

integer

<秒>

max_backoff_counter」を参照してください。

既定値: 600

delay

real

<秒>

Web クローラーが Web サイトから Web アイテムを取得できる間隔を秒単位で指定します。

既定値: 60.0

refresh

real

<分>

Web クローラーが新しいクロール更新サイクルを開始するまでの間隔を分単位で指定します。

refresh の時間に実行される操作は、refresh_mode 設定を使用して指定します。

既定値: 1500.0

robots

boolean

yes|no

Web クローラーが robot.txt ファイルの規則に従うかどうかを指定します。

既定値: yes

start_uris

list-string

Web クローラーで使用される開始 URI を指定します。Web クローラーは、クロールを開始するために start_uris または start_uri_files を必要とします。

注意

クロールに IDNA ホスト名が含まれる場合、この名前は DNS エンコード形式ではなく UTF-8 文字で入力します。

start_uri_files

list-string

開始 URI を含む一連のファイルを指定します。これらのファイルは、書式のないテキスト ファイル形式で、1 行に 1 つの開始 URI を記述します。

注意

複数ノード展開では、これらのファイルはマルチノード スケジューラが実行されるサーバーでのみ使用可能になっている必要があります。

max_sites

integer

<値>

同時にクロールできる Web サイトの最大数を指定します。マルチノード Web クローラー展開では、この値は Web クローラー全体にではなく、ノード スケジューラごとに適用されます。

たとえば、max_sites を 5 に設定し、10 サイトをクロールする場合、5 サイトのクロールが完了するまで、残りの 5 サイトのクロールは開始されません。

注意

max_sites の値を大きくすると、システム リソースの使用量に悪影響を与える可能性があります。

既定値: 128

mirror_site_files

list-string

指定したホスト名のミラー サイトが含まれる一連のファイルを指定します。ミラー サイトとは、既に存在する Web サイトの複製です。このファイルはテキスト形式ファイルであり、ホスト名を指定するには、スペースで区切ったホスト名の一覧を優先度の高い順に記述します。

注意

複数ノード Web クローラー展開では、ノード スケジューラを展開したすべてのサーバーでこのファイルが使用可能になっている必要があります。

proxy

list-string

Web クローラーが Web アイテムをフェッチするために使用する一連の HTTP プロキシを指定します。

プロキシを指定するには、以下の書式を使用します。

(http://)(username:password@)hostname(:port)。省略可能な部分はかっこで囲んでいます。

パスワードは、passwd の設定に従って暗号化されます。

proxy_max_pending

integer

<値>

HTTP プロキシごとに開いた接続をその状態で維持できる最大数を指定します。

既定値: INT32 の最大数

headers

list-string

<ヘッダー>

Web サーバーに送信する要求に追加する HTTP ヘッダーを指定します。

現在の既定値: User-Agent: FAST Search Web Crawler <version>

cut_off

integer

アイテムの最大バイト数を指定します。このサイズの制限を超える Web アイテムは、破棄されるか、切り捨て構成パラメーターの値に従って切り捨てられます。

cut_off 構成パラメーターを設定しない場合、切り捨てのオプションは無効になります。

既定値: 制限なし

truncate

boolean

yes|no

指定した cut_off のしきい値を超えるサイズの Web アイテムを切り捨てるかどうかを指定します。

既定値: yes

check_meta_robots

boolean

yes|no

Web クローラーが robots の META タグから提供された <NoIndex /> ディレクティブと <NoFollow /> ディレクティブに従うことを指定します。

一般的な META タグの設定を以下に示します。

<meta name="robots" content="nofollow,noindex"/>

または

<meta http-equiv="robots" content="nofollow,noindex"/>

特殊な値 nonenofollownoindex の両方を意味します。

既定値: yes

obey_robots_delay

boolean

yes|no

Web クローラーが robots.txt ファイル内にクロール遅延ディレクティブがある場合にその設定に従うことを指定します。この設定がない場合は、delay 設定が適用されます。

既定値: no

key_file

string

HTTPS 接続に使用する SSL クライアント証明書キー ファイルのパスを指定します。

この機能は、Web クローラーがクライアント証明書による認証を要求される Web サイトで使用されます。

このオプションは、cert_file と一緒に使用する必要があります。

注意

マルチノード Web クローラー展開では、このファイルはすべてのノード スケジューラに存在する必要があります。

cert_file

string

HTTPS 接続に使用する X509 クライアント証明書のパスを指定します。

このオプションは key_file と一緒に使用する必要があります。

max_doc

integer

<値>

Web サイトからダウンロードする Web アイテムの最大数を指定します。

既定値: 100000

enforce_delay_per_ip

boolean

yes|no

Web クローラーが、共有される IPv4 または IPv6 アドレスに名前がマップされる Web サーバーへの要求を制限することを指定します。このパラメーターの作用は、delay 構成パラメーターに依存します。

既定値: yes

wqfilter

boolean

yes|no

Web クローラーが、重複する URI をクロール キューから削除するブルーム フィルターを使用するかどうかを指定します。

既定値: yes

smfilter

integer

<値>

ノード スケジューラに関連付けられたキューから重複する URI を削除するブルーム フィルターの最大ビット数を指定します。

ブルーム フィルターは、要素が特定のセットのメンバーかどうかをテストするために使用される、領域の使用効率に優れた確率的なデータ構造 (ビット配列) です。テストでは、偽陽性と判定されることはあっても、偽陰性と判定されることはありません。

既定値: 0

mufilter

integer

<値>

ブルーム フィルターに使用する最大ビット数を指定します。このフィルターは、ノード スケジューラからマルチノード スケジューラに送信される重複した URI を削除します。

このフィルターは、大規模なクロールの場合に有効に設定し、値として 500000000 (500 メガビット) を指定することをお勧めします。

既定値: 0

umlogs

boolean

yes|no

すべてのログをマルチノード スケジューラに送信して保管するかどうかを指定します。

このパラメーターを有効にしない場合、ログはノード スケジューラ側にのみ保管されます。

既定値: yes

sort_query_params

boolean

yes|no

Web クローラーが URI のクエリ コンポーネントでパラメーターを並べ替えるかどうかを指定します。

通常、クエリ コンポーネントは、セミコロンまたはアンパサンドを区切り文字とするキーと値のペアです。この構成パラメーターを設定すると、クエリはキー名のアルファベット順に並べ替えられます。

既定値: no

robots_timeout

integer

<秒>

Web クローラーが robots.txt ファイルをダウンロードするために使用できる時間の最大値を秒で指定します。

既定値: 300

login_timeout

integer

<秒>

Web クローラーがログインを要求するために使用できる時間の最大値を秒で指定します。

既定値: 300

send_links_to

string

抽出されたすべてのハイパーリンクの送信先となるクロール コレクションを指定します。

cookie_timeout

integer

<秒>

セッション Cookie を保存する時間の最大値を秒で指定します。セッション Cookie は、有効期限の日付がない Cookie です。

既定値: 300

refresh_when_idle

boolean

yes|no

Web クローラーがアイドル状態になったときに新しいクロール更新サイクルを開始するかどうかを指定します。このオプションは、マルチノード展開では使用しないでください。

既定値: no

refresh_mode

string

append|prepend|scratch|soft|adaptive

クロール コレクションの更新モードを指定します。有効な値は、次のとおりです。

  • append: クロール更新サイクルを開始するときに、開始 URI をクロール キューの最後に追加します。

  • prepend: クロール更新サイクルを開始するときに、開始 URI をクロール キューの先頭に追加します。既存のキューは保持されます。

  • scratch: 開始 URI をクロール キューに追加する前に、キューを消去します。

  • soft: クロール更新サイクルが終了する時点で Web サイトのクロール キューが空でない場合、Web クローラーはクロールを続行して次のクロール更新サイクルに入ります。クロール キューが空になるまで、クロール サイトは更新されません。

  • adaptive: adaptive 構成に従ってクロール キューを作成します。

既定値: scratch

<attrib name="delay" type="real"> 60.0 </attrib>

<attrib name="max_doc" type="integer"> 10000 </attrib>

<attrib name="use_javascript" type="boolean"> no </attrib>

<attrib name="info" type="string">
My Web crawl collection crawling my intranet.
</attrib>

<attrib name="allowed_schemes" type="list-string">
    <member> http </member>
    <member> https </member>
</attrib>

member

これは、オプション値の一覧に含まれる 1 つの要素を指定します。

member 要素は、attrib 要素内でのみ使用できます。

<attrib name="allowed_schemes" type="list-string">
    <member> http </member>
    <member> https </member>
</attrib>

section

この要素は、関連する複数のオプションをグループにまとめます。section 要素には、attrib 要素が含まれます。

属性

属性 説明

name

<名前>

セクションの名前を指定します。この記事で説明する各セクションがサポートされています。

<section name="crawlmode">
    <attrib name="fwdlinks" type="boolean"> no </attrib>
    <attrib name="fwdredirects" type="boolean"> no </attrib>
    <attrib name="mode" type="string"> FULL </attrib>
    <attrib name="reset_level" type="boolean"> no </attrib>
</section>

include_domains

このセクションは、クロール コレクションに含める URI を指定する一連のホスト名フィルターを定義します。セクションを空にすると、すべてのホスト名に指定したことになります。

属性

以下の表に、このセクションの attrib 要素を示します。

名前 種類 意味

exact

list-string

ホスト名の一覧を指定します。URI のホスト名がこの一覧のいずれかのホスト名に一致した場合、その URI はこの規則に含まれます。

prefix

list-string

ホスト名の一覧を指定します。URI のホスト名の先頭がこの一覧のいずれかのホスト名に一致した場合、その URI はこの規則に含まれます。

suffix

list-string

ホスト名の一覧を指定します。URI のホスト名の末尾がこの一覧のいずれかのホスト名に一致した場合、その URI はこの規則に含まれます。

regexp

list-string

正規表現の一覧を指定します。URI のホスト名がこの一覧のいずれかの正規表現に一致した場合、その URI はこの規則に含まれます。

ipmask

list-string

IPv4 アドレス マスクの一覧を指定します。取得された IPv4 アドレスがこの一覧のいずれかの IPv4 アドレス マスクに一致した場合、その URI はこの規則に含まれます。IPv4 アドレス マスクは、以下のいずれかの形式で記述する必要があります。

  • IPv4 アドレスの範囲を指定するには、IPv4 アドレスを文字列形式で記述し、ハイフンを使用して範囲を指定します。使用例: 207.46.197.0-100 または 207.46.190-197.100

    この範囲内にある IPv4 アドレスは、このマスクに含まれます。

  • IPv4 マスクは、IPv4 アドレスの N 番目の最上位ビットを使用して指定することもできます。ここで、N は 0 ~ 32 の範囲の整数です。

    このマスクでは、文字列形式の IPv4 アドレスの後にスラッシュ記号を記述し、その後に最上位ビットの番号を指定します。使用例: 207.46.197.0 /24

    指定した IPv4 アドレスと N ビットの範囲が同じ IPv4 アドレスは、このマスクに含まれます。

  • IPv4 マスクは、ビットマスクを使用して IPv4 アドレスの重要なビットをマスクする方法でも指定できます。

    このマスクの形式は IPv4 address in string format:ip-mask です。ここで、ip-mask はマスクに使用される文字列形式の IPv4 アドレスまたは 32 ビットの 16 進数の値です。使用例: 207.46.197.0:255.255.255.0 または 207.46.197.0:0xffffff00

    ip-mask で指定したビットセットと IPv4 アドレスに一致する IPv4 アドレスは、このマスクに含まれます。

ip6mask

list-string

IPv6 アドレス マスクの一覧を指定します。取得された IPv6 アドレスがこの一覧のいずれかの IPv6 アドレス マスクに一致した場合、その URI はこの規則に含まれます。

IPv6 アドレス マスクは、以下のいずれかの形式で記述する必要があります。

  • IPv6 アドレスの範囲を指定するには、IPv6 アドレスを文字列形式で記述し、ハイフンを使用して範囲を指定します。使用例: 2002:CF2E:C500- C564:0:0:0:0:0 または ::ffff:207.46.197.0-100

    この範囲内にある IPv6 アドレスは、このマスクに含まれます。

  • IPv6 マスクは、IPv6 アドレスの N 番目の最上位ビットを使用して指定することもできます。ここで、N は 0 ~ 128 の範囲の整数です。

    このマスクでは、文字列形式の IPv6 アドレスの後にスラッシュ記号を記述し、その後に最上位ビットの番号を指定します。使用例: 2002:CF2E:C500:0:0:0:0:0/60

    指定した IPv6 アドレスと N ビットの範囲が同じ IPv6 アドレスは、このマスクに含まれます。

<section name="include_domains">
   <attrib name="exact" type="list-string">
      <member> www.contoso.com </member>
      <member> www2.contoso.com </member>
   </attrib>
   <attrib name="prefix" type="list-string">
      <member> www </member>
   </attrib>
   <attrib name="suffix" type="list-string">
      <member> .contoso.com</member>
      <member> .contoso2.com</member>
   </attrib>
   <attrib name="regexp" type="list-string">
      <member> .*\.contoso\.com </member>
   </attrib>
   <attrib name="file" type="list-string">
       <member> c:\myinclude_domains.txt </member>
   </attrib>
</section>

exclude_domains

このセクションは、クロール コレクションから除外する URI を指定する一連のホスト名フィルターを指定します。このセクションが空白の場合、一致するホスト名はありません。

属性

このセクションの attrib 要素については、「include_domains」の表を参照してください。

<section name="exclude_domains">
   <attrib name="exact" type="list-string">
      <member> www.contoso.com </member>
      <member> www2.contoso.com </member>
   </attrib>
   <attrib name="prefix" type="list-string">
      <member> www </member>
   </attrib>
   <attrib name="suffix" type="list-string">
      <member> .contoso.com</member>
      <member> .contoso2.com</member>
   </attrib>
   <attrib name="regexp" type="list-string">
      <member> .*\.contoso\.com </member>
   </attrib>
   <attrib name="file" type="list-string">
       <member> c:\myexclude_domains.txt </member>
   </attrib>
</section>

include_uris

このセクションは、クロール コレクションに含める URI を指定する一連のホスト名フィルターを指定します。このセクションが空白の場合、すべてのホスト名に一致します。

属性

以下の表に、このセクションの attrib 要素を示します。

名前 種類 意味

exact

list-string

URI の一覧を指定します。この一覧のいずれかの URI に正確に一致する URI は、この規則に含まれます。

prefix

list-string

文字列の一覧を指定します。この一覧のいずれかの文字列で始まる URI は、この規則に含まれます。

suffix

list-string

文字列の一覧を指定します。この一覧のいずれかの文字列で終わる URI は、この規則に含まれます。

regexp

list-string

正規表現の一覧を指定します。この一覧のいずれかの正規表現に一致する URI は、この規則に含まれます。

<section name="include_uris">
   <attrib name="exact" type="list-string">
      <member> https://www.contoso.com/documents/doc2.html </member>
   </attrib>
   <attrib name="prefix" type="list-string">
      <member> https://www.contoso.com/documents/ </member>
   </attrib>
   <attrib name="suffix" type="list-string">
      <member> /doc2.html </member>
   </attrib>
   <attrib name="regexp" type="list-string">
      <member> http://.*\.contoso\.com/documents.*</member>
   </attrib>
   <attrib name="file" type="list-string">
       <member> c:\myinclude_uris.txt </member>
   </attrib>
</section>

exclude_uris

このセクションは、クロール コレクションから除外する URI を指定する一連の URI ベース規則を指定します。このセクションが空白の場合、一致する URI はありません。

属性

このセクションの attrib 要素については、「include_uris」の表を参照してください。

<section name="exclude_uris">
   <attrib name="exact" type="list-string">
      <member> https://www.contoso.com/documents/doc2.html </member>
   </attrib>
   <attrib name="prefix" type="list-string">
      <member> https://www.contoso.com/documents/ </member>
   </attrib>
   <attrib name="suffix" type="list-string">
      <member> /doc2.html </member>
   </attrib>
   <attrib name="regexp" type="list-string">
      <member> http://.*\.contoso\.com/documents.*</member>
   </attrib>
   <attrib name="file" type="list-string">
       <member> c:\myexclude_uris.txt </member>
   </attrib>
</section>

log

このセクションは、Web クローラーのログ動作を指定します。

属性

以下の表に、このセクションの attrib 要素を示します。

名前 種類 意味

fetch

string

text|none

ダウンロードした Web アイテムのログを有効または無効にします。有効な値は、次のとおりです。

  • text : テキスト形式のログを作成します。

  • none : ログを無効にします。

既定値: text

postprocess

string

text|xml|none

ノード スケジューラ アイテム後処理のログを有効または無効にします。有効な値は、次のとおりです。

  • text : テキスト形式のログを作成します。

  • xml : XML 形式のタグを作成します。

  • none : ログを無効にします。

既定値: text

header

string

text|none

HTTP ヘッダーのログを有効または無効にします。有効な値は、次のとおりです。

  • text : テキスト形式のログを作成します。

  • none : ログを無効にします。

screened

string

text|none

すべてのスクリーニングされた URI のログを有効または無効にします。有効な値は、次のとおりです。

  • text : テキスト形式のログを作成します。

  • none : ログを無効にします。

scheduler

string

text|none

アダプティブ クロールのログを有効または無効にします。有効な値は、次のとおりです。

  • text : テキスト形式のログを作成します。

  • none : ログを無効にします。

dsfeed

string

text|none

インデックス付けエンジンへのコンテンツ送信のログを有効または無効にします。有効な値は、次のとおりです。

  • text : テキスト形式のログを作成します。

  • none : ログを無効にします。

site

string

text|none

クロール サイトごとにログを有効または無効にします。有効な値は、次のとおりです。

  • text : テキスト形式のログを作成します。

  • none : ログを無効にします。

<section name="log">
   <attrib name="dsfeed" type="string"> text </attrib>
   <attrib name="fetch" type="string"> text </attrib>
   <attrib name="postprocess" type="string"> text </attrib>
   <attrib name="screened" type="string"> none </attrib>
   <attrib name="site" type="string"> text </attrib>
</section>

storage

このセクションは、Web クローラーがデータとメタデータを保存する方法を指定します。

属性

次の表に、このセクションの attrib 要素を示します。

名前 種類 意味

datastore

string

flatfile|bstore

Web アイテム コンテンツ ストレージの形式を指定します。有効な値は、次のとおりです。

  • flatfile : アイテムをファイル システムに直接保存します。

  • bstore : アイテムを固定サイズのブロックに分割し、複数のファイルに分散して保存します。インデックスによってブロックの順序がマッピングされ、ブロックが属するアイテムが示されます。

既定値: bstore

store_http_header

boolean

yes|no

Web クローラーが受信した HTTP ヘッダーを保存することを指定します。

既定値: yes

store_dupes

boolean

yes|no

Web クローラーが重複する Web アイテムを保存することを指定します。

既定値: no

compress

boolean

yes|no

ダウンロードしたアイテムを圧縮してから保存することを指定します。

既定値: yes

compress_exclude_mime

list-string

保存する前に圧縮しない Web アイテムの MIME タイプの一覧を指定します。既に圧縮されている Web アイテム (マルチメディア形式のアイテムなど) に使用します。

compress 構成パラメーターを設定しない場合、このパラメーターは適用されません。

remove_docs

boolean

yes|no

Web クローラーが、Web アイテムを Web クローラー ストアからインデックス付けエンジンに送信した後で、すぐにそのアイテムを削除するかどうかを指定します。この設定を有効にすると Web クローラーが消費するディスク領域は減りますが、フィールドの再実行は不可能になります。

既定値: no

clusters

integer

<値>

クロール コレクション用のストレージに使用するクラスターの数を指定します。Web アイテムは、これらのストレージ クラスターに分散して保管されます。

既定値: 8

defrag_threshold

integer

<パーセンテージ>

データ ストレージ ファイルの最適化を実行するしきい値 (使用中の容量に対する割合) を指定する 0 以外の値です。使用中の領域が defrag_threshold の値を下回ると、Web アイテムの保存によって断片化した領域を再生するため、ファイルが最適化の対象となります。データベース ファイルは、最適化レベルとは無関係にコンパクト化されます。

既定値の 85% は、データ ストレージ ファイル内の領域の 15 %が再生可能になったときに最適化が実行されることを意味します。

0 を指定すると、最適化は無効になります。

この設定は、storage_format 属性の bstore 値にのみ適用されます。

既定値: 85

uri_dir

string

<パス>

Web アイテムから抽出されたすべてのハイパーリンクのファイル一覧の保存先パスを指定します。サイト マネージャー プロセスごとに異なるファイルが使用されます。URI ファイルの名前は、プロセス PID に .txt を連結して作成されます。

<section name="storage">
   <attrib name="store_dupes" type="boolean"> no </attrib>
   <attrib name="datastore" type="string"> bstore </attrib>
   <attrib name="compress" type="boolean"> yes </attrib>
</section>

pp

このセクションは、ノード スケジューラの後処理動作を指定します。後処理では、Web アイテムをインデックスにフィードするタスクと、重複データを検出するタスクが主に実行されます。

属性

以下の表に、このセクションの attrib 要素を示します。

名前 種類 意味

use_dupservers

boolean

yes|no

Web クローラーが 1 つ以上の重複サーバーを使用することを指定します。

このオプションは、マルチノード展開にのみ適用されます。

既定値: no

max_dupes

integer

<値>

Web アイテムごとに記録する重複データの最大数を指定します。

既定値: 10

stripe

integer

<値>

チェックサム データを分散して格納するデータ ファイルの数を指定します。この値を増やすと、後処理のパフォーマンスが向上します。

既定値: 1

ds_meta_info

list-string

duplicates|redirects|mirrors|metadata

ノード スケジューラがインデックス付けエンジンに報告するメタデータの種類を指定します。有効な値は、次のとおりです。

duplicates : このアイテムと重複する URI を報告します。

redirects : このアイテムにリダイレクトされる URI を報告します。

metadata : このアイテムのメタデータを報告します。

mirrors : この Web アイテムのすべてのミラー URI を報告します。

ds_max_ecl

integer

<値>

ds_meta_info 構成パラメーターの設定に従ってインデックス付けエンジンに報告する重複またはリダイレクトの最大数を指定します。

既定値: 10

ecl_override

string

max_dupes の値に達した後でも、保管しておそらくインデックス付けエンジンに送信するリダイレクト URI または重複 URI を識別する正規表現を指定します。使用例: .*index\.html$

ds_send_links

boolean

yes|no

Web アイテムから抽出したすべてのハイパーリンクをインデックス付けエンジンに送信するかどうかを指定します。

ds_paused

boolean

yes|no

ノード スケジューラがインデックス付けエンジンへのコンテンツ送信を保留するかどうかを指定します。

<section name="pp">
   <attrib name="max_dupes" type="integer"> 10 </attrib>
   <attrib name="use_dupservers" type="boolean"> yes </attrib>
   <attrib name="ds_paused" type="boolean"> no </attrib>
</section>

ppdup

このセクションは、重複サーバー設定を指定します。

属性

以下の表に、このセクションの attrib 要素を示します。

名前 種類 意味

format

string

gigabase|hashlog|diskhashlog

重複サーバー データベースの形式を指定します。有効な値は、次のとおりです。

  • gigabase : Gigabase は、単純なキー/値データベースです。

  • hashlog : ハッシュログは、ハッシュ テーブルとデータ ログから構成されるメモリ内データ構造です。データ ログには、格納されたすべてのキーと値が含まれ、必要に応じてメモリ内のハッシュ テーブルを自動的に再構築できます。

  • diskhashlog : ディスクハッシュログは、データ構造がディスク上で直接アクセスされることを除き、ハッシュログと同じものです。

cachesize

integer

<MB>

重複サーバー データベースのキャッシュ サイズを MB 単位で指定します。format 構成パラメーターが hashlog または diskhashlog に設定されている場合、このパラメーターはハッシュ テーブルの内部サイズを指定します。

stripes

integer

<値>

コンテンツを分散して格納するデータ ファイルの数を指定します。複数のファイルを使用すると、重複サーバー データベースのパフォーマンスを向上できます。

compact

boolean

yes|no

重複サーバー データベースがコンパクト化を実行するかどうかを指定します。hashlog 形式と diskhashlog 形式では、crawlerdbtool を使用して手動でコンパクト化を実行するか、このオプションを有効にして自動的にコンパクト化を実行する必要があります。これを行わないと、レコードの書き込みまたは更新に使用されるディスクの使用量が増えます。

既定値: yes

<section name="ppdup">
   <attrib name="format" type="string"> hashlog </attrib>
   <attrib name="stripes" type="integer"> 1 </attrib>
      <!-- 1 GB memory hash -->
   <attrib name="cachesize" type="integer"> 1024 </attrib>
   <attrib name="compact" type="boolean"> yes </attrib>
</section>

feeding

feeding セクションは、クロール コレクションを表す情報をインデックス付けエンジンに送信する方法を指定する最低 1 つの section XML 要素から構成されます。このようなセクションは、コンテンツの送信先を定義します。name 属性は、コンテンツの送信先を表す一意の名前です。

属性

以下の表に、コンテンツの送信先セクションの attrib 要素を示します。

名前 種類 意味

collection

string

<名前>

Web アイテムを送信するコンテンツ コレクションの名前を指定します。この構成パラメーターは、feeding セクションで指定する必要があります。

destination

string

default

予約名。この構成パラメーターの値は常に default である必要があります。

paused

boolean

yes|no

Web クローラーがインデックス付けエンジンへのコンテンツの送信を保留するかどうかを指定します。

既定値: no

primary

boolean

yes|no

このコンテンツ送信先をプライマリのコンテンツ送信先にするか、セカンダリのコンテンツ送信先にするかを指定します。

プライマリのコンテンツ送信先は、インデックス付けエンジンへのコンテンツ送信時にコールバック情報の役割をはたします。

コンテンツ送信先を 1 つだけ指定した場合は、それがプライマリの送信先となります。

<section name="feeding">
    <section name="Global_News">
        <attrib name="collection" type="string"> collection_A </attrib>
        <attrib name="destination" type="string"> default </attrib>
        <attrib name="primary" type="boolean"> yes </attrib>
        <attrib name="paused" type="boolean"> no </attrib>
    </section>
    <section name="Local_News">
        <attrib name="collection" type="string"> collection_B </attrib>
        <attrib name="destination" type="string"> default </attrib>
        <attrib name="primary" type="boolean"> no </attrib>
        <attrib name="paused" type="boolean"> no </attrib>
     </section>
</section>

cachesize

このセクションは、Web クローラー プロセスのキャッシュ サイズを構成します。

属性

次の表に、このセクションの attrib 要素を示します。

注意

この表に明記されていない場合、各属性の既定値は Web クローラーによって実行時に自動的に決定されます。

名前 種類 意味

duplicates

integer

<アイテムの数を表す値>

サイト マネージャー プロセスごとの重複データ チェックサム キャッシュのサイズを指定します。このキャッシュは、実行時に重複データ検出の最初のレベルとして使用されます。

screened

integer

<アイテムの数を表す値>

スクリーニングされた URI キャッシュのサイズをハイパーリンクの数で指定します。スクリーニングされたキャッシュは、最近の取得が失敗に終わった重複ハイパーリンクを除外します。

smcomm

integer

<アイテムの数を表す値>

ノード スケジューラとサイト マネージャー間で送信される重複ハイパーリンクを除外するためにキャッシュで使用されるブルーム フィルターのサイズを指定します。

mucomm

integer

<アイテムの数を表す値>

マルチノード スケジューラとノード スケジューラ間で送信される重複ハイパーリンクを除外するためにキャッシュで使用されるブルーム フィルターのサイズを指定します。

wqcache

integer

<アイテムの数を表す値>

Web サイト クロール キューから重複ハイパーリンクを除外するキャッシュのサイズを指定します。

crosslinks

integer

<アイテムの数を表す値>

クロスリンク キャッシュのサイズを指定します。クロスリンク キャッシュには、取得したハイパーリンクと参照元ハイパーリンクが格納されます。mufilter が有効になっていない場合、このキャッシュはノード スケジューラ内の重複ハイパーリンクを除外します。

routetab

integer

<値>

クロール ルーティング データベースのキャッシュ サイズをバイト単位で指定します。

既定値: 1048576

pp

integer

<値>

後処理データベースのキャッシュ サイズをバイト単位で指定します。

既定値: 1048576

pp_pending

integer

<値>

後処理保留キャッシュのサイズをバイト単位で指定します。保留キャッシュには、重複サーバーにまだ送信されていないエントリが格納されます。

既定値: 131072

aliases

integer

<値>

エイリアス データ マッピング データベースのキャッシュ サイズをバイト単位で指定します。クロール サイトには、1 つ以上のエイリアス (代替ホスト名) を関連付けることができます。

既定値: 1048576

<section name="cachesize">
      <!-- Specific cache size values (in number of items) for the following: -->
      <attrib name="duplicates" type="integer"> 128 </attrib>
      <attrib name="screened" type="integer"> 128 </attrib>
      <attrib name="smcomm" type="integer"> 128 </attrib>
      <attrib name="mucomm" type="integer"> 128 </attrib>
      <attrib name="wqcache" type="integer"> 4096 </attrib>
      <!-- Automatic cache size for crosslinks -->
      <attrib name="crosslinks" type="integer"> </attrib>
      <!-- Cache sizes in bytes for the following -->
      <attrib name="routetab" type="integer"> 1048576 </attrib>
      <attrib name="pp" type="integer"> 1048576 </attrib>
      <attrib name="pp_pending" type="integer"> 1048576 </attrib>
      <attrib name="aliases" type="integer"> 1048576 </attrib>
   </section>

http_errors

このセクションは、HTTP/HTTPS のエラー応答コードと条件を処理する方法を指定します。

属性

次の表に、このセクションの attrib 要素を示します。name 属性には複数の値があるため、それぞれについて用途を説明しています。

名前

種類

意味

name 属性は、処理する HTTP/HTTPS/FTP 応答コード番号を指定します。文字 "X" は、ワイルドカード文字として使用できます。たとえば、"4XX" のように記述します。

他に、次の値を使用できます。

  • net : ネットワーク ソケット エラーを処理します。

  • int : Web クローラーの内部エラーを処理します。

  • ttl : HTTP/HTTPS/FTP 接続タイムアウトを処理します。

string

<値>

Web クローラーが HTTP/HTTPS/FTP エラーおよびネットワーク エラーを処理する方法を指定します。個々の応答コードを処理するための有効なオプションは、次のとおりです。

  • KEEP : Web アイテムを変更しません。

  • DELETE[:X] : エラー状況が X 回発生した場合、Web アイテムを削除します。X の値を指定しない場合は、最初のエラーですぐに削除されます。

どちらかのオプションに RETRY[:X] を指定すると、Web クローラーは、同じクロール更新サイクル期間に最高 X 回まで Web アイテムの再ダウンロードを試みます。それ以外の場合は、クローラーは次のクロール更新サイクルが開始されるまで URI をダウンロードしません。

既定値: 「http_errors セクションの既定値」および「ftp_errors セクションの既定値」を参照してください。

http_errors セクションの既定値

次の表に、http_errors セクションの既定値を示します。

名前 意味

4xx

DELETE:0

すぐに削除します。

5xx

DELETE:10

この URI でこのエラーが 10 回発生した場合に (通常は 10 回目のクロール サイクルの後で) 削除します。URI が正常に取得されると、カウンターはリセットされます。

int

KEEP:0

削除しません。

net

DELETE:3、RETRY:1

3 回目で削除します。1 回の再試行を指定します。したがって、URI は次回の更新サイクルでも取得できない場合に削除されます。

ttl

DELETE:3

3 回目に削除します。

<section name="http_errors">
    <attrib name="408" type="string"> KEEP </attrib>
    <attrib name="4xx" type="string"> DELETE </attrib>
    <attrib name="5xx" type="string"> DELETE:10, RETRY:3 </attrib>
    <attrib name="ttl" type="string"> DELETE:3 </attrib>
    <attrib name="net" type="string"> DELETE:3 </attrib>
    <attrib name="int" type="string"> KEEP </attrib>
</section>

ftp_errors

このセクションは、FTP URI の応答コードとエラー条件を処理する方法を指定します。

属性

このセクションの attrib 要素については、「http_errors」の表を参照してください。

ftp_errors セクションの既定値

次の表に、ftp_errors セクションの既定値を示します。

名前 意味

4xx

DELETE:3

この URI でこのエラーが 3 回発生した場合に (通常は 3 回目のクロール サイクルの後で) 削除します。URI が正常に取得されると、カウンターはリセットされます。

550

DELETE:0

すぐに削除します。

5xx

DELETE:3

4xx の場合と同様に、3 回目で削除します。

int

KEEP:0

削除しません。

net

DELETE:3、RETRY:1

3 回目で削除します。1 回の再試行を指定します。したがって、URI は次回の更新サイクルでも取得できない場合に削除されます。

<section name="ftp_errors">
    <attrib name="4xx" type="string"> DELETE:3 </attrib>
    <attrib name="550" type="string"> DELETE:0 </attrib>
    <attrib name="5xx" type="string"> DELETE:3 </attrib>
    <attrib name="int" type="string"> KEEP:0 </attrib>
    <attrib name="net" type="string"> DELETE:3, RETRY:1 </attrib>
    <attrib name="ttl" type="string"> DELETE:3 </attrib>
</section>

workqueue_priority

このセクションは、クロール キューの優先度レベルを指定し、キューへの URI の挿入とキューからの URI の取り出しに適用される規則とモードを指定します。

属性

次の表に、このセクションの attrib 要素を指定します。

名前 種類 意味

levels

integer

<値>

クロール キューに使用する優先度レベルの数を指定します。

既定値: 1

default

integer

<値>

クロール キュー内の URI に割り当てる既定の優先度レベルを指定します。

既定値: 1

start_uri_pri

integer

<値>

開始 URI の優先度レベルを指定します。start_uris 構成パラメーターと start_uri_files 構成パラメーターを参照してください。

既定値: 1

pop_scheme

string

default|rr|wrr|pri

Web クローラーがクロール キューから URI を取り出すのに使用するモードを指定します。有効な値は、次のとおりです。

  • rr : 優先度レベルから URI をラウンドロビンの順序で取り出します。

  • wrr : 優先度レベルから URI をウェイト付けされたラウンドロビンの順序で取り出します。ウェイトは、「優先度レベル セクション」で指定した優先度レベルごとの共有設定に基づいて決定されます。

  • pri : エントリがまだクロール キューに残っているときに、優先度レベルから優先順位の高い順に URI を取り出します。「優先度レベル セクション」で指定するように、1 が最も高い優先度です。

  • default : wrr と同じです。

既定値: default

put_scheme

string

default|include

URI をクロール キューに挿入するときに使用する Web クローラー モードを指定します。有効な値は、次のとおりです。

  • default : 既定の構成パラメーターで指定された優先度レベルで URI を常に挿入します。

  • include : 各優先度レベルの「優先度レベル セクション」で指定されたとおりに、include_domains または include_uris の優先度レベルで URI を挿入します。Web クローラー プロセスは、URI がこれらのいずれのセクションにも一致しないときに既定の優先度レベルを割り当てます。

既定値: default

優先度レベル セクション

workqueue_priority セクションでは、クロール キューの優先度レベルとウェイトを指定する一連のセクションを指定できます。これらのセクションは、pop_scheme パラメーターを wrr または pri に設定した場合にのみ使用できます。これらのセクションの name 属性は、指定する優先度レベルである必要があります。優先度レベルは 1 で始まる必要があります (以下の例の <section name="1"> を参照)。

include_domains セクションまたは include_uris セクションは、「include_domains」 および「 include_uris」 で説明したように、各優先度レベル セクションで使用できます。これらの規則に一致する URI は、一致する優先度レベルでキューに設定されます。次の表に、これらのセクションの attrib 要素を指定します。

名前 種類 意味

share

integer

各クロール キューに使用するウェイトを指定します。このウェイトは、pop_scheme 構成パラメーターを wrr に設定した場合にのみ使用されます。

<section name="workqueue_priority">
    <attrib name="levels" type="integer"> 2 </attrib>
    <attrib name="default" type="integer"> 2 </attrib>
    <attrib name="start_uri_pri" type="integer"> 1 </attrib>
    <attrib name="pop_scheme" type="string"> wrr </attrib>
    <attrib name="put_scheme" type="string"> include </attrib>
    <section name="1">
        <attrib name="share" type="integer"> 10 </attrib>
        <section name="include_domains">
            <attrib name="suffix" type="list-string">
                <member> web005.contoso.com  </member>
            </attrib>
        </section>
    </section>
    <section name="2">
        <attrib name="share" type="integer"> 5 </attrib>
        <section name="include_domains">
           <attrib name="suffix" type="list-string">
              <member> web002.contoso.com  </member>
           </attrib>
        </section>
    </section>
</section>

このセクションは、追跡するハイパーリンクの種類を指定します。

属性

次の表に、このセクションの attrib 要素を示します。

名前 種類 意味

a

boolean

yes|no

<A/> HTML タグからハイパーリンクを抽出します。

既定値: yes

action

boolean

yes|no

HTML タグの action 属性からハイパーリンクを抽出します。

既定値: yes

area

boolean

yes|no

<AREA/> HTML タグからハイパーリンクを抽出します。

既定値: yes

card

boolean

yes|no

<CARD/> ワイヤレス マークアップ言語タグからハイパーリンクを抽出します。

既定値: yes

comment

boolean

yes|no

Web アイテム内のコメントからハイパーリンクを抽出します。

既定値: yes

embed

boolean

yes|no

<EMBED/> HTML タグからハイパーリンクを抽出します。

既定値: yes

frame

boolean

yes|no

<FRAME/> HTML タグからハイパーリンクを抽出します。

既定値: yes

go

boolean

yes|no

<GO/> ワイヤレス マークアップ言語タグからハイパーリンクを抽出します。

既定値: yes

img

boolean

yes|no

<IMG/> HTML タグからハイパーリンクを抽出します。

既定値: no

layer

boolean

yes|no

<LAYER/> HTML タグからハイパーリンクを抽出します。

既定値: yes

link

boolean

yes|no

<LINK/> HTML タグからハイパーリンクを抽出します。

既定値: yes

meta

boolean

yes|no

<META/> HTML タグからハイパーリンクを抽出します。

既定値: yes

meta_refresh

boolean

yes|no

meta refresh HTML タグ (<meta http-equiv="refresh" content="n" />) からハイパーリンクを抽出します。

既定値: yes

object

boolean

yes|no

<OBJECT/> HTML タグからハイパーリンクを抽出します。

既定値: yes

script

boolean

yes|no

<SCRIPT/> HTML タグからハイパーリンクを抽出します。

既定値: yes

script_java

boolean

yes|no

JavaScript が含まれる <SCRIPT/> HTML タグからハイパーリンクを抽出します。

既定値: yes

style

boolean

yes|no

<STYLE/> HTML タグからハイパーリンクを抽出します。

既定値: yes

<section name="link_extraction">
   <attrib name="action" type="boolean"> yes </attrib>
   <attrib name="img" type="boolean"> no </attrib>
   <attrib name="link" type="boolean"> yes </attrib>
   <attrib name="meta" type="boolean"> yes </attrib>
   <attrib name="meta_refresh" type="boolean"> yes </attrib>
   <attrib name="object" type="boolean"> yes </attrib>
   <attrib name="script_java" type="boolean"> yes </attrib>
</section>

limits

limits セクションは、クロール コレクションのフェールセーフ制限を指定します。コレクションがこの制限を超えると、"更新のみ" のクロール モードに切り替わります。つまり、前回クロールされた URI のみが再度クロールされます。

属性

次の表に、このセクションの attrib 要素を示します。

名前 種類 意味

disk_free

integer

<パーセンテージ>

Web クローラーが normal クロール モード (crawlmode 属性で指定する) で動作するために必要なディスクの空き容量のパーセンテージを指定します。パーセンテージがこの制限を下回ると、Web クローラーは (しきい値に達した時点で) "更新のみ" のクロール モードに切り替わります。

このパラメーターを 0 に設定すると、この機能は無効になります。

既定値: 0

disk_free_slack

integer

<パーセンテージ>

disk_free しきい値に持たせる余裕をパーセンテージで指定します。

このオプションは、disk_free しきい値の前後に緩衝地帯を設けます。ディスクの空き容量がこの範囲内であれば、Web クローラーはクロール モードを通常 (normal) に戻しません。この機能により、ディスクの空き領域のパーセンテージが disk_free パラメーターに指定した値に近い場合に Web クローラーがクロール モードを頻繁に切り替えることが回避されます。ディスクの空き領域のパーセンテージが disk_freedisk_free_slack を足した値を超えると、通常のクロールが再開されます。

既定値: 3

max_doc

integer

<値>

Web クローラーを "更新" クロール モードに切り替えるしきい値となる保存済み Web アイテム数を指定します。

注意

統計情報の報告は実際のクロールよりも遅れるので、このしきい値は正確な制限ではありません。

このオプションを 0 に設定すると、この機能は無効になります。

既定値: 0

max_doc_slack

integer

<値>

Web クローラーが "更新のみ" のクロール モードに切り替わってからすぐに通常のクロール モードに戻る動作を繰り返すことを回避するため、絶対的なしきい値に余裕値を加えることができます。これにより、"しきい値から余裕値を引いた値" からしきい値までの範囲内ではクロール モードは変更されません。max_doc_slack 属性は、max_doc 構成パラメーターのしきい値に達するまでに余裕値に含まれるアイテムの最大数を指定します。

既定値: 1000

<section name="limits">
   <attrib name="disk_free" type="integer"> 0 </attrib>
   <attrib name="disk_free_slack" type="integer"> 3 </attrib>
   <attrib name="max_doc" type="integer"> 0 </attrib>
   <attrib name="max_doc_slack" type="integer"> 1000 </attrib>
</section>

focused

このセクションは、集中スケジュールを構成します。exclude_domains セクションを focused セクションと組み合わせて使用すると、この集中スケジュールからホスト名を除外できます。exclude_domains セクションを定義しないと、すべてのホスト名が集中スケジュールに含まれます。

属性

次の表に、このセクションの attrib 要素を示します。

名前

種類

意味

languages

list-string

Web クローラーによって保存できるアイテムの言語の一覧を指定します。言語の定義は、「ISO-639-1 (英語)」に従います。

depth

integer

<値>

languages 構成パラメーターで設定された言語と一致しない Web アイテムを追跡するページ ホップ数を指定します。

以下の例では、Web クローラーはノルウェー語、英語、および言語不明のコンテンツについてすべてのアイテムを保存します。これらに該当しないすべての言語については、リンクを 2 レベルのみ追跡します。また、contoso.com にあるすべてのコンテンツは、言語チェックの対象外とし、自動的に保存します。

<section name="focused">
   <!-- Crawl Norwegian, English and content of unknown language -->
   <attrib name="languages" type="list-string">
      <member> norwegian </member>
      <member> unknown </member>
      <member> en </member>
   </attrib>
   <!--Follow hyperlinks containing other languages for 2 levels -->
   <attrib name="depth" type="integer"> 2 </attrib>
   <!-- Exclude anything under .contoso.com from language checks, -->   
   <section name="exclude_domains">
      <attrib name="suffix" type="list-string">
         <member> .contoso.com </member>
      </attrib>
   </section>
</section>

passwd

このセクションは、認証を要求する Web サイトに使用する資格情報を構成します。Web クローラーは、 基本認証、ダイジェスト認証、および NTLM 認証をサポートします。

属性

次の表に、このセクションの attrib 要素を示します。

名前 種類 意味

name

string

name 属性には、URI または領域を指定します。有効な URI はプレフィックスの役割を演じます。このレベルと同じかそれ以上の深さから抽出されたすべてのハイパーリンクに対して、ここで指定する認証設定が使用されるからです。

資格情報は、username:password または usename:password:realm:scheme の形式で指定する必要があります。

資格情報文字列のパスワード コンポーネントは暗号化されていることがあります。暗号化されていない場合は、パスワードはテキスト形式です。

暗号化パスワードは、crawleradmin ツールで -e オプションを指定して作成します。暗号化に使用されるアルゴリズムは、高度暗号化標準 (AES) の AES-128 です。この暗号化のキーは、<FASTSearchFolder>\etc\CrawlerEncryptionKey.dat に格納されます。

資格情報を username:password 形式で提供した場合、Web クローラーは自動的に基本認証を使用します。それ以外の場合は、この構成で認証スキームを指定する必要があります。有効な認証スキームは、次のとおりです。

  • basic

  • digest

  • ntlmv1

  • ntlmv2

  • auto : Web クローラーが、使用する認証スキームを自動的に決定します。

<section name="passwd">
    <attrib name="https://www.contoso.com/confidential1/" type="string">
      user:password:contoso:auto
    </attrib>
</section>

ftp_acct

このセクションは、FTP URI のクロールに使用する FTP アカウントを指定します。

属性

次の表に、このセクションの attrib 要素を示します。

名前 種類 意味

name

string

name XML 属性の値は、この FTP アカウントが有効になっているホスト名です。

これは、この FTP アカウントのユーザー名とパスワードです。文字列の形式は、username:password である必要があります。

<section name="ftp_acct">
   <attrib name="ftp.contoso.com" type="string"> user:pass </attrib>
</section>

exclude_headers

このセクションは、HTTP ヘッダー フィールドの内容に基づいて Web アイテムをクロールから除外するために使用します。

属性

次の表に、このセクションの attrib 要素を示します。

名前 種類 意味

name

name 属性は、テストする HTTP ヘッダーの名前を設定するために使用します。

list-string

正規表現の一覧を指定します。指定された HTTP ヘッダーの値がこの一覧のいずれかの正規表現に一致した場合、その Web アイテムはクロールから除外されます。

<section name="exclude_headers">
   <attrib name="Header Name" type="list-string">
      <member> .*excluded.*value </member>
   </attrib>
</section>

variable_delay

このセクションは、別の要求レートを使用する時間帯を指定します。時間帯を指定しない場合、クローラーは attrib に指定された delay 構成パラメーターを使用します。

属性

次の表に、このセクションの attrib 要素を示します。

名前 種類 意味

name (DDD:HH.MM-DDD:HH.MM 形式)

string

<秒>

suspend

この時間帯に使用する遅延要求レートを秒単位で指定します。suspend の値は、このクロール コレクションのクロールが中断されることを示します。

以下の例は、Web クローラーが曜日によって異なる遅延時間を使用する方法を示しています。水曜日の午前 9 時から午後 7 時までは、20 秒の遅延を使用します。月曜日の午前 9 時から午後 5 時までは、クロールを中断します。他の曜日を含め、これ以外の時間帯については 60 秒の遅延を使用します。

<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
   <DomainSpecification name="variable_example">
      <section name="variable_delay">
         <attrib name="Wed:09-Wed:19" type="string">20 </attrib>
         <attrib name="Mon:09-Mon:17" type="string">suspend</attrib>
      </section>
   </DomainSpecification>
</CrawlerConfig>

adaptive

このセクションは、アダプティブ クロール オプションを指定します。このセクションが Web クローラーに適用されるには、attrib 内で refresh_mode 構成パラメーターが adaptive に設定されている必要があります。

アダプティブ クロールの動作は、weights セクションと sitemap_weights セクションを使用して調整できます。

属性

次の表に、このセクションの attrib 要素を示します。

名前 種類 意味

refresh_count

integer

<値>

マイナー更新サイクルの回数を指定します。更新サイクルは複数のサイズ固定の間隔に分割できます。それぞれはマイナー更新サイクルと呼びます。

既定値: 4

refresh_quota

integer

<パーセンテージ>

未確認の新規 URI に対する再クロールされる既存の URI の比率をパーセンテージで指定します。低いパーセンテージを指定すると、新規 URI が優先されます。

既定値: 90

coverage_min

integer

<値>

マイナー更新サイクルで Web サイトごとにクロールする URI の最小数を指定します。小さな Web サイトからの十分なデータ取得を保証するために使用します。

既定値: 25

coverage_max_pct

integer

<値>

マイナー更新サイクルで Web サイト全体に対して再クロールの対象とするパーセンテージを指定します。小さな Web サイトがマイナー更新サイクルのたびに完全にクロールされ、大きな Web サイトを十分にクロールする時間がなくなることを回避できます。

既定値: 10

        <section name="adaptive">
            <attrib name="refresh_count" type="integer"> 4 </attrib>
            <attrib name="refresh_quota" type="integer"> 98 </attrib>
            <attrib name="coverage_max_pct" type="integer"> 25 </attrib>
            <attrib name="coverage_min" type="integer"> 10 </attrib>

            <!-- Ranking weights. Each scoring criteria adds a score between -->
            <!-- 0.0 and 1.0 which is then multiplied with the associated    -->
            <!-- weight below. Use a weight of 0 to disable a scorer         --> 
        
           <section name="weights">
                <attrib name="inverse_length" type="real"> 1.0 </attrib>
                <attrib name="inverse_depth" type="real"> 1.0 </attrib>
                <attrib name="is_landing_page" type="real"> 1.0 </attrib>
                <attrib name="is_mime_markup" type="real"> 1.0 </attrib>
                <attrib name="change_history" type="real"> 10.0 </attrib>
            </section>
        </section>

weights

このセクションでは、アダプティブ クロール プロセスに適用されるスコアを各 URI に与えます。このスコアは、URI に優先順位を与える役割を持ち、一連の規則に基づいて決定されます。各規則によってウェイトが与えられ、このウェイトが weights セクションで指定される合計スコアの一部となります。

属性

次の表に、このセクションの attrib 要素を指定します。

名前 種類 意味

inverse_length

real

<値>

逆長さ規則のウェイトを指定します。逆長さ規則は、パス セグメントの数 (スラッシュ記号の数) が少ない URI に高いスコアを与えます。スラッシュ記号が 10 以上ある URI のスコアは 0 です。

既定値: 1.0

inverse_depth

real

<値>

逆深さ規則のウェイトを指定します。逆深さ規則は、開始 URI からのページ ホップの数を計算し、10 未満の URI に高いスコアを与えます。ページ ホップが 10 以上ある URI のスコアは 0 です。

既定値: 1.0

is_landing_page

real

<値>

is_landing_page 規則のウェイトを指定します。この規則は、ジャンプ先であると判断された URI に高いスコアを与えます。ジャンプ先とは、/、/index.html、index.htm、index.php、index.jsp、index.asp、default.html、または default.htm のいずれかで終わる URI です。

この規則は、クエリ コンポーネントが含まれる URI にスコアを与えません。

既定値: 1.0

is_mime_markup

real

<値>

is_mime_markup 規則のウェイトを指定します。この規則は、attrib の uri_search_mime 構成パラメーターで指定された MIME タイプのページに追加のスコアを与えます。

既定値: 1.0

change_history

real

<値>

変更履歴規則のウェイトを指定します。この規則は、HTTP ヘッダーの "最終更新日" の値に基づいてスコアを与えます。変更される頻度の高い Web アイテムは、変更頻度の低い Web アイテムよりも高いスコアを獲得します。

既定値: 10.0

sitemap

real

<値>

サイトマップ規則のウェイトを指定します。サイトマップ規則のウェイトは、sitemap_weights で指定します。

既定値: 10.0

<!-- Ranking weights. Each scoring criteria adds a score between -->
            <!-- 0.0 and 1.0 which is then multiplied with the associated    -->
            <!-- weight below. Use a weight of 0 to disable a scorer         -->
            <section name="weights">
                <!-- Score based on the number of /'es (segments) in the -->
                <!-- URI. Max score with one, no score with 10 or more   -->
                <attrib name="inverse_length" type="real"> 1.0 </attrib>

                <!-- Score based on the number of link "levels" down to -->
                <!-- this URI. Max score with none, no score with >= 10 -->
                <attrib name="inverse_depth" type="real"> 1.0 </attrib>

                <!-- Score added if URI is determined as a "landing page", -->
                <!-- defined as e.g. ending in "/" or "index.html". URIs   -->
                <!-- with query parameters are not given score             -->
                <attrib name="is_landing_page" type="real"> 1.0 </attrib>

                <!-- Score added if URI points to a markup document as    -->
                <!-- defined by the "uri_search_mime" option. Assumption  -->
                <!-- being that such content changes more often than e.g. -->
                <!-- "static" Word or PDF documents.                      -->
                <attrib name="is_mime_markup" type="real"> 1.0 </attrib>

                <!-- Score based on change history tracked over time by   -->
                <!-- using an estimator based on last modified date given -->
                <!-- by the web server. If no modified date returned then -->
                <!-- one is estimated (based on whether the document has  -->
                <!-- changed or not).                                     -->
                <attrib name="change_history" type="real"> 10.0 </attrib>
            </section>
  

sitemap_weights

サイトマップ内の <URL> エントリには changefreq 要素が含まれている場合があります。この要素は、URI が更新される頻度を指定します。

この要素の有効な文字列は、alwayshourlydailyweeklymonthlyyearly、および never です。この文字列値は数値のウェイトに変換されてアダプティブ クロールに使用されます。sitemap_weights セクションは、文字列値から数値のウェイトへのマッピングを指定します。この数値のウェイトが、weights セクションでのサイトマップ スコアの計算に使用されます。

URI のアダプティブ クロール スコアは、この数値のウェイトと sitemap 構成パラメーターのウェイトを掛けて計算されます。

属性

次の表に、このセクションの attrib 要素を示します。

重要

各要素の範囲は 0.0 ~ 1.0 です。

名前 種類 意味

always

real

<値>

changefreq 値 always のウェイトを数値で指定します。

既定値: 1.0

hourly

real

<値>

changefreq 値 hourly のウェイトを数値で指定します。

既定値: 0.64

daily

real

<値>

changefreq 値 daily のウェイトを数値で指定します。

既定値: 0.32

weekly

real

<値>

changefreq 値 weekly のウェイトを数値で指定します。

既定値: 0.16

monthly

real

<値>

changefreq 値 monthly のウェイトを数値で指定します。

既定値: 0.08

yearly

real

<値>

changefreq 値 yearly のウェイトを数値で指定します。

既定値: 0.04

never

real

<値>

changefreq 値 never のウェイトを数値で指定します。

既定値: 0.0

default

real

<値>

<changefreq> 値が関連付けられていないすべての URI のウェイトを指定します。

既定値: 0.16

<section name="sitemap_weights">
    <attrib name="always" type="real"> 1.0 </attrib>
    <attrib name="hourly" type="real"> 0.64 </attrib>
    <attrib name="daily" type="real"> 0.32 </attrib>
    <attrib name="weekly" type="real"> 0.16 </attrib>
    <attrib name="monthly" type="real"> 0.08 </attrib>
    <attrib name="yearly" type="real"> 0.04 </attrib>
    <attrib name="never" type="real"> 0.0 </attrib>
    <attrib name="default" type="real"> 0.16 </attrib>
</section>

site_clusters

このセクションは、クローラーがホスト名をノード スケジューラにルーティングする動作を変更する構成パラメーターを指定します。このパラメーターを使用すると、ホスト名のグループを同じノード スケジューラとサイト マネージャーにルーティングできます。この機能は、use_cookies 設定が有効になっているときに便利です。Cookie はサイト マネージャー プロセス全体にのみグローバルであるからです。また、特定の Web サイトが相互に緊密にリンクする場合、それらのホスト名をクラスター化することで内部通信を削減できます。

属性

次の表に、このセクションの attrib 要素を示します。

名前 種類 意味

name

list-string

グループとしてノード スケジューラに渡すホスト名の一覧を指定します。

<section name="site_clusters">
    <attrib name="mycluster" type="list-string">
        <member> host1.constoso.com </member>
        <member> host2.constoso.com </member>
        <member> host3.constoso.com </member>
    </attrib>
</section>

crawlmode

このセクションは、クロール コレクションの範囲を制限します。

属性

次の表に、このセクションの attrib 要素を示します。

名前 種類 意味

mode

string

クロールの深さを指定します。有効な値は FULL または DEPTH:# です。ここで、# は開始 URI からのページ ホップ数を意味します。

既定値: FULL

fwdlinks

boolean

yes|no

別のホスト名をポイントするハイパーリンクを追跡するかどうかを指定します。

既定値: yes

fwdredirects

boolean

yes|no

サーバーから受け取った外部 HTTP リダイレクトを追跡するかどうかを指定します。外部リダイレクトは、別のホスト名をポイントする HTTP リダイレクトです。

既定値: no

reset_level

boolean

yes|no

別のホスト名に移動するハイパーリンクを追跡するときに、mode で使用するページ ホップ カウンターをリセットするかどうかを指定します。

既定値: yes

        <section name="crawlmode">
            <attrib name="mode" type="string"> DEPTH:1 </attrib>
            <attrib name="fwdlinks" type="boolean"> yes </attrib>
            <attrib name="fwdredirects" type="boolean"> yes </attrib>
            <attrib name="reset_level" type="boolean"> no </attrib>
        </section>

post_payload

このセクションは、HTTP POST 要求に対してコンテンツを送信するために使用します。コンテンツは、URI 全体が正確に一致するか URI プレフィックスに一致する URI に送信されます。

属性

次の表に、このセクションの attrib 要素を示します。

名前

種類

意味

name

string

ペイロード コンテンツ文字列を指定します。この文字列は、name XML 属性に指定した URI またはプレフィックスに一致する URI に送信されます。

name 属性に URI を指定した場合は、完全な一致が要求されます。

URI プレフィックスを指定する場合は、ラベル prefix: を使用します。URI の先頭部分が一致すれば、残りの部分も一致すると見なされます。

<section name="post_payload">
    <attrib name="prefix:https://www.contoso.com/secure" type="string"> variable1=value1&amp;variableB=valueB </attrib>
</section>

rss

このセクションは、クロール コレクションでの RSS フィード サポートを初期化および構成します。

属性

次の表に、このセクションの attrib 要素を示します。

名前

種類

意味

start_uris

list-string

RSS フィード アイテムをポイントする開始 URI の一覧を指定します。

start_uri_files

list-string

RSS フィード アイテムをポイントする URI が含まれるファイルへのパスの一覧を指定します。これらのファイルの形式は、1 行に 1 つの URI が記述されたテキスト形式である必要があります。

auto_discover

boolean

yes|no

Web クローラーが新しい RSS フィードを検出するかどうかを指定します。このオプションを設定しない場合、RSS 開始 URI セクションと RSS 開始 URI ファイル セクションで指定したフィードのみが、RSS フィードとして扱われます。

既定値: no

follow_links

boolean

yes|no

Web クローラーが RSS フィード内に見つかった Web アイテムにあるハイパーリンクを追跡することを指定します (これが Web クローラーの通常の動作です)。このオプションを無効にすると、フィードから 1 ホップのみがクロールの対象となります。その場合、フィード自体とそこから参照される Web アイテムのみがクロールされます。

既定値: yes

ignore_rules

boolean

yes|no

Web クローラーが RSS フィードから参照されるすべての Web アイテムをクロールすることを指定します。このとき、include_domains、exclude_domains、include_uris、および exclude_uris で指定した包含/除外の規則によってクロールの対象となるかどうかは考慮されません。

既定値: no

index_feed

boolean

yes|no

Web クローラーが RSS フィード自体をインデックス付けエンジンに送信するか、フィード内からハイパーリンクが設定された Web アイテムのみを送信するかを指定します。

既定値: no

del_expired_links

boolean

yes|no

Web クローラーが、max_link_age および max_link_count の設定に従って、有効期限の切れたアイテムを RSS フィードから削除するかどうかを指定します。

既定値: no

max_link_age

integer

<値>

RSS フィード内に検出する Web アイテムの最大有効期間を分単位で指定します。del_expired_links 構成パラメーターが yes に設定されている場合にのみ、このオプションは適用されます。

既定値: 0

max_link_count

integer

<値>

Web クローラーが 1 つの RSS フィードについて保存するハイパーリンクの最大数を指定します。Web クローラーはこの値を超えるハイパーリンクを見つけると、先入れ先出し法でハイパーリンクを破棄します。del_expired_links 構成パラメーターが yes に設定されている場合にのみ、このオプションが適用されます。

既定値: 128

        <section name="rss">
            <!-- Attempt to discover new rss feeds, yes/no                  -->
            <attrib name="auto_discover" type="boolean"> yes </attrib>
            <attrib name="del_expired_links" type="boolean"> yes </attrib>
            <attrib name="follow_links" type="boolean"> yes </attrib>
            <attrib name="ignore_rules" type="boolean"> no </attrib>
            <attrib name="index_feed" type="boolean"> no </attrib>
            <attrib name="max_link_age" type="integer"> 0 </attrib>
            <attrib name="max_link_count" type="integer"> 128 </attrib>
            <attrib name="start_uris" type="list-string">
                <member> http://www.startsiden.no/rss.rss </member>
            </attrib>
            <!-- Start uri files (optional)                                 -->
            <attrib name="start_uri_files" type="list-string">
                <member> /usr/fast/etc/rss_seedlist.txt </member>
            </attrib>
        </section>

logins

このセクションは、HTML フォームベース認証に使用する最低 1 つの logins セクション要素を指定します。この要素は特定の Web サイトのログインに関連付けられ、その name 属性には一意のログイン名が含まれている必要があります。

属性

次の表に、このセクションの attrib 要素を示します。

名前 種類 意味

preload

string

<値>

ログイン フォームを処理する前に取得するページの完全な URI を指定します。

scheme

string

http|https

ログイン Web サイトの URI スキームを指定します。

有効な値は、http または https です。

site

string

<値>

ログイン フォーム ページのホスト名を指定します。

form

string

<値>

ログイン フォームのパスを指定します。

action

string

GET|POST

フォームで HTTP POST または HTTP GET を使用することを指定します。

有効な値は、GET または POST です。

sites

list-string

<値>

Web クローラーがクロール プロセスを開始する前にログオンする必要がある Web サイトまたはホスト名の一覧を指定します。

ttl

integer

<秒>

再度ログインしなくてもクロールを続行できる時間を秒単位で指定します。

html_form

string

<値>

ログイン フォームが含まれる HTML ページの URI を指定します。

autofill

boolean

yes|no

Web クローラーが HTML ログイン フォームに情報を自動的に設定するかどうかを指定します。この属性を yes に設定した場合は、html_form 構成パラメーターを指定する必要があります。

relogin_if_failed

boolean

yes|no

Web クローラーが、Web サイトへのログインに失敗した場合に ttl 秒後に再ログインを試みるかどうかを指定します。

備考

logins セクションの代わりに Login 要素を使用することもできます。

        <section name="logins">
            <section name="mytestlogin">
                <!-- Instructs the crawler to "preload" potential cookies by -->
                <!-- fetching this page and register any cookies before      -->
                <!-- proceeding with login                                   -->
                <attrib name="preload" type="string">http://preload.contoso.com/</attrib>
                <attrib name="scheme" type="string"> https </attrib>
                <attrib name="site" type="string"> login.contoso.com </attrib>
                <attrib name="form" type="string"> /path/to/some/form.cgi </attrib> 
                <attrib name="action" type="string">POST</attrib> 
                <section name="parameters"> 
                    <attrib name="user" type="string"> username </attrib>
                    <attrib name="password" type="string"> password </attrib>
                    <attrib name="target" type="string"> sometarget </attrib>
                </section> 
                <!-- Host names of sites requiring this login to crawl -->
                <attrib name="sites" type="list-string"> 
                    <member> site1.contoso.com </member> 
                    <member> site2.contoso.com </member> 
                </attrib> 
                <!-- Time to live for login cookie. Will re-log in when expires -->
                <attrib name="ttl" type="integer"> 7200 </attrib> 
            </section>
        </section>

parameters

このセクションは、HTML フォームに使用する認証用の資格情報を設定します。資格情報は、logins セクションまたは Login 要素で指定する必要があります。通常、資格情報のパラメーターは HTML フォームによって異なります。

autofill 構成パラメーターを有効にした場合、ブラウザー内に表示される変数のみを指定します。たとえば、ユーザー名やパスワード、またはそれらに相当するものです。この場合、Web クローラーは HTML ページを取得し、フォームを送信するために必要な "非表示" の変数を読み取る必要があります。この構成パラメーターで指定した変数の値は、フォームに保存された値に優先します。

属性

次の表に、このセクションの attrib 要素を示します。

名前 種類 意味

name

name XML 属性は、設定する HTML フォームの変数名を指定します。

string

HTML フォーム変数の値を指定します。

<section name="parameters"> 
                <attrib name="user" type="string"> username </attrib>
                <attrib name="password" type="string"> password </attrib>
                <attrib name="target" type="string"> sometarget </attrib>
            </section> 

subdomains

このセクションは、クロール サブコレクションの構成を指定します。subdomains セクションには最低 1 つの section XML 要素を設定し、各要素が 1 つのクロール サブコレクションを指定します。クロール サブコレクション セクションは、name 属性で設定される一意の名前を含む必要があります。

備考

subdomains セクションの代わりに SubDomain 要素を使用することもできます。

クロール サブコレクションの範囲を制限するために包含/除外の規則を指定する必要があります。これらの規則は、include_domains、exclude_domains、include_uris、および exclude_uris です。

attrib で指定した構成パラメーターのサブセットのみがサブセクションで使用できます。これらの構成パラメーターは、次のとおりです。

-
accept_compression

-
allowed_schemes

-
crawlmode

-
cut_off

-
delay

-
ftp_passive

-
headers

-
max_doc

-
proxy

-
refresh

-
refresh_mode

-
start_uris

-
start_uri_files

-
use_http_1_1

-
use_javascript

-
use_sitemaps

クロール サブコレクションの refresh 構成パラメーターは、メイン クロール コレクションよりも低い更新レートに設定されている必要があります。use_javascriptuse_sitemaps、および max_doc 構成パラメーターは、クロール サブコレクションを指定するために include_uris 設定または exclude_uris 設定が使用される場合は、使用できません。

また、クロール サブコレクションでは rss セクションおよび variable_delay セクションを使用できます。

<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
   <DomainSpecification name="subcollection_example">
      <section name="subdomains">
         <section name="subdomain_1">
            <section name="include_uris">
               <attrib name="prefix" type="list-string">
                  <member> https://www.contoso.com/index </member>
               </attrib>
            </section>
            <attrib name="refresh" type="real"> 60.0 </attrib>
            <attrib name="delay" type="real"> 10.0 </attrib>
            <attrib name="start_uris" type="list-string">
               <member> https://www.contoso.com/ </member>
            </attrib>
         </section>
      </section>
</DomainSpecification>
</CrawlerConfig>

SubDomain

この要素は、クロール サブコレクションの構成を指定します。クロール サブコレクションは、クロール コレクション メンバーを区別するために定義するオブジェクトです。クロール コレクションには、複数の SubDomain 要素を格納できます。

SubDomain 要素の構成パラメーターは、subdomains で指定します。

SubDomain 要素には、attrib 要素と section 要素が含まれます。

属性

属性 意味

name

<名前>

クロール サブコレクションの名前を指定する文字列です。

<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
   <DomainSpecification name="subcollection_example">
      <SubDomain name="subdomain_1">
         <section name="include_uris">
            <attrib name="prefix" type="list-string">
               <member> https://www.contoso.com/index </member>
            </attrib>
         </section>
         <attrib name="refresh" type="real"> 60.0 </attrib>
         <attrib name="delay" type="real"> 10.0 </attrib>
         <attrib name="start_uris" type="list-string">
            <member> https://www.contoso.com/ </member>
         </attrib>
      </SubDomain>
   </DomainSpecification>
</CrawlerConfig>

Login

この要素は、HTML フォームベース認証に使用されます。Login 要素の構成パラメーターは、logins で指定します。クロール コレクションには複数の Login 要素を格納できます。Login 要素には、attrib 要素と section 要素を格納できます。

属性

属性 意味

name

<値>

ログインの固有名を指定する文字列です。

<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
   <DomainSpecification name="login_example">
      <Login name="mytestlogin">
         <attrib name="preload" type="string">http://preload.contoso.com/
         </attrib>
         <attrib name="scheme" type="string"> https </attrib>
         <attrib name="site" type="string"> login.contoso.com  </attrib>
         <attrib name="form" type="string"> /path/to/some/form.cgi </attrib>
         <attrib name="action" type="string">POST</attrib>
         <section name="parameters">
            <attrib name="user" type="string"> username </attrib>
            <attrib name="password" type="string"> password </attrib>
         </section>
         <attrib name="sites" type="list-string">
            <member> site1.contoso.com  </member>
            <member> site2.contoso.com  </member>
         </attrib>
         <attrib name="ttl" type="integer"> 7200 </attrib>
         <attrib name="html_form" type="string">
            http://login.contoso.com/login.html 
         </attrib>
         <attrib name="autofill" type="boolean"> yes </attrib>
         <attrib name="relogin_if_failed" type="boolean"> yes </attrib>
      </Login>
   </DomainSpecification>
</CrawlerConfig>

Node

この要素は、クロール コレクションまたはクロール サブコレクションの構成パラメーターを特定のノード スケジューラについて上書きするために使用します。Node 要素の構成パラメーターは、SubDomain、Login、attrib、および section で指定します。

Node 要素には、attrib 要素と section 要素が格納されます。

属性

属性 意味

name

<値>

これらの構成パラメーターが適用されるノード スケジューラを指定する文字列です。

以下の例では、マルチノード展開を使用しています。ノード スケジューラの 1 つは、"crawler_node1" という名前です。ここでは "crawler_node1" に他のノードとは異なる遅延構成パラメーターを構成します。

<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
   <DomainSpecification name="node_example ">
      <attrib name="delay" type="real"> 60.0 </attrib>
      <Node name="crawler_node1">
         <attrib name="delay" type="real"> 90.0 </attrib>
      </Node>
   </DomainSpecification>
</CrawlerConfig>

XML スキーマ

Web クローラー構成ファイルは、以下の XML スキーマに従って書式が設定されている必要があります。

<?xml version="1.0" encoding="UTF-8" ?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema">

  <xs:element name="CrawlerConfig" type="CT_CrawlerConfig"/>
  
  <xs:complexType name="CT_CrawlerConfig >
    <xs:choice minOccurs="0" maxOccurs="unbounded">
      <xs:element name="DomainSpecification" type="CT_DomainSpecification"/>
    </xs:choice>
  </xs:complexType>

  <xs:complexType name="CT_DomainSpecification">
    <xs:choice minOccurs="0" maxOccurs="unbounded">
      <xs:element name="attrib" type="CT_attrib" maxOccurs="unbounded"/>
      <xs:element name="section" type="CT_section"/>
      <xs:element name="SubDomain" type="CT_SubDomain"/>
      <xs:element name="Login" type="CT_Login"/>
      <xs:element name="Node" type="CT_Node"/>
    </xs:choice>
    <xs:attribute name="name" type="xs:string" use="required"/>
  </xs:complexType>

  <xs:complexType name="CT_attrib" mixed="true">
    <xs:sequence minOccurs="0" maxOccurs="unbounded">
      <xs:element name="member" type="ST_member"/>
    </xs:sequence>
    <xs:attribute name="name" type="xs:string" use="required"/>
    <xs:attribute name="type" type="ST_type" use="required"/>
  </xs:complexType>

  <xs:complexType name="CT_section">
    <xs:choice minOccurs="0" maxOccurs="unbounded">
        <xs:element name="attrib" type="CT_attrib"/>
        <xs:element name="section" type="CT_section"/>
    </xs:choice>
    <xs:attribute name="name" type="xs:string" use="required"/>
  </xs:complexType>

  <xs:complexType name="CT_SubDomain">
    <xs:choice minOccurs="0" maxOccurs="unbounded">
      <xs:element name="attrib" type="CT_attrib"/>
      <xs:element name="section" type="CT_section"/>
    </xs:choice>
    <xs:attribute name="name" type="xs:string" use="required"/>
  </xs:complexType>

  <xs:complexType name="CT_Login">
    <xs:choice minOccurs="0" maxOccurs="unbounded">
      <xs:element name="attrib" type="CT_attrib"/>
      <xs:element name="section" type="CT_section"/>
    </xs:choice>
    <xs:attribute name="name" type="xs:string" use="required"/>
  </xs:complexType>

  <xs:complexType name="CT_Node">
    <xs:choice minOccurs="0" maxOccurs="unbounded">
      <xs:element name="attrib" type="CT_attrib"/>
      <xs:element name="section" type="CT_section"/>
    </xs:choice>
    <xs:attribute name="name" type="xs:string" use="required"/>
  </xs:complexType>
  
  <xs:simpleType name="ST_type">
    <xs:restriction base="xs:string">
      <xs:enumeration value="boolean"/>
      <xs:enumeration value="string"/>
      <xs:enumeration value="integer"/>
      <xs:enumeration value="list-string"/>
      <xs:enumeration value="real"/>
    </xs:restriction>
  </xs:simpleType>

  <xs:simpleType name="ST_member">
    <xs:restriction base="xs:string"></xs:restriction>
  </xs:simpleType>
</xs:schema>

簡易な構成

次の例では、簡易な Web クローラー構成を設定します。ここでは、contoso.com Web サイトのみがクロールの対象となります。

<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
    <DomainSpecification name="default_example">
        <section name="crawlmode">
            <attrib name="fwdlinks" type="boolean"> no </attrib>
            <attrib name="fwdredirects" type="boolean"> no </attrib>
            <attrib name="mode" type="string"> FULL </attrib>
            <attrib name="reset_level" type="boolean"> no </attrib>
        </section>
        <attrib name="start_uris" type="list-string">
            <member> https://www.contoso.com </member>
        </attrib>
    </DomainSpecification>
</CrawlerConfig>

一般的な構成

次の例では、一般的な構成パラメーターを含むクローラー構成を設定します。

<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
    <DomainSpecification name="default_example">
        <attrib name="accept_compression" type="boolean"> yes </attrib>
        <attrib name="allowed_schemes" type="list-string">
            <member> http </member>
            <member> https </member>
        </attrib>
        <attrib name="allowed_types" type="list-string">
            <member> text/html </member>
            <member> text/plain </member>
        </attrib>
        <section name="cachesize">
            <attrib name="aliases" type="integer"> 1048576 </attrib>
            <attrib name="pp" type="integer"> 1048576 </attrib>
            <attrib name="pp_pending" type="integer"> 131072 </attrib>
            <attrib name="routetab" type="integer"> 1048576 </attrib>
        </section>
        <attrib name="check_meta_robots" type="boolean"> yes </attrib>
        <attrib name="cookie_timeout" type="integer"> 900 </attrib>
        <section name="crawlmode">
            <attrib name="fwdlinks" type="boolean"> yes </attrib>
            <attrib name="fwdredirects" type="boolean"> yes </attrib>
            <attrib name="mode" type="string"> FULL </attrib>
            <attrib name="reset_level" type="boolean"> no </attrib>
        </section>
        <attrib name="csum_cut_off" type="integer"> 0 </attrib>
        <attrib name="cut_off" type="integer"> 5000000 </attrib>
        <attrib name="dbswitch" type="integer"> 5 </attrib>
        <attrib name="dbswitch_delete" type="boolean"> no </attrib>
        <attrib name="delay" type="real"> 60.0 </attrib>
        <attrib name="domain_clustering" type="boolean"> no </attrib>
        <attrib name="enforce_delay_per_ip" type="boolean"> yes </attrib>
        <attrib name="exclude_exts" type="list-string">
            <member> .jpg </member>
            <member> .jpeg </member>
            <member> .ico </member>
            <member> .tif </member>
            <member> .png </member>
            <member> .bmp </member>
            <member> .gif </member>
            <member> .wmf </member>
            <member> .avi </member>
            <member> .mpg </member>
            <member> .wmv </member>
            <member> .wma </member>
            <member> .ram </member>
            <member> .asx </member>
            <member> .asf </member>
            <member> .mp3 </member>
            <member> .wav </member>
            <member> .ogg </member>
            <member> .ra </member>
            <member> .aac </member>
            <member> .m4a </member>
            <member> .zip </member>
            <member> .gz </member>
            <member> .vmarc </member>
            <member> .z </member>
            <member> .tar </member>
            <member> .iso </member>
            <member> .img </member>
            <member> .rpm </member>
            <member> .cab </member>
            <member> .rar </member>
            <member> .ace </member>
            <member> .hqx </member>
            <member> .swf </member>
            <member> .exe </member>
            <member> .java </member>
            <member> .jar </member>
            <member> .prz </member>
            <member> .wrl </member>
            <member> .midr </member>
            <member> .css </member>
            <member> .ps </member>
            <member> .ttf </member>
            <member> .mso </member>
            <member> .dvi </member>
        </attrib>
        <attrib name="extract_links_from_dupes" type="boolean"> no </attrib>
        <attrib name="fetch_timeout" type="integer"> 300 </attrib>
        <attrib name="force_mimetype_detection" type="boolean"> no </attrib>
        <section name="ftp_errors">
            <attrib name="4xx" type="string"> DELETE:3 </attrib>
            <attrib name="550" type="string"> DELETE:0 </attrib>
            <attrib name="5xx" type="string"> DELETE:3 </attrib>
            <attrib name="int" type="string"> KEEP:0 </attrib>
            <attrib name="net" type="string"> DELETE:3, RETRY:1 </attrib>
            <attrib name="ttl" type="string"> DELETE:3 </attrib>
        </section>
        <attrib name="headers" type="list-string">
            <member> User-Agent: FAST Enterprise Crawler 6 </member>
        </attrib>
        <attrib name="html_redir_is_redir" type="boolean"> yes </attrib>
        <attrib name="html_redir_thresh" type="integer"> 3 </attrib>
        <section name="http_errors">
            <attrib name="4xx" type="string"> DELETE:0 </attrib>
            <attrib name="5xx" type="string"> DELETE:10 </attrib>
            <attrib name="int" type="string"> KEEP:0 </attrib>
            <attrib name="net" type="string"> DELETE:3, RETRY:1 </attrib>
            <attrib name="ttl" type="string"> DELETE:3 </attrib>
        </section>
        <attrib name="if_modified_since" type="boolean"> yes </attrib>
        <attrib name="javascript_keep_html" type="boolean"> no </attrib>
        <section name="limits">
            <attrib name="disk_free" type="integer"> 0 </attrib>
            <attrib name="disk_free_slack" type="integer"> 3 </attrib>
            <attrib name="max_doc" type="integer"> 0 </attrib>
            <attrib name="max_doc_slack" type="integer"> 1000 </attrib>
        </section>
        <section name="link_extraction">
            <attrib name="a" type="boolean"> yes </attrib>
            <attrib name="action" type="boolean"> yes </attrib>
            <attrib name="area" type="boolean"> yes </attrib>
            <attrib name="card" type="boolean"> yes </attrib>
            <attrib name="comment" type="boolean"> no </attrib>
            <attrib name="embed" type="boolean"> no </attrib>
            <attrib name="frame" type="boolean"> yes </attrib>
            <attrib name="go" type="boolean"> yes </attrib>
            <attrib name="img" type="boolean"> no </attrib>
            <attrib name="layer" type="boolean"> yes </attrib>
            <attrib name="link" type="boolean"> yes </attrib>
            <attrib name="meta" type="boolean"> yes </attrib>
            <attrib name="meta_refresh" type="boolean"> yes </attrib>
        </section>
        <section name="log">
            <attrib name="dsfeed" type="string"> text </attrib>
            <attrib name="fetch" type="string"> text </attrib>
            <attrib name="postprocess" type="string"> text </attrib>
            <attrib name="site" type="string"> text </attrib>
        </section>
        <attrib name="login_failed_ignore" type="boolean"> no </attrib>
        <attrib name="login_timeout" type="integer"> 300 </attrib>
        <attrib name="max_backoff_counter" type="integer"> 50 </attrib>
        <attrib name="max_backoff_delay" type="integer"> 600 </attrib>
        <attrib name="max_doc" type="integer"> 1000000 </attrib>
        <attrib name="max_pending" type="integer"> 2 </attrib>
        <attrib name="max_redirects" type="integer"> 10 </attrib>
        <attrib name="max_reflinks" type="integer"> 0 </attrib>
        <attrib name="max_sites" type="integer"> 128 </attrib>
        <attrib name="max_uri_recursion" type="integer"> 5 </attrib>
        <attrib name="mufilter" type="integer"> 0 </attrib>
        <attrib name="near_duplicate_detection" type="boolean"> no </attrib>
        <attrib name="obey_robots_delay" type="boolean"> no </attrib>
        <section name="pp">
            <attrib name="ds_max_ecl" type="integer"> 10 </attrib>
            <attrib name="ds_meta_info" type="list-string">
                <member> duplicates </member>
                <member> redirects </member>
                <member> mirrors </member>
                <member> metadata </member>
            </attrib>
            <attrib name="ds_paused" type="boolean"> no </attrib>
            <attrib name="ds_send_links" type="boolean"> no </attrib>
            <attrib name="max_dupes" type="integer"> 10 </attrib>
            <attrib name="stripe" type="integer"> 1 </attrib>
        </section>
        <section name="ppdup">
            <attrib name="compact" type="boolean"> yes </attrib>
        </section>
        <attrib name="proxy_max_pending" type="integer"> 2147483647 </attrib>
        <attrib name="refresh" type="real"> 1440.0 </attrib>
        <attrib name="refresh_mode" type="string"> scratch </attrib>
        <attrib name="refresh_when_idle" type="boolean"> no </attrib>
        <attrib name="robots" type="boolean"> yes </attrib>
        <attrib name="robots_auth_ignore" type="boolean"> yes </attrib>
        <attrib name="robots_timeout" type="integer"> 300 </attrib>
        <attrib name="robots_tout_ignore" type="boolean"> no </attrib>
        <attrib name="robots_ttl" type="integer"> 86400 </attrib>
        <section name="rss">
            <attrib name="auto_discover" type="boolean"> no </attrib>
            <attrib name="del_expired_links" type="boolean"> no </attrib>
            <attrib name="follow_links" type="boolean"> no </attrib>
            <attrib name="ignore_rules" type="boolean"> no </attrib>
            <attrib name="index_feed" type="boolean"> no </attrib>
            <attrib name="max_link_age" type="integer"> 0 </attrib>
            <attrib name="max_link_count" type="integer"> 128 </attrib>
        </section>
        <attrib name="smfilter" type="integer"> 0 </attrib>
        <attrib name="sort_query_params" type="boolean"> no </attrib>
        <attrib name="start_uris" type="list-string">
            <member> https://www.contoso.com </member>
        </attrib>
        <section name="storage">
            <attrib name="clusters" type="integer"> 8 </attrib>
            <attrib name="compress" type="boolean"> yes </attrib>
            <attrib name="compress_exclude_mime" type="list-string">
                <member> application/x-shockwave-flash </member>
            </attrib>
            <attrib name="datastore" type="string"> bstore </attrib>
            <attrib name="defrag_threshold" type="integer"> 85 </attrib>
            <attrib name="remove_docs" type="boolean"> no </attrib>
            <attrib name="store_dupes" type="boolean"> no </attrib>
            <attrib name="store_http_header" type="boolean"> yes </attrib>
        </section>
        <attrib name="truncate" type="boolean"> no </attrib>
        <attrib name="umlogs" type="boolean"> yes </attrib>
        <attrib name="uri_search_mime" type="list-string">
            <member> text/html </member>
            <member> text/vnd.wap.wml </member>
            <member> text/wml </member>
            <member> text/x-wap.wml </member>
            <member> x-application/wml </member>
            <member> text/x-hdml </member>
        </attrib>
        <attrib name="use_cookies" type="boolean"> no </attrib>
        <attrib name="use_http_1_1" type="boolean"> yes </attrib>
        <attrib name="use_javascript" type="boolean"> no </attrib>
        <attrib name="use_meta_csum" type="boolean"> no </attrib>
        <attrib name="use_sitemaps" type="boolean"> no </attrib>
        <section name="workqueue_priority">
            <attrib name="default" type="integer"> 1 </attrib>
            <attrib name="levels" type="integer"> 1 </attrib>
            <attrib name="pop_scheme" type="string"> default </attrib>
            <attrib name="start_uri_pri" type="integer"> 1 </attrib>
        </section>
   </DomainSpecification>
</CrawlerConfig>

See Also

Reference

crawleradmin.exe リファレンス

Concepts

crawlerglobaldefaults.xml リファレンス