Web クローラー XML 構成リファレンス

[アーティクル]
03/04/2017

適用先: FAST Search Server 2010

トピックの最終更新日: 2016-11-29

FAST Search Web クローラーは、Web サイトから情報を自動的に取得し、その情報を Microsoft FAST Search Server 2010 for SharePoint インデックスに渡します。FAST Search Web クローラーを構成する場合は、この記事で説明する書式で XML 構成ファイルを作成し、crawleradmin.exe コマンドラインツールを使用してそのファイルを Web クローラーに送信する必要があります。

この記事で指定する書式は、crawlercollectiondefaults.xml ファイルでも使用されます。このファイルは、新しいクロールコレクションに設定されるすべての既定のオプションと値を格納します。このファイルを変更すると、すべての新しいコレクションの既定値が変更されます。既定値は、特定のクロールコレクション用に作成した XML 構成で指定されないオプションに適用されます。

これらの構成ファイルは、XML スキーマに準拠した書式で記述する必要があります。この記事では、構成ファイルの簡易な例と一般的な例を示します。構成ファイルの要素とセクションの概要については、「Web クローラー XML 構成クイックリファレンス」の表を参照してください。

主な用語

"Web サイト" は、SharePoint サイトではなく、www.contoso.com などの Web サイトにあるコンテンツを指します。

"ホスト名" は、http://contoso/ の "contoso" 部分または http://download.contoso.com/ の "download.contoso.com" 部分を指します。完全修飾名でなくてもかまいません。この記事では、"Web サイト" を実際のサイトとコンテンツを指す言葉として使用し、"ホスト名" を特定の Web サーバーに到達するために使用されるネットワーク名として使用することで、両者を使い分けます。1 つのサイトに複数のホスト名がある場合があります。

新しいクロール構成の作成

注意

構成ファイルを変更する場合は、次の最小要件を満たしていることを確認します。FAST Search Server 2010 for SharePoint がインストールされているローカルコンピューターの FASTSearchAdministrators メンバーである必要があります。

この XML 構成書式を使用して新しいクロール構成を作成するには、次の手順を実行します。

事前に用意されている 3 種類のクロール構成テンプレートの 1 つを <FASTSearchFolder>\etc (<FASTSearchFolder> は FAST Search Server 2010 for SharePoint をインストールした C:\FASTSearch などのフォルダーのパス) から新しいファイル (MyCollection.xml など) にコピーし、新しいファイルを作成します。このファイルをテキストエディターで編集して、必要な要素と設定を追加します。

注意

テキストエディター (メモ帳など) を使用して、crawlercollectiondefaults.xml を変更します。このとき、汎用の XML エディターは使用しないでください。
crawleradmin.exe –f MyCollection.xml を実行してクロール構成をクローラーに追加します。このコマンドの MyCollection.xml の部分は、手順 1. で作成したファイルの名前で置き換えます。

詳細については、「crawleradmin.exe リファレンス」を参照してください。

crawlercollectiondefaults.xml のカスタマイズ

警告

このファイルに加えた変更は、次の操作を行うと上書きされ、失われます。

Set-FASTSearchConfiguration Windows PowerShell コマンドレットを実行する。
FAST Search Server 2010 for SharePoint の更新プログラムまたは Service Pack をインストールする。

変更が失われることを回避するには、ファイルを変更した後でバックアップを作成しておきます。
Set-FASTSearchConfiguration Windows PowerShell コマンドレットを実行した後や FAST Search Server 2010 for SharePoint の更新プログラムまたは Service Pack をインストールした後で、変更を再度適用します。

注意

このファイルを編集するには

テキストエディターを使用して crawlercollectiondefaults.xml を編集し、必要な要素と設定を追加します。既存のファイルが <FASTSearchFolder>\etc\ 内に用意されているので、これを編集の土台にすることができます。

注意

テキストエディター (メモ帳など) を使用して、crawlercollectiondefaults.xml を変更します。このとき、汎用の XML エディターは使用しないでください。
nctrl.exe restart crawler を実行して、手順 1. で設定したオプションで FAST Search Web クローラーを再起動します。

Web クローラー XML 構成クイックリファレンス

以下の表に、Web クローラー XML 構成書式の要素の一覧を示します。要素は任意の順序で記述できますが、次の例外があります。DomainSpecification 要素は、CrawlerConfig 要素の内部に記述します。プライマリ要素の SubDomain、Login、および Node は DomainSpecification 要素の内部に記述します。section サブ要素と attrib サブ要素は、プライマリ要素の内部に任意の順序で記述できます。member サブ要素は、attrib 要素の内部のみに記述できます。

<CrawlerConfig>
      <DomainSpecification>
             <SubDomain/>
             <Login/>
             <Node/>
             <attrib>
                    <member/> 
             </attrib>
             <section/>
      </DomainSpecifcation>
</CrawlerConfig>

通常は、attrib サブ要素と section サブ要素の両方を SubDomain、Login、および section 要素に記述します。Node 要素には、これらのすべての要素とサブ要素を含めることができます。

要素	説明
CrawlerConfig	このトップレベルの要素は、この後に記述される XML が Web クローラー構成オブジェクトであることを指定します。
DomainSpecification	この要素は、クロールコレクションを指定します。
SubDomain	この要素は、クロールサブコレクションの構成を指定します。
Login	この要素は、HTML フォームベース認証に使用されます。
Node	この要素の値は、特定のノードスケジューラに関するクロールコレクションまたはクロールサブコレクションの構成パラメーターに優先して適用されます。
attrib	このサブ要素は、その値、または一連のメンバー要素によって構成を指定します。
member	このサブ要素は、構成を一覧形式で指定します。
section	このサブ要素は、複数の設定が種類別に分けられたセクションを指定します。以下の表に、使用可能なすべてのセクションの一覧を示します。

この表では、section オプションを Web クローラー XML 構成ファイルの書式で定義します。セクションを CrawlerConfig 要素の内部に含めることはできません。

セクション名	説明
include_domains	クロールコレクションに含める URI を指定する一連のホスト名フィルターを定義します。
exclude_domains	クロールコレクションから除外する URI を指定する一連のホスト名フィルターを定義します。
include_uris	クロールコレクションに含める URI を指定する一連の URI 規則を定義します。
exclude_uris	クロールコレクションから除外する URI を指定する一連の URI 規則を定義します。
log	Web クローラープロセスのログ動作を指定します。
storage	Web クローラーによるコンテンツとメタデータの保管方法を指定します。
pp	ノードスケジューラの後処理動作を指定します。
ppdup	重複サーバー設定を指定します。
feeding	クロールコレクションを表す情報をインデックス作成エンジンに送信する方法を指定する最低 1 つの section 要素から構成されます。
cachesize	Web クローラープロセスのキャッシュサイズを構成します。
http_errors	HTTP/HTTPS エラーの応答コードと条件を処理する方法を指定します。
ftp_errors	FTP URI の応答コードとエラー条件を処理する方法を指定します。
workqueue_priority	クロールキューの優先度レベルを指定し、キューへの URI の挿入やキューからの URI の取り出しに適用される規則とモードを指定します。
link_extraction	抽出するハイパーリンクの種類を指定します。
limits	クロールコレクションのフェールセーフ制限を指定します。
focused	集中スケジュールを構成します。
passwd	認証が必要とされる Web サイトの資格情報を構成します。
ftp_acct	FTP URI のクロールに使用する FTP アカウントを指定します。
exclude_headers	HTTP ヘッダーフィールドの内容に基づいてクロールから除外するアイテムを指定します。
variable_delay	通常とは異なる遅延要求レートを使用する時間帯を指定します。
adaptive	アダプティブクロールオプションを指定します。
weights	アダプティブクロールの実行時に各 URI にスコアを与えます。weights セクションは、adaptive セクション内に指定する必要があります。
sitemap_weights	サイトマップの <URL> エントリには changefreq 要素を指定できます。この要素は、URI を更新できる頻度を指定します。文字列の値が数値のウェイトに変換され、アダプティブクロールに使用されます。sitemap_weights セクションは、adaptive セクション内に指定する必要があります。
site_clusters	クローラーがホスト名をノードスケジューラにルーティングする通常の動作を上書きする構成パラメーターを指定します。
crawlmode	クロールコレクションの範囲を制限します。
post_payload	コンテンツを HTTP POST 要求に送信します。
rss	クロールコレクションの RSS フィードサポートを初期化し、構成します。
logins	このセクションは、Login 要素の特殊なケースです。複数の Login 要素を結合したのが、この logins セクションです。HTML フォームベース認証を定義するには、1 つの logins セクションまたは 1 つ以上の Login 要素が必要です。不完全な構成が適用されないように、ログインを削除するには logins を使用する必要があります。crawleradmin を使用してクローラーから構成情報をエクスポートすると、Login 要素が取得されることに注意してください。
parameters	HTML フォームに使用する認証資格情報を設定します。このセクションは、Login 要素または logins セクションに指定する必要があります。
subdomains	クロールサブコレクションの構成を指定します。このセクションは、SubDomain 要素の特殊なケースです。複数の SubDomain 要素を結合したのが、この subdomains セクションです。不完全な構成が適用されないように、サブドメインを削除するには subdomains を使用する必要があります。crawleradmin を使用してクローラーから構成情報をエクスポートすると、SubDomain 要素が取得されることに注意してください。

Web クローラー XML 構成ファイルのファイル形式

構成ファイルに記述する XML 要素は、< で始まり、/> で終わります。

要素の基本的な書式を以下に示します。

<attrib name="値" type="値"> 値**</attrib>**

次に例を示します。

<attrib name="accept_compression" type="boolean"> yes </attrib>

要素名、セクション名、属性名、および属性値では、大文字と小文字が区別されます。属性の名前と種類は、引用符 (" ") で囲む必要があります。要素は、複数の行にわたって定義できます。スペース、復帰、改行、およびタブの文字は、要素の定義に含まれていても無視されます。

次に例を示します。

<attrib
    name=" accept_compression "
    type="boolean"
> yes </attrib
>

ヒント

パラメーターの定義が長い場合は、値を別々の行に分けて記述し、インデントを使用して読みやすくしてください。

<CrawlerConfig> 要素は特殊なケースであり、必ず指定する必要があります。他のすべての要素は <CrawlerConfig> 要素内に記述します。この要素は </CrawlerConfig>. で閉じられます。

XML ファイルの基本構造を次の例に示します。

<?xml version="1.0"?>
<CrawlerConfig>
    <DomainSpecification>
        ...
    </DomainSpecification>
</CrawlerConfig>

コメントは、 で囲んで任意の場所に追加できます。

CrawlerConfig

このトップレベルの要素は、この後に記述する XML が Web クローラー構成オブジェクトであることを示します。Web クローラー構成ファイルは、CrawlerConfig XML 要素を 1 つのみ格納できます。

DomainSpecification

この要素は、クロールコレクションを指定します。

例

<CrawlerConfig>
  <DomainSpecification name="sp">
  ...
  </DomainSpecification>
</CrawlerConfig>

"sp" は、実際のクロールコレクション名で置き換えてください。

attrib

この要素は、構成オプションを指定します。単一の値を指定するか、member 要素を使用して複数の値を指定できます。

属性

名前	種類	値	意味
info	string		クロールコレクションについて説明するテキストです。
fetch_timeout	integer	<秒>	Web アイテムの最大ダウンロード時間を秒単位で指定します。Web サーバーの動作が遅く、ダウンロードする Web アイテムが大きい場合は、この値を増やします。既定値: 300
allowed_types	list-string		Web アイテムの有効な MIME タイプを指定します。 Web クローラープロセスは、他の MIME タイプを破棄します。この構成パラメーターでは、ワイルドカードを使用してフィールド全体を表すことができます。ワイルドカード文字は、アスタリスク記号です。たとえば、"text/" または "/" と指定できますが、"/html" または "application/ms" といった指定はできません。既定値*: text/html text/plain application/msword application/msexcel application/ppt application/pdf
force_mimetype_detection	boolean	yes\|no	アイテムの検出に独自の MIME タイプを使用する Web クローラープロセスを指定します。ほとんどの場合、Web アイテムがダウンロードされるときにその MIME タイプが Web サーバーから HTTP ヘッダーの一部として渡されます。このオプションを有効にすると、Web サーバーから渡された MIME タイプとクローラーによって検出された MIME タイプのうち、より正確と見なされるほうが Web アイテムにタグ付けされます。既定値: no
allowed_schemes	list-string	HTTP HTTPS FTP	Web クローラーが処理する URI スキームを指定します。既定値: HTTP
ftp_passive	boolean	yes\|no	Web クローラーがパッシブ FTP モードを使用することを指定します。既定値: yes
domain_clustering	boolean	yes\|no	ホスト名を同じドメインから同じサイトマネージャープロセスにルーティングするかどうかを指定します。このオプションは、Cookie などの情報を共有する必要があるホスト名を扱う場合に便利です。通常は、このような情報はサイトマネージャープロセス間でやり取りされません。複数ノード構成でこのオプションを有効にすると、同じドメイン ( www.contoso.com と forums.contoso.com など) にあるホスト名も同じノードスケジューラにルーティングされます。単一ノードでの既定値: no 複数ノードでの既定値: yes
max_inter_docs	integer	<正の整数> または値なし	Web サイトのインターリーブを実行する前にクロールするアイテムの最大数を指定します。既定で、クローラーは Web サイトが空になるまでクロールします。つまり、Web サイトごとの Web アイテムの最大数に達するまでクロールします。ただし、Web アイテムの "バッチ" を Web サイトから一度にクロールして、Web サイト間でインターリーブを行うようにクローラーを構成することもできます。この属性は、クローラーがインターリーブを行って他のサーバーのクロールを開始する前に、サーバーから連続してクロールする Web アイテムの数を指定します。クローラーは、リソースが解放された場合に前のサーバーのクロールを再開します。既定値: 値なし (無効)
max_redirects	integer	<値>	URI から抽出する HTTP リダイレクトの最大数を指定します。既定値: 10
diffcheck	boolean	yes\|no	Web クローラーが重複データの検出を実行することを指定します。重複データの検出は、2 つ以上の Web アイテムに同じコンテンツが含まれるかどうかをチェックして行われます。既定値: yes
near_duplicate_detection	boolean	yes\|no	Web クローラーが厳密ではない重複データ検出アルゴリズムを使用することを指定します。単語の並びに固有のパターンがあるかどうかで、データに重複があるアイテムを検出します。既定値: no
max_uri_recursion	integer	<値>	この属性は、URI にパターンの繰り返しを探すために使用します。このオプションで指定した回数のパターンが現れると、その URI は破棄されます。値 0 を指定すると、このチェックは行われません。たとえば、https://www.contoso.com/widget のリンク先が https://www.contoso.com/widget/widget である場合、1 要素の繰り返しと見なされます。既定値: 5
ftp_searchlinks	boolean	yes\|no	Web クローラーが、FTP サーバーからダウンロードしたアイテム内にハイパーリンクを検索することを指定します。既定値: yes
use_javascript	boolean	yes\|no	JavaScript サポートを Web クローラーで有効にするかどうかを指定します。有効にすると、Web クローラーは、外部 JavaScript をダウンロードしてから解析および実行し、リンクを抽出します。注意 JavaScript の処理にはリソースが集中的に消費されるので、大規模なクロールではこのオプションを有効にしないでください。注意 JavaScript の処理にはブラウザーエンジンコンポーネントが使用されます。詳細については、「beconfig.xml のリファレンス」を参照してください。既定値: no
javascript_keep_html	boolean	yes\|no	インデックス付けエンジンに送信するものを指定します。このパラメーターを yes に設定すると、JavaScript を処理して生成された HTML が使用されます。それ以外の場合は、元の HTML アイテムが使用されます。 use_javascript 構成パラメーターを yes に設定した場合は、このオプションを使用しないでください。
javascript_delay	real	<秒> 値を指定しないと、Web クローラーは、delay 構成パラメーターと同じ値を使用します。	JavaScript によって HTML アイテムに関連付けられている依存アイテムを取得する場合に、遅延時間を秒単位で指定します。既定値: 0 (遅延なし)
exclude_exts	list-string	<コンマで区切られたファイル拡張子の一覧>	クロールから除外するファイル名拡張子を指定します。既定の一覧: 値なし
use_http_1_1	boolean	yes\|no	Web クローラーが HTTP/1.1 を使用することを指定します。no に設定すると、HTTP/1.0 が使用されます。既定値: yes
accept_compression	boolean	yes\|no	Web クローラーが圧縮された Web アイテムを Web サーバーから受け付けるように指定します。use_http_1_1 構成パラメーターを有効にしない場合は、このパラメーターは効力を持ちません。既定値: yes
dbswitch	integer	<値>	Web クローラーが見つけなかった Web アイテムを削除せずにクロールストアとインデックスに残しておくクロールサイクル数を指定します。dbswitch_delete パラメーターの値によって、ここで指定したクロールサイクル数に達するまで見つからなかった Web アイテムの扱い方が決定されます。注意この値を 1 または 2 のように非常に小さい数に設定すると、Web アイテムが誤って削除される可能性があります。既定値: 5
dbswitch_delete	boolean	yes\|no	Web クローラーは、Web サーバーから削除された Web アイテムを検出しようとします。このパラメーターは、このような Web アイテムの扱い方を指定します。アイテムをすぐに削除したり、使用できなくなったことを確認するために取得できるように作業キューに配置したりすることができます。 yes に設定すると、古すぎる Web アイテムは削除されます。no に設定すると、Web アイテムの再取得がスケジュールされ、Web サーバーに存在しないことが確認された場合にのみ削除されます。このチェックは、Web サイトから最新の情報を取得する各サイクルの最初に自動的に実行されます。注意このパラメーターは、既定値から変更しないでください。既定値: no
html_redir_is_redir	boolean	yes\|no	このパラメーターを html_redir_thresh と一緒に使用すると、HTML Web アイテム内の META Refresh タグが HTTP リダイレクトであるかのように扱われます。このパラメーターを有効にすると、META Refresh タグを含む Web アイテムはインデックス付けされません。無効にすると、通常の Web アイテムとして扱われ、インデックス付けされます。既定値: yes
hmtl_redir_threshold	integer	<値>	HTML Web アイテムに含まれる META Refresh タグを HTTP リダイレクトとして扱う最大の時間を秒単位で指定します。html_redir_is_redir を設定しない場合、このパラメーターは無視されます。たとえば、次のように指定したと仮定します。 `<META HTTP-EQUIV="Refresh" CONTENT="3;URL=http://www.some.org/some.html">` `CONTENT` 属性に指定した値 (この例では 3) と同じかそれ未満の値を html_redir_threshold に指定した場合は、META Refresh タグがリダイレクトとして扱われます。既定値: 3
robots_ttl	integer	<秒>	Web クローラーが Web サイトから robots.txt ファイルを取得する間隔を指定します。この間隔は秒単位で指定する必要があります。既定値: 86400
use_sitemaps	boolean	yes\|no	Web クローラーがサイトマップを検出し、解析することを指定します。 Web クローラーは、サイトマップ内の lastmod 属性を使用して、サイトマップを最後に取得した後で Web アイテムが変更されたかどうかを確認します。変更されていない Web アイテムは、再度クロールしません。例外は、コレクションでアダプティブ更新モードが使用される場合です。アダプティブ更新モードでは、クローラーはサイトマップの priority 属性と changefreq 属性を使用して、Web アイテムをクロールする間隔を決めます。サイトマップに含まれる他のタグは、クローラーのメタデータベースに保管されてから、クロールされたプロパティとしてインデックス付けのために送信されます。注意ほとんどのサイトマップは、robots.txt ファイル内に指定されます。そのため、robots 属性を有効にすると最良のクロール結果が得られます。既定値: no
max_pending	integer	<値>	1 つの Web サイトに一度に送信できる同時 HTTP 要求の最大数を指定します。既定値: 2
robots_auth_ignore	boolean	yes\|no	Web サーバーから HTTP 40x 認証エラーが返された場合に、Web クローラーが robots.txt を無視するかどうかを指定します。no に設定すると、Web クローラーは、エラーを返した Web サイトをクロールしません。 robots.txt 標準には、この動作は Web クローラーが Web サイトを完全に無視するためのヒントとして記載されています。ただし、Web サーバーの構成が不適切なためにサイトがクロールの対象から誤って除外される可能性があります。このオプションを有効にして、Web サイトがクロールされるようにしてください。既定値: yes
robots_tout_ignore	boolean	yes\|no	robots.txt への要求がタイムアウトになった場合に、Web クローラーが robots.txt の規則を無視するかどうかを指定します。 Web サイトをクロールする前に、Web クローラーは robots.txt ファイルを Web サーバーから取得するために要求します。robots.txt 標準では、このファイルへの要求がタイムアウトになった場合に Web サイトをクロールしません。このパラメーターを yes に設定すると、この robots.txt 規則は無視され、Web サイトはクロールされます。注意クロール対象の Web サイトを所有していない場合は、このオプションを no から変更しないでください。既定値: no
rewrite_rules	list-string		URI を書き直すために使用される規則を指定します。書き直しの規則を構成する 2 つの要素は、照合する表記 (`match_pattern`) と、この表記に置き換える置換文字列 (`replacement_string`) です。照合する表記は、1 つのグループにまとめられた照合正規表現です。書き直しの規則の書式は、`@match_pattern@replacement_string@` です。ここで、`@` は、表記自体に含まれない非スペースの区切り文字です。
extract_links_from_dupes	boolean	yes\|no	Web クローラーが、重複する Web アイテムからハイパーリンクを抽出することを指定します。2 つの Web アイテムに同じデータが重複して存在する場合でも、ハイパーリンクは異なる可能性があります。このハイパーリンクを使用して Web クローラーがさらにコンテンツを発見できる可能性があります。既定値: no
use_meta_csum	boolean	yes\|no	Web クローラーが、生成された重複データ検出識別符号に META タグを含めることを指定します。既定値: no
csum_cut_off	integer	<値>	重複データ識別符号を生成するために使用する最大バイト数を指定します。このパラメーターを 0 に設定すると、この機能は無効になります (つまり、無制限にすべてのバイトが使用されます)。既定値: 0
if_modified_since	boolean	yes\|no	Web クローラーが `If-Modified-Since` の値が含まれる HTTP ヘッダーを送信するかどうかを指定します。既定値: yes
use_cookies	boolean	yes\|no	Web クローラーが Cookie を送信および保存するかどうかを指定します。ログインが使用される Web サイトにはこの機能が自動的に有効になりますが、すべての Web サイトに対して有効にすることもできます。既定値: no
uri_search_mime	list-string	<値>	Web クローラーがハイパーリンクを抽出する MIME タイプを指定します。この構成パラメーターには、フィールド全体のレベルでワイルドカードを使用できます。ワイルトカードにはアスタリスク記号を使用します。`text/` または `/` のような記述はできますが、`/html` または `application/ms.` などは指定できません。既定値*: text/html text/vnd.wap.xml text/wml text/x-wap.wml x-application/wml text/x-hdml
max_backoff_counter	integer	<値>	このオプションを max_backoff_delay と一緒に指定すると、接続に失敗した Web サイトに再接続を試みる頻度を減らすアルゴリズムを制御できます。この後で接続を試みたときにネットワークエラーが発生するたびに、次に Web サイトを要求するまでの遅延時間が、遅延設定の初期値から max_backoff_delay の最大値 (秒単位) に達するまで増えます。この遅延時間の増加は、要求が正常に完了するまで継続されますが、要求の回数が max_backoff_counter の値を超えることはありません。回数が最大数に達すると、Web サイトのクロールは一時的に停止されます。そうなる前に、Web サイトに影響していたネットワークの問題が解決されると、内部バックオフカウンターの値が減らされ、要求の遅延時間が、Web アイテムのダウンロードが正常に完了するたびに半分に短縮され、最終的に遅延設定の初期値に戻ります。既定値: 50
max_backoff_delay	integer	<秒>	「max_backoff_counter」を参照してください。既定値: 600
delay	real	<秒>	Web クローラーが Web サイトから Web アイテムを取得できる間隔を秒単位で指定します。既定値: 60.0
refresh	real	<分>	Web クローラーが新しいクロール更新サイクルを開始するまでの間隔を分単位で指定します。 refresh の時間に実行される操作は、refresh_mode 設定を使用して指定します。既定値: 1500.0
robots	boolean	yes\|no	Web クローラーが robot.txt ファイルの規則に従うかどうかを指定します。既定値: yes
start_uris	list-string		Web クローラーで使用される開始 URI を指定します。Web クローラーは、クロールを開始するために start_uris または start_uri_files を必要とします。注意クロールに IDNA ホスト名が含まれる場合、この名前は DNS エンコード形式ではなく UTF-8 文字で入力します。
start_uri_files	list-string		開始 URI を含む一連のファイルを指定します。これらのファイルは、書式のないテキストファイル形式で、1 行に 1 つの開始 URI を記述します。注意複数ノード展開では、これらのファイルはマルチノードスケジューラが実行されるサーバーでのみ使用可能になっている必要があります。
max_sites	integer	<値>	同時にクロールできる Web サイトの最大数を指定します。マルチノード Web クローラー展開では、この値は Web クローラー全体にではなく、ノードスケジューラごとに適用されます。たとえば、max_sites を 5 に設定し、10 サイトをクロールする場合、5 サイトのクロールが完了するまで、残りの 5 サイトのクロールは開始されません。注意 max_sites の値を大きくすると、システムリソースの使用量に悪影響を与える可能性があります。既定値: 128
mirror_site_files	list-string		指定したホスト名のミラーサイトが含まれる一連のファイルを指定します。ミラーサイトとは、既に存在する Web サイトの複製です。このファイルはテキスト形式ファイルであり、ホスト名を指定するには、スペースで区切ったホスト名の一覧を優先度の高い順に記述します。注意複数ノード Web クローラー展開では、ノードスケジューラを展開したすべてのサーバーでこのファイルが使用可能になっている必要があります。
proxy	list-string		Web クローラーが Web アイテムをフェッチするために使用する一連の HTTP プロキシを指定します。プロキシを指定するには、以下の書式を使用します。 `(http://)(username:password@)hostname(:port)`。省略可能な部分はかっこで囲んでいます。パスワードは、passwd の設定に従って暗号化されます。
proxy_max_pending	integer	<値>	HTTP プロキシごとに開いた接続をその状態で維持できる最大数を指定します。既定値: INT32 の最大数
headers	list-string	<ヘッダー>	Web サーバーに送信する要求に追加する HTTP ヘッダーを指定します。現在の既定値: `User-Agent: FAST Search Web Crawler <version>`
cut_off	integer		アイテムの最大バイト数を指定します。このサイズの制限を超える Web アイテムは、破棄されるか、切り捨て構成パラメーターの値に従って切り捨てられます。 cut_off 構成パラメーターを設定しない場合、切り捨てのオプションは無効になります。既定値: 制限なし
truncate	boolean	yes\|no	指定した cut_off のしきい値を超えるサイズの Web アイテムを切り捨てるかどうかを指定します。既定値: yes
check_meta_robots	boolean	yes\|no	Web クローラーが robots の META タグから提供された `<NoIndex />` ディレクティブと `<NoFollow />` ディレクティブに従うことを指定します。一般的な META タグの設定を以下に示します。 `<meta name="robots" content="nofollow,noindex"/>` または `<meta http-equiv="robots" content="nofollow,noindex"/>` 特殊な値 `none` は `nofollow` と `noindex` の両方を意味します。既定値: yes
obey_robots_delay	boolean	yes\|no	Web クローラーが robots.txt ファイル内にクロール遅延ディレクティブがある場合にその設定に従うことを指定します。この設定がない場合は、delay 設定が適用されます。既定値: no
key_file	string		HTTPS 接続に使用する SSL クライアント証明書キーファイルのパスを指定します。この機能は、Web クローラーがクライアント証明書による認証を要求される Web サイトで使用されます。このオプションは、cert_file と一緒に使用する必要があります。注意マルチノード Web クローラー展開では、このファイルはすべてのノードスケジューラに存在する必要があります。
cert_file	string		HTTPS 接続に使用する X509 クライアント証明書のパスを指定します。このオプションは key_file と一緒に使用する必要があります。
max_doc	integer	<値>	Web サイトからダウンロードする Web アイテムの最大数を指定します。既定値: 100000
enforce_delay_per_ip	boolean	yes\|no	Web クローラーが、共有される IPv4 または IPv6 アドレスに名前がマップされる Web サーバーへの要求を制限することを指定します。このパラメーターの作用は、delay 構成パラメーターに依存します。既定値: yes
wqfilter	boolean	yes\|no	Web クローラーが、重複する URI をクロールキューから削除するブルームフィルターを使用するかどうかを指定します。既定値: yes
smfilter	integer	<値>	ノードスケジューラに関連付けられたキューから重複する URI を削除するブルームフィルターの最大ビット数を指定します。ブルームフィルターは、要素が特定のセットのメンバーかどうかをテストするために使用される、領域の使用効率に優れた確率的なデータ構造 (ビット配列) です。テストでは、偽陽性と判定されることはあっても、偽陰性と判定されることはありません。既定値: 0
mufilter	integer	<値>	ブルームフィルターに使用する最大ビット数を指定します。このフィルターは、ノードスケジューラからマルチノードスケジューラに送信される重複した URI を削除します。このフィルターは、大規模なクロールの場合に有効に設定し、値として 500000000 (500 メガビット) を指定することをお勧めします。既定値: 0
umlogs	boolean	yes\|no	すべてのログをマルチノードスケジューラに送信して保管するかどうかを指定します。このパラメーターを有効にしない場合、ログはノードスケジューラ側にのみ保管されます。既定値: yes
sort_query_params	boolean	yes\|no	Web クローラーが URI のクエリコンポーネントでパラメーターを並べ替えるかどうかを指定します。通常、クエリコンポーネントは、セミコロンまたはアンパサンドを区切り文字とするキーと値のペアです。この構成パラメーターを設定すると、クエリはキー名のアルファベット順に並べ替えられます。既定値: no
robots_timeout	integer	<秒>	Web クローラーが robots.txt ファイルをダウンロードするために使用できる時間の最大値を秒で指定します。既定値: 300
login_timeout	integer	<秒>	Web クローラーがログインを要求するために使用できる時間の最大値を秒で指定します。既定値: 300
send_links_to	string		抽出されたすべてのハイパーリンクの送信先となるクロールコレクションを指定します。
cookie_timeout	integer	<秒>	セッション Cookie を保存する時間の最大値を秒で指定します。セッション Cookie は、有効期限の日付がない Cookie です。既定値: 300
refresh_when_idle	boolean	yes\|no	Web クローラーがアイドル状態になったときに新しいクロール更新サイクルを開始するかどうかを指定します。このオプションは、マルチノード展開では使用しないでください。既定値: no
refresh_mode	string	append\|prepend\|scratch\|soft\|adaptive	クロールコレクションの更新モードを指定します。有効な値は、次のとおりです。 append: クロール更新サイクルを開始するときに、開始 URI をクロールキューの最後に追加します。 prepend: クロール更新サイクルを開始するときに、開始 URI をクロールキューの先頭に追加します。既存のキューは保持されます。 scratch: 開始 URI をクロールキューに追加する前に、キューを消去します。 soft: クロール更新サイクルが終了する時点で Web サイトのクロールキューが空でない場合、Web クローラーはクロールを続行して次のクロール更新サイクルに入ります。クロールキューが空になるまで、クロールサイトは更新されません。 adaptive: adaptive 構成に従ってクロールキューを作成します。既定値: scratch

例

<attrib name="delay" type="real"> 60.0 </attrib>

<attrib name="max_doc" type="integer"> 10000 </attrib>

<attrib name="use_javascript" type="boolean"> no </attrib>

<attrib name="info" type="string">
My Web crawl collection crawling my intranet.
</attrib>

<attrib name="allowed_schemes" type="list-string">
    <member> http </member>
    <member> https </member>
</attrib>

member

これは、オプション値の一覧に含まれる 1 つの要素を指定します。

member 要素は、attrib 要素内でのみ使用できます。

例

<attrib name="allowed_schemes" type="list-string">
    <member> http </member>
    <member> https </member>
</attrib>

section

この要素は、関連する複数のオプションをグループにまとめます。section 要素には、attrib 要素が含まれます。

属性

属性	値	説明
name	<名前>	セクションの名前を指定します。この記事で説明する各セクションがサポートされています。

例

<section name="crawlmode">
    <attrib name="fwdlinks" type="boolean"> no </attrib>
    <attrib name="fwdredirects" type="boolean"> no </attrib>
    <attrib name="mode" type="string"> FULL </attrib>
    <attrib name="reset_level" type="boolean"> no </attrib>
</section>

include_domains

このセクションは、クロールコレクションに含める URI を指定する一連のホスト名フィルターを定義します。セクションを空にすると、すべてのホスト名に指定したことになります。

属性

以下の表に、このセクションの attrib 要素を示します。

名前	種類	意味
exact	list-string	ホスト名の一覧を指定します。URI のホスト名がこの一覧のいずれかのホスト名に一致した場合、その URI はこの規則に含まれます。
prefix	list-string	ホスト名の一覧を指定します。URI のホスト名の先頭がこの一覧のいずれかのホスト名に一致した場合、その URI はこの規則に含まれます。
suffix	list-string	ホスト名の一覧を指定します。URI のホスト名の末尾がこの一覧のいずれかのホスト名に一致した場合、その URI はこの規則に含まれます。
regexp	list-string	正規表現の一覧を指定します。URI のホスト名がこの一覧のいずれかの正規表現に一致した場合、その URI はこの規則に含まれます。
ipmask	list-string	IPv4 アドレスマスクの一覧を指定します。取得された IPv4 アドレスがこの一覧のいずれかの IPv4 アドレスマスクに一致した場合、その URI はこの規則に含まれます。IPv4 アドレスマスクは、以下のいずれかの形式で記述する必要があります。 IPv4 アドレスの範囲を指定するには、IPv4 アドレスを文字列形式で記述し、ハイフンを使用して範囲を指定します。使用例: `207.46.197.0-100` または `207.46.190-197.100` この範囲内にある IPv4 アドレスは、このマスクに含まれます。 IPv4 マスクは、IPv4 アドレスの N 番目の最上位ビットを使用して指定することもできます。ここで、N は 0 ～ 32 の範囲の整数です。このマスクでは、文字列形式の IPv4 アドレスの後にスラッシュ記号を記述し、その後に最上位ビットの番号を指定します。使用例: `207.46.197.0 /24` 指定した IPv4 アドレスと N ビットの範囲が同じ IPv4 アドレスは、このマスクに含まれます。 IPv4 マスクは、ビットマスクを使用して IPv4 アドレスの重要なビットをマスクする方法でも指定できます。このマスクの形式は `IPv4 address in string format:ip-mask` です。ここで、ip-mask はマスクに使用される文字列形式の IPv4 アドレスまたは 32 ビットの 16 進数の値です。使用例: `207.46.197.0:255.255.255.0` または `207.46.197.0:0xffffff00` ip-mask で指定したビットセットと IPv4 アドレスに一致する IPv4 アドレスは、このマスクに含まれます。
ip6mask	list-string	IPv6 アドレスマスクの一覧を指定します。取得された IPv6 アドレスがこの一覧のいずれかの IPv6 アドレスマスクに一致した場合、その URI はこの規則に含まれます。 IPv6 アドレスマスクは、以下のいずれかの形式で記述する必要があります。 IPv6 アドレスの範囲を指定するには、IPv6 アドレスを文字列形式で記述し、ハイフンを使用して範囲を指定します。使用例: `2002:CF2E:C500- C564:0:0:0:0:0` または `::ffff:207.46.197.0-100` この範囲内にある IPv6 アドレスは、このマスクに含まれます。 IPv6 マスクは、IPv6 アドレスの N 番目の最上位ビットを使用して指定することもできます。ここで、N は 0 ～ 128 の範囲の整数です。このマスクでは、文字列形式の IPv6 アドレスの後にスラッシュ記号を記述し、その後に最上位ビットの番号を指定します。使用例: `2002:CF2E:C500:0:0:0:0:0/60` 指定した IPv6 アドレスと N ビットの範囲が同じ IPv6 アドレスは、このマスクに含まれます。

例

<section name="include_domains">
   <attrib name="exact" type="list-string">
      <member> www.contoso.com </member>
      <member> www2.contoso.com </member>
   </attrib>
   <attrib name="prefix" type="list-string">
      <member> www </member>
   </attrib>
   <attrib name="suffix" type="list-string">
      <member> .contoso.com</member>
      <member> .contoso2.com</member>
   </attrib>
   <attrib name="regexp" type="list-string">
      <member> .*\.contoso\.com </member>
   </attrib>
   <attrib name="file" type="list-string">
       <member> c:\myinclude_domains.txt </member>
   </attrib>
</section>

exclude_domains

このセクションは、クロールコレクションから除外する URI を指定する一連のホスト名フィルターを指定します。このセクションが空白の場合、一致するホスト名はありません。

属性

このセクションの attrib 要素については、「include_domains」の表を参照してください。

例

<section name="exclude_domains">
   <attrib name="exact" type="list-string">
      <member> www.contoso.com </member>
      <member> www2.contoso.com </member>
   </attrib>
   <attrib name="prefix" type="list-string">
      <member> www </member>
   </attrib>
   <attrib name="suffix" type="list-string">
      <member> .contoso.com</member>
      <member> .contoso2.com</member>
   </attrib>
   <attrib name="regexp" type="list-string">
      <member> .*\.contoso\.com </member>
   </attrib>
   <attrib name="file" type="list-string">
       <member> c:\myexclude_domains.txt </member>
   </attrib>
</section>

include_uris

このセクションは、クロールコレクションに含める URI を指定する一連のホスト名フィルターを指定します。このセクションが空白の場合、すべてのホスト名に一致します。

属性

以下の表に、このセクションの attrib 要素を示します。

名前	種類	意味
exact	list-string	URI の一覧を指定します。この一覧のいずれかの URI に正確に一致する URI は、この規則に含まれます。
prefix	list-string	文字列の一覧を指定します。この一覧のいずれかの文字列で始まる URI は、この規則に含まれます。
suffix	list-string	文字列の一覧を指定します。この一覧のいずれかの文字列で終わる URI は、この規則に含まれます。
regexp	list-string	正規表現の一覧を指定します。この一覧のいずれかの正規表現に一致する URI は、この規則に含まれます。

例

<section name="include_uris">
   <attrib name="exact" type="list-string">
      <member> https://www.contoso.com/documents/doc2.html </member>
   </attrib>
   <attrib name="prefix" type="list-string">
      <member> https://www.contoso.com/documents/ </member>
   </attrib>
   <attrib name="suffix" type="list-string">
      <member> /doc2.html </member>
   </attrib>
   <attrib name="regexp" type="list-string">
      <member> http://.*\.contoso\.com/documents.*</member>
   </attrib>
   <attrib name="file" type="list-string">
       <member> c:\myinclude_uris.txt </member>
   </attrib>
</section>

exclude_uris

このセクションは、クロールコレクションから除外する URI を指定する一連の URI ベース規則を指定します。このセクションが空白の場合、一致する URI はありません。

属性

このセクションの attrib 要素については、「include_uris」の表を参照してください。

例

<section name="exclude_uris">
   <attrib name="exact" type="list-string">
      <member> https://www.contoso.com/documents/doc2.html </member>
   </attrib>
   <attrib name="prefix" type="list-string">
      <member> https://www.contoso.com/documents/ </member>
   </attrib>
   <attrib name="suffix" type="list-string">
      <member> /doc2.html </member>
   </attrib>
   <attrib name="regexp" type="list-string">
      <member> http://.*\.contoso\.com/documents.*</member>
   </attrib>
   <attrib name="file" type="list-string">
       <member> c:\myexclude_uris.txt </member>
   </attrib>
</section>

log

このセクションは、Web クローラーのログ動作を指定します。

属性

以下の表に、このセクションの attrib 要素を示します。

名前	種類	値	意味
fetch	string	text\|none	ダウンロードした Web アイテムのログを有効または無効にします。有効な値は、次のとおりです。 text : テキスト形式のログを作成します。 none : ログを無効にします。既定値: text
postprocess	string	text\|xml\|none	ノードスケジューラアイテム後処理のログを有効または無効にします。有効な値は、次のとおりです。 text : テキスト形式のログを作成します。 xml : XML 形式のタグを作成します。 none : ログを無効にします。既定値: text
header	string	text\|none	HTTP ヘッダーのログを有効または無効にします。有効な値は、次のとおりです。 text : テキスト形式のログを作成します。 none : ログを無効にします。
screened	string	text\|none	すべてのスクリーニングされた URI のログを有効または無効にします。有効な値は、次のとおりです。 text : テキスト形式のログを作成します。 none : ログを無効にします。
scheduler	string	text\|none	アダプティブクロールのログを有効または無効にします。有効な値は、次のとおりです。 text : テキスト形式のログを作成します。 none : ログを無効にします。
dsfeed	string	text\|none	インデックス付けエンジンへのコンテンツ送信のログを有効または無効にします。有効な値は、次のとおりです。 text : テキスト形式のログを作成します。 none : ログを無効にします。
site	string	text\|none	クロールサイトごとにログを有効または無効にします。有効な値は、次のとおりです。 text : テキスト形式のログを作成します。 none : ログを無効にします。

例

<section name="log">
   <attrib name="dsfeed" type="string"> text </attrib>
   <attrib name="fetch" type="string"> text </attrib>
   <attrib name="postprocess" type="string"> text </attrib>
   <attrib name="screened" type="string"> none </attrib>
   <attrib name="site" type="string"> text </attrib>
</section>

storage

このセクションは、Web クローラーがデータとメタデータを保存する方法を指定します。

属性

次の表に、このセクションの attrib 要素を示します。

名前	種類	値	意味
datastore	string	flatfile\|bstore	Web アイテムコンテンツストレージの形式を指定します。有効な値は、次のとおりです。 flatfile : アイテムをファイルシステムに直接保存します。 bstore : アイテムを固定サイズのブロックに分割し、複数のファイルに分散して保存します。インデックスによってブロックの順序がマッピングされ、ブロックが属するアイテムが示されます。既定値: bstore
store_http_header	boolean	yes\|no	Web クローラーが受信した HTTP ヘッダーを保存することを指定します。既定値: yes
store_dupes	boolean	yes\|no	Web クローラーが重複する Web アイテムを保存することを指定します。既定値: no
compress	boolean	yes\|no	ダウンロードしたアイテムを圧縮してから保存することを指定します。既定値: yes
compress_exclude_mime	list-string		保存する前に圧縮しない Web アイテムの MIME タイプの一覧を指定します。既に圧縮されている Web アイテム (マルチメディア形式のアイテムなど) に使用します。 compress 構成パラメーターを設定しない場合、このパラメーターは適用されません。
remove_docs	boolean	yes\|no	Web クローラーが、Web アイテムを Web クローラーストアからインデックス付けエンジンに送信した後で、すぐにそのアイテムを削除するかどうかを指定します。この設定を有効にすると Web クローラーが消費するディスク領域は減りますが、フィールドの再実行は不可能になります。既定値: no
clusters	integer	<値>	クロールコレクション用のストレージに使用するクラスターの数を指定します。Web アイテムは、これらのストレージクラスターに分散して保管されます。既定値: 8
defrag_threshold	integer	<パーセンテージ>	データストレージファイルの最適化を実行するしきい値 (使用中の容量に対する割合) を指定する 0 以外の値です。使用中の領域が defrag_threshold の値を下回ると、Web アイテムの保存によって断片化した領域を再生するため、ファイルが最適化の対象となります。データベースファイルは、最適化レベルとは無関係にコンパクト化されます。既定値の 85% は、データストレージファイル内の領域の 15 %が再生可能になったときに最適化が実行されることを意味します。 0 を指定すると、最適化は無効になります。この設定は、storage_format 属性の `bstore` 値にのみ適用されます。既定値: 85
uri_dir	string	<パス>	Web アイテムから抽出されたすべてのハイパーリンクのファイル一覧の保存先パスを指定します。サイトマネージャープロセスごとに異なるファイルが使用されます。URI ファイルの名前は、プロセス PID に `.txt` を連結して作成されます。

例

<section name="storage">
   <attrib name="store_dupes" type="boolean"> no </attrib>
   <attrib name="datastore" type="string"> bstore </attrib>
   <attrib name="compress" type="boolean"> yes </attrib>
</section>

pp

このセクションは、ノードスケジューラの後処理動作を指定します。後処理では、Web アイテムをインデックスにフィードするタスクと、重複データを検出するタスクが主に実行されます。

属性

以下の表に、このセクションの attrib 要素を示します。

名前	種類	値	意味
use_dupservers	boolean	yes\|no	Web クローラーが 1 つ以上の重複サーバーを使用することを指定します。このオプションは、マルチノード展開にのみ適用されます。既定値: no
max_dupes	integer	<値>	Web アイテムごとに記録する重複データの最大数を指定します。既定値: 10
stripe	integer	<値>	チェックサムデータを分散して格納するデータファイルの数を指定します。この値を増やすと、後処理のパフォーマンスが向上します。既定値: 1
ds_meta_info	list-string	duplicates\|redirects\|mirrors\|metadata	ノードスケジューラがインデックス付けエンジンに報告するメタデータの種類を指定します。有効な値は、次のとおりです。 duplicates : このアイテムと重複する URI を報告します。 redirects : このアイテムにリダイレクトされる URI を報告します。 metadata : このアイテムのメタデータを報告します。 mirrors : この Web アイテムのすべてのミラー URI を報告します。
ds_max_ecl	integer	<値>	ds_meta_info 構成パラメーターの設定に従ってインデックス付けエンジンに報告する重複またはリダイレクトの最大数を指定します。既定値: 10
ecl_override	string		max_dupes の値に達した後でも、保管しておそらくインデックス付けエンジンに送信するリダイレクト URI または重複 URI を識別する正規表現を指定します。使用例: `.*index\.html$`
ds_send_links	boolean	yes\|no	Web アイテムから抽出したすべてのハイパーリンクをインデックス付けエンジンに送信するかどうかを指定します。
ds_paused	boolean	yes\|no	ノードスケジューラがインデックス付けエンジンへのコンテンツ送信を保留するかどうかを指定します。

例

<section name="pp">
   <attrib name="max_dupes" type="integer"> 10 </attrib>
   <attrib name="use_dupservers" type="boolean"> yes </attrib>
   <attrib name="ds_paused" type="boolean"> no </attrib>
</section>

ppdup

このセクションは、重複サーバー設定を指定します。

属性

以下の表に、このセクションの attrib 要素を示します。

名前	種類	値	意味
format	string	gigabase\|hashlog\|diskhashlog	重複サーバーデータベースの形式を指定します。有効な値は、次のとおりです。 gigabase : Gigabase は、単純なキー/値データベースです。 hashlog : ハッシュログは、ハッシュテーブルとデータログから構成されるメモリ内データ構造です。データログには、格納されたすべてのキーと値が含まれ、必要に応じてメモリ内のハッシュテーブルを自動的に再構築できます。 diskhashlog : ディスクハッシュログは、データ構造がディスク上で直接アクセスされることを除き、ハッシュログと同じものです。
cachesize	integer	<MB>	重複サーバーデータベースのキャッシュサイズを MB 単位で指定します。format 構成パラメーターが hashlog または diskhashlog に設定されている場合、このパラメーターはハッシュテーブルの内部サイズを指定します。
stripes	integer	<値>	コンテンツを分散して格納するデータファイルの数を指定します。複数のファイルを使用すると、重複サーバーデータベースのパフォーマンスを向上できます。
compact	boolean	yes\|no	重複サーバーデータベースがコンパクト化を実行するかどうかを指定します。hashlog 形式と diskhashlog 形式では、crawlerdbtool を使用して手動でコンパクト化を実行するか、このオプションを有効にして自動的にコンパクト化を実行する必要があります。これを行わないと、レコードの書き込みまたは更新に使用されるディスクの使用量が増えます。既定値: yes

例

<section name="ppdup">
   <attrib name="format" type="string"> hashlog </attrib>
   <attrib name="stripes" type="integer"> 1 </attrib>
      <!-- 1 GB memory hash -->
   <attrib name="cachesize" type="integer"> 1024 </attrib>
   <attrib name="compact" type="boolean"> yes </attrib>
</section>

feeding

feeding セクションは、クロールコレクションを表す情報をインデックス付けエンジンに送信する方法を指定する最低 1 つの section XML 要素から構成されます。このようなセクションは、コンテンツの送信先を定義します。name 属性は、コンテンツの送信先を表す一意の名前です。

属性

以下の表に、コンテンツの送信先セクションの attrib 要素を示します。

名前	種類	値	意味
collection	string	<名前>	Web アイテムを送信するコンテンツコレクションの名前を指定します。この構成パラメーターは、feeding セクションで指定する必要があります。
destination	string	default	予約名。この構成パラメーターの値は常に default である必要があります。
paused	boolean	yes\|no	Web クローラーがインデックス付けエンジンへのコンテンツの送信を保留するかどうかを指定します。既定値: no
primary	boolean	yes\|no	このコンテンツ送信先をプライマリのコンテンツ送信先にするか、セカンダリのコンテンツ送信先にするかを指定します。プライマリのコンテンツ送信先は、インデックス付けエンジンへのコンテンツ送信時にコールバック情報の役割をはたします。コンテンツ送信先を 1 つだけ指定した場合は、それがプライマリの送信先となります。

例

<section name="feeding">
    <section name="Global_News">
        <attrib name="collection" type="string"> collection_A </attrib>
        <attrib name="destination" type="string"> default </attrib>
        <attrib name="primary" type="boolean"> yes </attrib>
        <attrib name="paused" type="boolean"> no </attrib>
    </section>
    <section name="Local_News">
        <attrib name="collection" type="string"> collection_B </attrib>
        <attrib name="destination" type="string"> default </attrib>
        <attrib name="primary" type="boolean"> no </attrib>
        <attrib name="paused" type="boolean"> no </attrib>
     </section>
</section>

cachesize

このセクションは、Web クローラープロセスのキャッシュサイズを構成します。

属性

次の表に、このセクションの attrib 要素を示します。

注意

この表に明記されていない場合、各属性の既定値は Web クローラーによって実行時に自動的に決定されます。

名前	種類	値	意味
duplicates	integer	<アイテムの数を表す値>	サイトマネージャープロセスごとの重複データチェックサムキャッシュのサイズを指定します。このキャッシュは、実行時に重複データ検出の最初のレベルとして使用されます。
screened	integer	<アイテムの数を表す値>	スクリーニングされた URI キャッシュのサイズをハイパーリンクの数で指定します。スクリーニングされたキャッシュは、最近の取得が失敗に終わった重複ハイパーリンクを除外します。
smcomm	integer	<アイテムの数を表す値>	ノードスケジューラとサイトマネージャー間で送信される重複ハイパーリンクを除外するためにキャッシュで使用されるブルームフィルターのサイズを指定します。
mucomm	integer	<アイテムの数を表す値>	マルチノードスケジューラとノードスケジューラ間で送信される重複ハイパーリンクを除外するためにキャッシュで使用されるブルームフィルターのサイズを指定します。
wqcache	integer	<アイテムの数を表す値>	Web サイトクロールキューから重複ハイパーリンクを除外するキャッシュのサイズを指定します。
crosslinks	integer	<アイテムの数を表す値>	クロスリンクキャッシュのサイズを指定します。クロスリンクキャッシュには、取得したハイパーリンクと参照元ハイパーリンクが格納されます。mufilter が有効になっていない場合、このキャッシュはノードスケジューラ内の重複ハイパーリンクを除外します。
routetab	integer	<値>	クロールルーティングデータベースのキャッシュサイズをバイト単位で指定します。既定値: 1048576
pp	integer	<値>	後処理データベースのキャッシュサイズをバイト単位で指定します。既定値: 1048576
pp_pending	integer	<値>	後処理保留キャッシュのサイズをバイト単位で指定します。保留キャッシュには、重複サーバーにまだ送信されていないエントリが格納されます。既定値: 131072
aliases	integer	<値>	エイリアスデータマッピングデータベースのキャッシュサイズをバイト単位で指定します。クロールサイトには、1 つ以上のエイリアス (代替ホスト名) を関連付けることができます。既定値: 1048576

例

<section name="cachesize">
      <!-- Specific cache size values (in number of items) for the following: -->
      <attrib name="duplicates" type="integer"> 128 </attrib>
      <attrib name="screened" type="integer"> 128 </attrib>
      <attrib name="smcomm" type="integer"> 128 </attrib>
      <attrib name="mucomm" type="integer"> 128 </attrib>
      <attrib name="wqcache" type="integer"> 4096 </attrib>
      <!-- Automatic cache size for crosslinks -->
      <attrib name="crosslinks" type="integer"> </attrib>
      <!-- Cache sizes in bytes for the following -->
      <attrib name="routetab" type="integer"> 1048576 </attrib>
      <attrib name="pp" type="integer"> 1048576 </attrib>
      <attrib name="pp_pending" type="integer"> 1048576 </attrib>
      <attrib name="aliases" type="integer"> 1048576 </attrib>
   </section>

http_errors

このセクションは、HTTP/HTTPS のエラー応答コードと条件を処理する方法を指定します。

属性

次の表に、このセクションの attrib 要素を示します。name 属性には複数の値があるため、それぞれについて用途を説明しています。

名前

種類

値

意味

name 属性は、処理する HTTP/HTTPS/FTP 応答コード番号を指定します。文字 "X" は、ワイルドカード文字として使用できます。たとえば、"4XX" のように記述します。

他に、次の値を使用できます。

net : ネットワークソケットエラーを処理します。
int : Web クローラーの内部エラーを処理します。
ttl : HTTP/HTTPS/FTP 接続タイムアウトを処理します。

string

<値>

Web クローラーが HTTP/HTTPS/FTP エラーおよびネットワークエラーを処理する方法を指定します。個々の応答コードを処理するための有効なオプションは、次のとおりです。

KEEP : Web アイテムを変更しません。
DELETE[:X] : エラー状況が X 回発生した場合、Web アイテムを削除します。X の値を指定しない場合は、最初のエラーですぐに削除されます。

どちらかのオプションに RETRY[:X] を指定すると、Web クローラーは、同じクロール更新サイクル期間に最高 X 回まで Web アイテムの再ダウンロードを試みます。それ以外の場合は、クローラーは次のクロール更新サイクルが開始されるまで URI をダウンロードしません。

既定値: 「http_errors セクションの既定値」および「ftp_errors セクションの既定値」を参照してください。

http_errors セクションの既定値

次の表に、http_errors セクションの既定値を示します。

名前	値	意味
4xx	DELETE:0	すぐに削除します。
5xx	DELETE:10	この URI でこのエラーが 10 回発生した場合に (通常は 10 回目のクロールサイクルの後で) 削除します。URI が正常に取得されると、カウンターはリセットされます。
int	KEEP:0	削除しません。
net	DELETE:3、RETRY:1	3 回目で削除します。1 回の再試行を指定します。したがって、URI は次回の更新サイクルでも取得できない場合に削除されます。
ttl	DELETE:3	3 回目に削除します。

例

<section name="http_errors">
    <attrib name="408" type="string"> KEEP </attrib>
    <attrib name="4xx" type="string"> DELETE </attrib>
    <attrib name="5xx" type="string"> DELETE:10, RETRY:3 </attrib>
    <attrib name="ttl" type="string"> DELETE:3 </attrib>
    <attrib name="net" type="string"> DELETE:3 </attrib>
    <attrib name="int" type="string"> KEEP </attrib>
</section>

ftp_errors

このセクションは、FTP URI の応答コードとエラー条件を処理する方法を指定します。

属性

このセクションの attrib 要素については、「http_errors」の表を参照してください。

ftp_errors セクションの既定値

次の表に、ftp_errors セクションの既定値を示します。

名前	値	意味
4xx	DELETE:3	この URI でこのエラーが 3 回発生した場合に (通常は 3 回目のクロールサイクルの後で) 削除します。URI が正常に取得されると、カウンターはリセットされます。
550	DELETE:0	すぐに削除します。
5xx	DELETE:3	4xx の場合と同様に、3 回目で削除します。
int	KEEP:0	削除しません。
net	DELETE:3、RETRY:1	3 回目で削除します。1 回の再試行を指定します。したがって、URI は次回の更新サイクルでも取得できない場合に削除されます。

例

<section name="ftp_errors">
    <attrib name="4xx" type="string"> DELETE:3 </attrib>
    <attrib name="550" type="string"> DELETE:0 </attrib>
    <attrib name="5xx" type="string"> DELETE:3 </attrib>
    <attrib name="int" type="string"> KEEP:0 </attrib>
    <attrib name="net" type="string"> DELETE:3, RETRY:1 </attrib>
    <attrib name="ttl" type="string"> DELETE:3 </attrib>
</section>

workqueue_priority

このセクションは、クロールキューの優先度レベルを指定し、キューへの URI の挿入とキューからの URI の取り出しに適用される規則とモードを指定します。

属性

次の表に、このセクションの attrib 要素を指定します。

名前	種類	値	意味
levels	integer	<値>	クロールキューに使用する優先度レベルの数を指定します。既定値: 1
default	integer	<値>	クロールキュー内の URI に割り当てる既定の優先度レベルを指定します。既定値: 1
start_uri_pri	integer	<値>	開始 URI の優先度レベルを指定します。start_uris 構成パラメーターと start_uri_files 構成パラメーターを参照してください。既定値: 1
pop_scheme	string	default\|rr\|wrr\|pri	Web クローラーがクロールキューから URI を取り出すのに使用するモードを指定します。有効な値は、次のとおりです。 rr : 優先度レベルから URI をラウンドロビンの順序で取り出します。 wrr : 優先度レベルから URI をウェイト付けされたラウンドロビンの順序で取り出します。ウェイトは、「優先度レベルセクション」で指定した優先度レベルごとの共有設定に基づいて決定されます。 pri : エントリがまだクロールキューに残っているときに、優先度レベルから優先順位の高い順に URI を取り出します。「優先度レベルセクション」で指定するように、1 が最も高い優先度です。 default : wrr と同じです。既定値: default
put_scheme	string	default\|include	URI をクロールキューに挿入するときに使用する Web クローラーモードを指定します。有効な値は、次のとおりです。 default : 既定の構成パラメーターで指定された優先度レベルで URI を常に挿入します。 include : 各優先度レベルの「優先度レベルセクション」で指定されたとおりに、include_domains または include_uris の優先度レベルで URI を挿入します。Web クローラープロセスは、URI がこれらのいずれのセクションにも一致しないときに既定の優先度レベルを割り当てます。既定値: default

優先度レベルセクション

workqueue_priority セクションでは、クロールキューの優先度レベルとウェイトを指定する一連のセクションを指定できます。これらのセクションは、pop_scheme パラメーターを wrr または pri に設定した場合にのみ使用できます。これらのセクションの name 属性は、指定する優先度レベルである必要があります。優先度レベルは 1 で始まる必要があります (以下の例の <section name="1"> を参照)。

include_domains セクションまたは include_uris セクションは、「include_domains」および「 include_uris」で説明したように、各優先度レベルセクションで使用できます。これらの規則に一致する URI は、一致する優先度レベルでキューに設定されます。次の表に、これらのセクションの attrib 要素を指定します。

名前	種類	値	意味
share	integer		各クロールキューに使用するウェイトを指定します。このウェイトは、pop_scheme 構成パラメーターを wrr に設定した場合にのみ使用されます。

例

<section name="workqueue_priority">
    <attrib name="levels" type="integer"> 2 </attrib>
    <attrib name="default" type="integer"> 2 </attrib>
    <attrib name="start_uri_pri" type="integer"> 1 </attrib>
    <attrib name="pop_scheme" type="string"> wrr </attrib>
    <attrib name="put_scheme" type="string"> include </attrib>
    <section name="1">
        <attrib name="share" type="integer"> 10 </attrib>
        <section name="include_domains">
            <attrib name="suffix" type="list-string">
                <member> web005.contoso.com  </member>
            </attrib>
        </section>
    </section>
    <section name="2">
        <attrib name="share" type="integer"> 5 </attrib>
        <section name="include_domains">
           <attrib name="suffix" type="list-string">
              <member> web002.contoso.com  </member>
           </attrib>
        </section>
    </section>
</section>

link_extraction

このセクションは、追跡するハイパーリンクの種類を指定します。

属性

次の表に、このセクションの attrib 要素を示します。

名前	種類	値	意味
a	boolean	yes\|no	`<A/>` HTML タグからハイパーリンクを抽出します。既定値: yes
action	boolean	yes\|no	HTML タグの action 属性からハイパーリンクを抽出します。既定値: yes
area	boolean	yes\|no	`<AREA/>` HTML タグからハイパーリンクを抽出します。既定値: yes
card	boolean	yes\|no	`<CARD/>` ワイヤレスマークアップ言語タグからハイパーリンクを抽出します。既定値: yes
comment	boolean	yes\|no	Web アイテム内のコメントからハイパーリンクを抽出します。既定値: yes
embed	boolean	yes\|no	`<EMBED/>` HTML タグからハイパーリンクを抽出します。既定値: yes
frame	boolean	yes\|no	`<FRAME/>` HTML タグからハイパーリンクを抽出します。既定値: yes
go	boolean	yes\|no	`<GO/>` ワイヤレスマークアップ言語タグからハイパーリンクを抽出します。既定値: yes
img	boolean	yes\|no	`<IMG/>` HTML タグからハイパーリンクを抽出します。既定値: no
layer	boolean	yes\|no	`<LAYER/>` HTML タグからハイパーリンクを抽出します。既定値: yes
link	boolean	yes\|no	`<LINK/>` HTML タグからハイパーリンクを抽出します。既定値: yes
meta	boolean	yes\|no	`<META/>` HTML タグからハイパーリンクを抽出します。既定値: yes
meta_refresh	boolean	yes\|no	meta refresh HTML タグ (`<meta http-equiv="refresh" content="n" />`) からハイパーリンクを抽出します。既定値: yes
object	boolean	yes\|no	`<OBJECT/>` HTML タグからハイパーリンクを抽出します。既定値: yes
script	boolean	yes\|no	`<SCRIPT/>` HTML タグからハイパーリンクを抽出します。既定値: yes
script_java	boolean	yes\|no	JavaScript が含まれる `<SCRIPT/>` HTML タグからハイパーリンクを抽出します。既定値: yes
style	boolean	yes\|no	`<STYLE/>` HTML タグからハイパーリンクを抽出します。既定値: yes

例

<section name="link_extraction">
   <attrib name="action" type="boolean"> yes </attrib>
   <attrib name="img" type="boolean"> no </attrib>
   <attrib name="link" type="boolean"> yes </attrib>
   <attrib name="meta" type="boolean"> yes </attrib>
   <attrib name="meta_refresh" type="boolean"> yes </attrib>
   <attrib name="object" type="boolean"> yes </attrib>
   <attrib name="script_java" type="boolean"> yes </attrib>
</section>

limits

limits セクションは、クロールコレクションのフェールセーフ制限を指定します。コレクションがこの制限を超えると、"更新のみ" のクロールモードに切り替わります。つまり、前回クロールされた URI のみが再度クロールされます。

属性

次の表に、このセクションの attrib 要素を示します。

名前	種類	値	意味
disk_free	integer	<パーセンテージ>	Web クローラーが normal クロールモード (crawlmode 属性で指定する) で動作するために必要なディスクの空き容量のパーセンテージを指定します。パーセンテージがこの制限を下回ると、Web クローラーは (しきい値に達した時点で) "更新のみ" のクロールモードに切り替わります。このパラメーターを 0 に設定すると、この機能は無効になります。既定値: 0
disk_free_slack	integer	<パーセンテージ>	disk_free しきい値に持たせる余裕をパーセンテージで指定します。このオプションは、disk_free しきい値の前後に緩衝地帯を設けます。ディスクの空き容量がこの範囲内であれば、Web クローラーはクロールモードを通常 (normal) に戻しません。この機能により、ディスクの空き領域のパーセンテージが disk_free パラメーターに指定した値に近い場合に Web クローラーがクロールモードを頻繁に切り替えることが回避されます。ディスクの空き領域のパーセンテージが disk_free と disk_free_slack を足した値を超えると、通常のクロールが再開されます。既定値: 3
max_doc	integer	<値>	Web クローラーを "更新" クロールモードに切り替えるしきい値となる保存済み Web アイテム数を指定します。注意統計情報の報告は実際のクロールよりも遅れるので、このしきい値は正確な制限ではありません。このオプションを 0 に設定すると、この機能は無効になります。既定値: 0
max_doc_slack	integer	<値>	Web クローラーが "更新のみ" のクロールモードに切り替わってからすぐに通常のクロールモードに戻る動作を繰り返すことを回避するため、絶対的なしきい値に余裕値を加えることができます。これにより、"しきい値から余裕値を引いた値" からしきい値までの範囲内ではクロールモードは変更されません。max_doc_slack 属性は、max_doc 構成パラメーターのしきい値に達するまでに余裕値に含まれるアイテムの最大数を指定します。既定値: 1000

例

<section name="limits">
   <attrib name="disk_free" type="integer"> 0 </attrib>
   <attrib name="disk_free_slack" type="integer"> 3 </attrib>
   <attrib name="max_doc" type="integer"> 0 </attrib>
   <attrib name="max_doc_slack" type="integer"> 1000 </attrib>
</section>

focused

このセクションは、集中スケジュールを構成します。exclude_domains セクションを focused セクションと組み合わせて使用すると、この集中スケジュールからホスト名を除外できます。exclude_domains セクションを定義しないと、すべてのホスト名が集中スケジュールに含まれます。

属性

次の表に、このセクションの attrib 要素を示します。

名前	種類	値	意味
languages	list-string		Web クローラーによって保存できるアイテムの言語の一覧を指定します。言語の定義は、「ISO-639-1 (英語)」に従います。
depth	integer	<値>	languages 構成パラメーターで設定された言語と一致しない Web アイテムを追跡するページホップ数を指定します。

例

以下の例では、Web クローラーはノルウェー語、英語、および言語不明のコンテンツについてすべてのアイテムを保存します。これらに該当しないすべての言語については、リンクを 2 レベルのみ追跡します。また、contoso.com にあるすべてのコンテンツは、言語チェックの対象外とし、自動的に保存します。

<section name="focused">
   <!-- Crawl Norwegian, English and content of unknown language -->
   <attrib name="languages" type="list-string">
      <member> norwegian </member>
      <member> unknown </member>
      <member> en </member>
   </attrib>
   <!--Follow hyperlinks containing other languages for 2 levels -->
   <attrib name="depth" type="integer"> 2 </attrib>
   <!-- Exclude anything under .contoso.com from language checks, -->   
   <section name="exclude_domains">
      <attrib name="suffix" type="list-string">
         <member> .contoso.com </member>
      </attrib>
   </section>
</section>

passwd

このセクションは、認証を要求する Web サイトに使用する資格情報を構成します。Web クローラーは、基本認証、ダイジェスト認証、および NTLM 認証をサポートします。

属性

次の表に、このセクションの attrib 要素を示します。

名前種類値意味

名前	種類	値	意味
name	string	name 属性には、URI または領域を指定します。有効な URI はプレフィックスの役割を演じます。このレベルと同じかそれ以上の深さから抽出されたすべてのハイパーリンクに対して、ここで指定する認証設定が使用されるからです。	資格情報は、`username:password` または `usename:password:realm:scheme` の形式で指定する必要があります。資格情報文字列のパスワードコンポーネントは暗号化されていることがあります。暗号化されていない場合は、パスワードはテキスト形式です。暗号化パスワードは、crawleradmin ツールで `-e` オプションを指定して作成します。暗号化に使用されるアルゴリズムは、高度暗号化標準 (AES) の AES-128 です。この暗号化のキーは、<FASTSearchFolder>\etc\CrawlerEncryptionKey.dat に格納されます。資格情報を `username:password` 形式で提供した場合、Web クローラーは自動的に基本認証を使用します。それ以外の場合は、この構成で認証スキームを指定する必要があります。有効な認証スキームは、次のとおりです。 basic digest ntlmv1 ntlmv2 auto : Web クローラーが、使用する認証スキームを自動的に決定します。

name

string

name 属性には、URI または領域を指定します。有効な URI はプレフィックスの役割を演じます。このレベルと同じかそれ以上の深さから抽出されたすべてのハイパーリンクに対して、ここで指定する認証設定が使用されるからです。

資格情報は、username:password または usename:password:realm:scheme の形式で指定する必要があります。

資格情報文字列のパスワードコンポーネントは暗号化されていることがあります。暗号化されていない場合は、パスワードはテキスト形式です。

暗号化パスワードは、crawleradmin ツールで -e オプションを指定して作成します。暗号化に使用されるアルゴリズムは、高度暗号化標準 (AES) の AES-128 です。この暗号化のキーは、<FASTSearchFolder>\etc\CrawlerEncryptionKey.dat に格納されます。

資格情報を username:password 形式で提供した場合、Web クローラーは自動的に基本認証を使用します。それ以外の場合は、この構成で認証スキームを指定する必要があります。有効な認証スキームは、次のとおりです。

basic
digest
ntlmv1
ntlmv2
auto : Web クローラーが、使用する認証スキームを自動的に決定します。

例

<section name="passwd">
    <attrib name="https://www.contoso.com/confidential1/" type="string">
      user:password:contoso:auto
    </attrib>
</section>

ftp_acct

このセクションは、FTP URI のクロールに使用する FTP アカウントを指定します。

属性

次の表に、このセクションの attrib 要素を示します。

名前種類値意味

名前	種類	値	意味
name	string	name XML 属性の値は、この FTP アカウントが有効になっているホスト名です。	これは、この FTP アカウントのユーザー名とパスワードです。文字列の形式は、`username:password` である必要があります。

name

string

name XML 属性の値は、この FTP アカウントが有効になっているホスト名です。

これは、この FTP アカウントのユーザー名とパスワードです。文字列の形式は、username:password である必要があります。

例

<section name="ftp_acct">
   <attrib name="ftp.contoso.com" type="string"> user:pass </attrib>
</section>

exclude_headers

このセクションは、HTTP ヘッダーフィールドの内容に基づいて Web アイテムをクロールから除外するために使用します。

属性

次の表に、このセクションの attrib 要素を示します。

名前	種類	値	意味
name name 属性は、テストする HTTP ヘッダーの名前を設定するために使用します。	list-string		正規表現の一覧を指定します。指定された HTTP ヘッダーの値がこの一覧のいずれかの正規表現に一致した場合、その Web アイテムはクロールから除外されます。

name

name 属性は、テストする HTTP ヘッダーの名前を設定するために使用します。

list-string

正規表現の一覧を指定します。指定された HTTP ヘッダーの値がこの一覧のいずれかの正規表現に一致した場合、その Web アイテムはクロールから除外されます。

例

<section name="exclude_headers">
   <attrib name="Header Name" type="list-string">
      <member> .*excluded.*value </member>
   </attrib>
</section>

variable_delay

このセクションは、別の要求レートを使用する時間帯を指定します。時間帯を指定しない場合、クローラーは attrib に指定された delay 構成パラメーターを使用します。

属性

次の表に、このセクションの attrib 要素を示します。

名前	種類	値	意味
name (DDD:HH.MM-DDD:HH.MM 形式)	string	<秒> suspend	この時間帯に使用する遅延要求レートを秒単位で指定します。suspend の値は、このクロールコレクションのクロールが中断されることを示します。

name (DDD:HH.MM-DDD:HH.MM 形式)

string

<秒>

suspend

この時間帯に使用する遅延要求レートを秒単位で指定します。suspend の値は、このクロールコレクションのクロールが中断されることを示します。

例

以下の例は、Web クローラーが曜日によって異なる遅延時間を使用する方法を示しています。水曜日の午前 9 時から午後 7 時までは、20 秒の遅延を使用します。月曜日の午前 9 時から午後 5 時までは、クロールを中断します。他の曜日を含め、これ以外の時間帯については 60 秒の遅延を使用します。

<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
   <DomainSpecification name="variable_example">
      <section name="variable_delay">
         <attrib name="Wed:09-Wed:19" type="string">20 </attrib>
         <attrib name="Mon:09-Mon:17" type="string">suspend</attrib>
      </section>
   </DomainSpecification>
</CrawlerConfig>

adaptive

このセクションは、アダプティブクロールオプションを指定します。このセクションが Web クローラーに適用されるには、attrib 内で refresh_mode 構成パラメーターが adaptive に設定されている必要があります。

アダプティブクロールの動作は、weights セクションと sitemap_weights セクションを使用して調整できます。

属性

次の表に、このセクションの attrib 要素を示します。

名前	種類	値	意味
refresh_count	integer	<値>	マイナー更新サイクルの回数を指定します。更新サイクルは複数のサイズ固定の間隔に分割できます。それぞれはマイナー更新サイクルと呼びます。既定値: 4
refresh_quota	integer	<パーセンテージ>	未確認の新規 URI に対する再クロールされる既存の URI の比率をパーセンテージで指定します。低いパーセンテージを指定すると、新規 URI が優先されます。既定値: 90
coverage_min	integer	<値>	マイナー更新サイクルで Web サイトごとにクロールする URI の最小数を指定します。小さな Web サイトからの十分なデータ取得を保証するために使用します。既定値: 25
coverage_max_pct	integer	<値>	マイナー更新サイクルで Web サイト全体に対して再クロールの対象とするパーセンテージを指定します。小さな Web サイトがマイナー更新サイクルのたびに完全にクロールされ、大きな Web サイトを十分にクロールする時間がなくなることを回避できます。既定値: 10

例

        <section name="adaptive">
            <attrib name="refresh_count" type="integer"> 4 </attrib>
            <attrib name="refresh_quota" type="integer"> 98 </attrib>
            <attrib name="coverage_max_pct" type="integer"> 25 </attrib>
            <attrib name="coverage_min" type="integer"> 10 </attrib>

            <!-- Ranking weights. Each scoring criteria adds a score between -->
            <!-- 0.0 and 1.0 which is then multiplied with the associated    -->
            <!-- weight below. Use a weight of 0 to disable a scorer         --> 
        
           <section name="weights">
                <attrib name="inverse_length" type="real"> 1.0 </attrib>
                <attrib name="inverse_depth" type="real"> 1.0 </attrib>
                <attrib name="is_landing_page" type="real"> 1.0 </attrib>
                <attrib name="is_mime_markup" type="real"> 1.0 </attrib>
                <attrib name="change_history" type="real"> 10.0 </attrib>
            </section>
        </section>

weights

このセクションでは、アダプティブクロールプロセスに適用されるスコアを各 URI に与えます。このスコアは、URI に優先順位を与える役割を持ち、一連の規則に基づいて決定されます。各規則によってウェイトが与えられ、このウェイトが weights セクションで指定される合計スコアの一部となります。

属性

次の表に、このセクションの attrib 要素を指定します。

名前	種類	値	意味
inverse_length	real	<値>	逆長さ規則のウェイトを指定します。逆長さ規則は、パスセグメントの数 (スラッシュ記号の数) が少ない URI に高いスコアを与えます。スラッシュ記号が 10 以上ある URI のスコアは 0 です。既定値: 1.0
inverse_depth	real	<値>	逆深さ規則のウェイトを指定します。逆深さ規則は、開始 URI からのページホップの数を計算し、10 未満の URI に高いスコアを与えます。ページホップが 10 以上ある URI のスコアは 0 です。既定値: 1.0
is_landing_page	real	<値>	is_landing_page 規則のウェイトを指定します。この規則は、ジャンプ先であると判断された URI に高いスコアを与えます。ジャンプ先とは、/、/index.html、index.htm、index.php、index.jsp、index.asp、default.html、または default.htm のいずれかで終わる URI です。この規則は、クエリコンポーネントが含まれる URI にスコアを与えません。既定値: 1.0
is_mime_markup	real	<値>	is_mime_markup 規則のウェイトを指定します。この規則は、attrib の uri_search_mime 構成パラメーターで指定された MIME タイプのページに追加のスコアを与えます。既定値: 1.0
change_history	real	<値>	変更履歴規則のウェイトを指定します。この規則は、HTTP ヘッダーの "最終更新日" の値に基づいてスコアを与えます。変更される頻度の高い Web アイテムは、変更頻度の低い Web アイテムよりも高いスコアを獲得します。既定値: 10.0
sitemap	real	<値>	サイトマップ規則のウェイトを指定します。サイトマップ規則のウェイトは、sitemap_weights で指定します。既定値: 10.0

例

<!-- Ranking weights. Each scoring criteria adds a score between -->
            <!-- 0.0 and 1.0 which is then multiplied with the associated    -->
            <!-- weight below. Use a weight of 0 to disable a scorer         -->
            <section name="weights">
                <!-- Score based on the number of /'es (segments) in the -->
                <!-- URI. Max score with one, no score with 10 or more   -->
                <attrib name="inverse_length" type="real"> 1.0 </attrib>

                <!-- Score based on the number of link "levels" down to -->
                <!-- this URI. Max score with none, no score with >= 10 -->
                <attrib name="inverse_depth" type="real"> 1.0 </attrib>

                <!-- Score added if URI is determined as a "landing page", -->
                <!-- defined as e.g. ending in "/" or "index.html". URIs   -->
                <!-- with query parameters are not given score             -->
                <attrib name="is_landing_page" type="real"> 1.0 </attrib>

                <!-- Score added if URI points to a markup document as    -->
                <!-- defined by the "uri_search_mime" option. Assumption  -->
                <!-- being that such content changes more often than e.g. -->
                <!-- "static" Word or PDF documents.                      -->
                <attrib name="is_mime_markup" type="real"> 1.0 </attrib>

                <!-- Score based on change history tracked over time by   -->
                <!-- using an estimator based on last modified date given -->
                <!-- by the web server. If no modified date returned then -->
                <!-- one is estimated (based on whether the document has  -->
                <!-- changed or not).                                     -->
                <attrib name="change_history" type="real"> 10.0 </attrib>
            </section>

sitemap_weights

サイトマップ内の <URL> エントリには changefreq 要素が含まれている場合があります。この要素は、URI が更新される頻度を指定します。

この要素の有効な文字列は、always、hourly、daily、weekly、monthly、yearly、および never です。この文字列値は数値のウェイトに変換されてアダプティブクロールに使用されます。sitemap_weights セクションは、文字列値から数値のウェイトへのマッピングを指定します。この数値のウェイトが、weights セクションでのサイトマップスコアの計算に使用されます。

URI のアダプティブクロールスコアは、この数値のウェイトと sitemap 構成パラメーターのウェイトを掛けて計算されます。

属性

次の表に、このセクションの attrib 要素を示します。

重要

各要素の範囲は 0.0 ～ 1.0 です。

名前	種類	値	意味
always	real	<値>	changefreq 値 always のウェイトを数値で指定します。既定値: 1.0
hourly	real	<値>	changefreq 値 hourly のウェイトを数値で指定します。既定値: 0.64
daily	real	<値>	changefreq 値 daily のウェイトを数値で指定します。既定値: 0.32
weekly	real	<値>	changefreq 値 weekly のウェイトを数値で指定します。既定値: 0.16
monthly	real	<値>	changefreq 値 monthly のウェイトを数値で指定します。既定値: 0.08
yearly	real	<値>	changefreq 値 yearly のウェイトを数値で指定します。既定値: 0.04
never	real	<値>	changefreq 値 never のウェイトを数値で指定します。既定値: 0.0
default	real	<値>	<changefreq> 値が関連付けられていないすべての URI のウェイトを指定します。既定値: 0.16

例

<section name="sitemap_weights">
    <attrib name="always" type="real"> 1.0 </attrib>
    <attrib name="hourly" type="real"> 0.64 </attrib>
    <attrib name="daily" type="real"> 0.32 </attrib>
    <attrib name="weekly" type="real"> 0.16 </attrib>
    <attrib name="monthly" type="real"> 0.08 </attrib>
    <attrib name="yearly" type="real"> 0.04 </attrib>
    <attrib name="never" type="real"> 0.0 </attrib>
    <attrib name="default" type="real"> 0.16 </attrib>
</section>

site_clusters

このセクションは、クローラーがホスト名をノードスケジューラにルーティングする動作を変更する構成パラメーターを指定します。このパラメーターを使用すると、ホスト名のグループを同じノードスケジューラとサイトマネージャーにルーティングできます。この機能は、use_cookies 設定が有効になっているときに便利です。Cookie はサイトマネージャープロセス全体にのみグローバルであるからです。また、特定の Web サイトが相互に緊密にリンクする場合、それらのホスト名をクラスター化することで内部通信を削減できます。

属性

次の表に、このセクションの attrib 要素を示します。

名前	種類	値	意味
name	list-string		グループとしてノードスケジューラに渡すホスト名の一覧を指定します。

例

<section name="site_clusters">
    <attrib name="mycluster" type="list-string">
        <member> host1.constoso.com </member>
        <member> host2.constoso.com </member>
        <member> host3.constoso.com </member>
    </attrib>
</section>

crawlmode

このセクションは、クロールコレクションの範囲を制限します。

属性

次の表に、このセクションの attrib 要素を示します。

名前	種類	値	意味
mode	string		クロールの深さを指定します。有効な値は FULL または DEPTH:# です。ここで、# は開始 URI からのページホップ数を意味します。既定値: FULL
fwdlinks	boolean	yes\|no	別のホスト名をポイントするハイパーリンクを追跡するかどうかを指定します。既定値: yes
fwdredirects	boolean	yes\|no	サーバーから受け取った外部 HTTP リダイレクトを追跡するかどうかを指定します。外部リダイレクトは、別のホスト名をポイントする HTTP リダイレクトです。既定値: no
reset_level	boolean	yes\|no	別のホスト名に移動するハイパーリンクを追跡するときに、mode で使用するページホップカウンターをリセットするかどうかを指定します。既定値: yes

例

        <section name="crawlmode">
            <attrib name="mode" type="string"> DEPTH:1 </attrib>
            <attrib name="fwdlinks" type="boolean"> yes </attrib>
            <attrib name="fwdredirects" type="boolean"> yes </attrib>
            <attrib name="reset_level" type="boolean"> no </attrib>
        </section>

post_payload

このセクションは、HTTP POST 要求に対してコンテンツを送信するために使用します。コンテンツは、URI 全体が正確に一致するか URI プレフィックスに一致する URI に送信されます。

属性

次の表に、このセクションの attrib 要素を示します。

名前

種類

値

意味

name

string

ペイロードコンテンツ文字列を指定します。この文字列は、name XML 属性に指定した URI またはプレフィックスに一致する URI に送信されます。

name 属性に URI を指定した場合は、完全な一致が要求されます。

URI プレフィックスを指定する場合は、ラベル prefix: を使用します。URI の先頭部分が一致すれば、残りの部分も一致すると見なされます。

例

<section name="post_payload">
    <attrib name="prefix:https://www.contoso.com/secure" type="string"> variable1=value1&amp;variableB=valueB </attrib>
</section>

rss

このセクションは、クロールコレクションでの RSS フィードサポートを初期化および構成します。

属性

次の表に、このセクションの attrib 要素を示します。

名前	種類	値	意味
start_uris	list-string		RSS フィードアイテムをポイントする開始 URI の一覧を指定します。
start_uri_files	list-string		RSS フィードアイテムをポイントする URI が含まれるファイルへのパスの一覧を指定します。これらのファイルの形式は、1 行に 1 つの URI が記述されたテキスト形式である必要があります。
auto_discover	boolean	yes\|no	Web クローラーが新しい RSS フィードを検出するかどうかを指定します。このオプションを設定しない場合、RSS 開始 URI セクションと RSS 開始 URI ファイルセクションで指定したフィードのみが、RSS フィードとして扱われます。既定値: no
follow_links	boolean	yes\|no	Web クローラーが RSS フィード内に見つかった Web アイテムにあるハイパーリンクを追跡することを指定します (これが Web クローラーの通常の動作です)。このオプションを無効にすると、フィードから 1 ホップのみがクロールの対象となります。その場合、フィード自体とそこから参照される Web アイテムのみがクロールされます。既定値: yes
ignore_rules	boolean	yes\|no	Web クローラーが RSS フィードから参照されるすべての Web アイテムをクロールすることを指定します。このとき、include_domains、exclude_domains、include_uris、および exclude_uris で指定した包含/除外の規則によってクロールの対象となるかどうかは考慮されません。既定値: no
index_feed	boolean	yes\|no	Web クローラーが RSS フィード自体をインデックス付けエンジンに送信するか、フィード内からハイパーリンクが設定された Web アイテムのみを送信するかを指定します。既定値: no
del_expired_links	boolean	yes\|no	Web クローラーが、max_link_age および max_link_count の設定に従って、有効期限の切れたアイテムを RSS フィードから削除するかどうかを指定します。既定値: no
max_link_age	integer	<値>	RSS フィード内に検出する Web アイテムの最大有効期間を分単位で指定します。del_expired_links 構成パラメーターが yes に設定されている場合にのみ、このオプションは適用されます。既定値: 0
max_link_count	integer	<値>	Web クローラーが 1 つの RSS フィードについて保存するハイパーリンクの最大数を指定します。Web クローラーはこの値を超えるハイパーリンクを見つけると、先入れ先出し法でハイパーリンクを破棄します。del_expired_links 構成パラメーターが yes に設定されている場合にのみ、このオプションが適用されます。既定値: 128

例

        <section name="rss">
            <!-- Attempt to discover new rss feeds, yes/no                  -->
            <attrib name="auto_discover" type="boolean"> yes </attrib>
            <attrib name="del_expired_links" type="boolean"> yes </attrib>
            <attrib name="follow_links" type="boolean"> yes </attrib>
            <attrib name="ignore_rules" type="boolean"> no </attrib>
            <attrib name="index_feed" type="boolean"> no </attrib>
            <attrib name="max_link_age" type="integer"> 0 </attrib>
            <attrib name="max_link_count" type="integer"> 128 </attrib>
            <attrib name="start_uris" type="list-string">
                <member> http://www.startsiden.no/rss.rss </member>
            </attrib>
            <!-- Start uri files (optional)                                 -->
            <attrib name="start_uri_files" type="list-string">
                <member> /usr/fast/etc/rss_seedlist.txt </member>
            </attrib>
        </section>

logins

このセクションは、HTML フォームベース認証に使用する最低 1 つの logins セクション要素を指定します。この要素は特定の Web サイトのログインに関連付けられ、その name 属性には一意のログイン名が含まれている必要があります。

属性

次の表に、このセクションの attrib 要素を示します。

名前	種類	値	意味
preload	string	<値>	ログインフォームを処理する前に取得するページの完全な URI を指定します。
scheme	string	http\|https	ログイン Web サイトの URI スキームを指定します。有効な値は、http または https です。
site	string	<値>	ログインフォームページのホスト名を指定します。
form	string	<値>	ログインフォームのパスを指定します。
action	string	GET\|POST	フォームで HTTP POST または HTTP GET を使用することを指定します。有効な値は、GET または POST です。
sites	list-string	<値>	Web クローラーがクロールプロセスを開始する前にログオンする必要がある Web サイトまたはホスト名の一覧を指定します。
ttl	integer	<秒>	再度ログインしなくてもクロールを続行できる時間を秒単位で指定します。
html_form	string	<値>	ログインフォームが含まれる HTML ページの URI を指定します。
autofill	boolean	yes\|no	Web クローラーが HTML ログインフォームに情報を自動的に設定するかどうかを指定します。この属性を yes に設定した場合は、html_form 構成パラメーターを指定する必要があります。
relogin_if_failed	boolean	yes\|no	Web クローラーが、Web サイトへのログインに失敗した場合に ttl 秒後に再ログインを試みるかどうかを指定します。

備考

logins セクションの代わりに Login 要素を使用することもできます。

例

        <section name="logins">
            <section name="mytestlogin">
                <!-- Instructs the crawler to "preload" potential cookies by -->
                <!-- fetching this page and register any cookies before      -->
                <!-- proceeding with login                                   -->
                <attrib name="preload" type="string">http://preload.contoso.com/</attrib>
                <attrib name="scheme" type="string"> https </attrib>
                <attrib name="site" type="string"> login.contoso.com </attrib>
                <attrib name="form" type="string"> /path/to/some/form.cgi </attrib> 
                <attrib name="action" type="string">POST</attrib> 
                <section name="parameters"> 
                    <attrib name="user" type="string"> username </attrib>
                    <attrib name="password" type="string"> password </attrib>
                    <attrib name="target" type="string"> sometarget </attrib>
                </section> 
                <!-- Host names of sites requiring this login to crawl -->
                <attrib name="sites" type="list-string"> 
                    <member> site1.contoso.com </member> 
                    <member> site2.contoso.com </member> 
                </attrib> 
                <!-- Time to live for login cookie. Will re-log in when expires -->
                <attrib name="ttl" type="integer"> 7200 </attrib> 
            </section>
        </section>

parameters

このセクションは、HTML フォームに使用する認証用の資格情報を設定します。資格情報は、logins セクションまたは Login 要素で指定する必要があります。通常、資格情報のパラメーターは HTML フォームによって異なります。

autofill 構成パラメーターを有効にした場合、ブラウザー内に表示される変数のみを指定します。たとえば、ユーザー名やパスワード、またはそれらに相当するものです。この場合、Web クローラーは HTML ページを取得し、フォームを送信するために必要な "非表示" の変数を読み取る必要があります。この構成パラメーターで指定した変数の値は、フォームに保存された値に優先します。

属性

次の表に、このセクションの attrib 要素を示します。

名前	種類	値	意味
name name XML 属性は、設定する HTML フォームの変数名を指定します。	string		HTML フォーム変数の値を指定します。

name

name XML 属性は、設定する HTML フォームの変数名を指定します。

string

HTML フォーム変数の値を指定します。

例

<section name="parameters"> 
                <attrib name="user" type="string"> username </attrib>
                <attrib name="password" type="string"> password </attrib>
                <attrib name="target" type="string"> sometarget </attrib>
            </section>

subdomains

このセクションは、クロールサブコレクションの構成を指定します。subdomains セクションには最低 1 つの section XML 要素を設定し、各要素が 1 つのクロールサブコレクションを指定します。クロールサブコレクションセクションは、name 属性で設定される一意の名前を含む必要があります。

備考

subdomains セクションの代わりに SubDomain 要素を使用することもできます。

クロールサブコレクションの範囲を制限するために包含/除外の規則を指定する必要があります。これらの規則は、include_domains、exclude_domains、include_uris、および exclude_uris です。

attrib で指定した構成パラメーターのサブセットのみがサブセクションで使用できます。これらの構成パラメーターは、次のとおりです。

-
accept_compression

-
allowed_schemes

-
crawlmode

-
cut_off

-
delay

-
ftp_passive

-
headers

-
max_doc

-
proxy

-
refresh

-
refresh_mode

-
start_uris

-
start_uri_files

-
use_http_1_1

-
use_javascript

-
use_sitemaps

クロールサブコレクションの refresh 構成パラメーターは、メインクロールコレクションよりも低い更新レートに設定されている必要があります。use_javascript、use_sitemaps、および max_doc 構成パラメーターは、クロールサブコレクションを指定するために include_uris 設定または exclude_uris 設定が使用される場合は、使用できません。

また、クロールサブコレクションでは rss セクションおよび variable_delay セクションを使用できます。

例

<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
   <DomainSpecification name="subcollection_example">
      <section name="subdomains">
         <section name="subdomain_1">
            <section name="include_uris">
               <attrib name="prefix" type="list-string">
                  <member> https://www.contoso.com/index </member>
               </attrib>
            </section>
            <attrib name="refresh" type="real"> 60.0 </attrib>
            <attrib name="delay" type="real"> 10.0 </attrib>
            <attrib name="start_uris" type="list-string">
               <member> https://www.contoso.com/ </member>
            </attrib>
         </section>
      </section>
</DomainSpecification>
</CrawlerConfig>

SubDomain

この要素は、クロールサブコレクションの構成を指定します。クロールサブコレクションは、クロールコレクションメンバーを区別するために定義するオブジェクトです。クロールコレクションには、複数の SubDomain 要素を格納できます。

SubDomain 要素の構成パラメーターは、subdomains で指定します。

SubDomain 要素には、attrib 要素と section 要素が含まれます。

属性

属性	値	意味
name	<名前>	クロールサブコレクションの名前を指定する文字列です。

例

<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
   <DomainSpecification name="subcollection_example">
      <SubDomain name="subdomain_1">
         <section name="include_uris">
            <attrib name="prefix" type="list-string">
               <member> https://www.contoso.com/index </member>
            </attrib>
         </section>
         <attrib name="refresh" type="real"> 60.0 </attrib>
         <attrib name="delay" type="real"> 10.0 </attrib>
         <attrib name="start_uris" type="list-string">
            <member> https://www.contoso.com/ </member>
         </attrib>
      </SubDomain>
   </DomainSpecification>
</CrawlerConfig>

この要素は、HTML フォームベース認証に使用されます。Login 要素の構成パラメーターは、logins で指定します。クロールコレクションには複数の Login 要素を格納できます。Login 要素には、attrib 要素と section 要素を格納できます。

属性

属性	値	意味
name	<値>	ログインの固有名を指定する文字列です。

例

<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
   <DomainSpecification name="login_example">
      <Login name="mytestlogin">
         <attrib name="preload" type="string">http://preload.contoso.com/
         </attrib>
         <attrib name="scheme" type="string"> https </attrib>
         <attrib name="site" type="string"> login.contoso.com  </attrib>
         <attrib name="form" type="string"> /path/to/some/form.cgi </attrib>
         <attrib name="action" type="string">POST</attrib>
         <section name="parameters">
            <attrib name="user" type="string"> username </attrib>
            <attrib name="password" type="string"> password </attrib>
         </section>
         <attrib name="sites" type="list-string">
            <member> site1.contoso.com  </member>
            <member> site2.contoso.com  </member>
         </attrib>
         <attrib name="ttl" type="integer"> 7200 </attrib>
         <attrib name="html_form" type="string">
            http://login.contoso.com/login.html 
         </attrib>
         <attrib name="autofill" type="boolean"> yes </attrib>
         <attrib name="relogin_if_failed" type="boolean"> yes </attrib>
      </Login>
   </DomainSpecification>
</CrawlerConfig>

Node

この要素は、クロールコレクションまたはクロールサブコレクションの構成パラメーターを特定のノードスケジューラについて上書きするために使用します。Node 要素の構成パラメーターは、SubDomain、Login、attrib、および section で指定します。

Node 要素には、attrib 要素と section 要素が格納されます。

属性

属性	値	意味
name	<値>	これらの構成パラメーターが適用されるノードスケジューラを指定する文字列です。

例

以下の例では、マルチノード展開を使用しています。ノードスケジューラの 1 つは、"crawler_node1" という名前です。ここでは "crawler_node1" に他のノードとは異なる遅延構成パラメーターを構成します。

<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
   <DomainSpecification name="node_example ">
      <attrib name="delay" type="real"> 60.0 </attrib>
      <Node name="crawler_node1">
         <attrib name="delay" type="real"> 90.0 </attrib>
      </Node>
   </DomainSpecification>
</CrawlerConfig>

XML スキーマ

Web クローラー構成ファイルは、以下の XML スキーマに従って書式が設定されている必要があります。

<?xml version="1.0" encoding="UTF-8" ?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema">

  <xs:element name="CrawlerConfig" type="CT_CrawlerConfig"/>
  
  <xs:complexType name="CT_CrawlerConfig >
    <xs:choice minOccurs="0" maxOccurs="unbounded">
      <xs:element name="DomainSpecification" type="CT_DomainSpecification"/>
    </xs:choice>
  </xs:complexType>

  <xs:complexType name="CT_DomainSpecification">
    <xs:choice minOccurs="0" maxOccurs="unbounded">
      <xs:element name="attrib" type="CT_attrib" maxOccurs="unbounded"/>
      <xs:element name="section" type="CT_section"/>
      <xs:element name="SubDomain" type="CT_SubDomain"/>
      <xs:element name="Login" type="CT_Login"/>
      <xs:element name="Node" type="CT_Node"/>
    </xs:choice>
    <xs:attribute name="name" type="xs:string" use="required"/>
  </xs:complexType>

  <xs:complexType name="CT_attrib" mixed="true">
    <xs:sequence minOccurs="0" maxOccurs="unbounded">
      <xs:element name="member" type="ST_member"/>
    </xs:sequence>
    <xs:attribute name="name" type="xs:string" use="required"/>
    <xs:attribute name="type" type="ST_type" use="required"/>
  </xs:complexType>

  <xs:complexType name="CT_section">
    <xs:choice minOccurs="0" maxOccurs="unbounded">
        <xs:element name="attrib" type="CT_attrib"/>
        <xs:element name="section" type="CT_section"/>
    </xs:choice>
    <xs:attribute name="name" type="xs:string" use="required"/>
  </xs:complexType>

  <xs:complexType name="CT_SubDomain">
    <xs:choice minOccurs="0" maxOccurs="unbounded">
      <xs:element name="attrib" type="CT_attrib"/>
      <xs:element name="section" type="CT_section"/>
    </xs:choice>
    <xs:attribute name="name" type="xs:string" use="required"/>
  </xs:complexType>

  <xs:complexType name="CT_Login">
    <xs:choice minOccurs="0" maxOccurs="unbounded">
      <xs:element name="attrib" type="CT_attrib"/>
      <xs:element name="section" type="CT_section"/>
    </xs:choice>
    <xs:attribute name="name" type="xs:string" use="required"/>
  </xs:complexType>

  <xs:complexType name="CT_Node">
    <xs:choice minOccurs="0" maxOccurs="unbounded">
      <xs:element name="attrib" type="CT_attrib"/>
      <xs:element name="section" type="CT_section"/>
    </xs:choice>
    <xs:attribute name="name" type="xs:string" use="required"/>
  </xs:complexType>
  
  <xs:simpleType name="ST_type">
    <xs:restriction base="xs:string">
      <xs:enumeration value="boolean"/>
      <xs:enumeration value="string"/>
      <xs:enumeration value="integer"/>
      <xs:enumeration value="list-string"/>
      <xs:enumeration value="real"/>
    </xs:restriction>
  </xs:simpleType>

  <xs:simpleType name="ST_member">
    <xs:restriction base="xs:string"></xs:restriction>
  </xs:simpleType>
</xs:schema>

簡易な構成

次の例では、簡易な Web クローラー構成を設定します。ここでは、contoso.com Web サイトのみがクロールの対象となります。

<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
    <DomainSpecification name="default_example">
        <section name="crawlmode">
            <attrib name="fwdlinks" type="boolean"> no </attrib>
            <attrib name="fwdredirects" type="boolean"> no </attrib>
            <attrib name="mode" type="string"> FULL </attrib>
            <attrib name="reset_level" type="boolean"> no </attrib>
        </section>
        <attrib name="start_uris" type="list-string">
            <member> https://www.contoso.com </member>
        </attrib>
    </DomainSpecification>
</CrawlerConfig>

一般的な構成

次の例では、一般的な構成パラメーターを含むクローラー構成を設定します。

<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
    <DomainSpecification name="default_example">
        <attrib name="accept_compression" type="boolean"> yes </attrib>
        <attrib name="allowed_schemes" type="list-string">
            <member> http </member>
            <member> https </member>
        </attrib>
        <attrib name="allowed_types" type="list-string">
            <member> text/html </member>
            <member> text/plain </member>
        </attrib>
        <section name="cachesize">
            <attrib name="aliases" type="integer"> 1048576 </attrib>
            <attrib name="pp" type="integer"> 1048576 </attrib>
            <attrib name="pp_pending" type="integer"> 131072 </attrib>
            <attrib name="routetab" type="integer"> 1048576 </attrib>
        </section>
        <attrib name="check_meta_robots" type="boolean"> yes </attrib>
        <attrib name="cookie_timeout" type="integer"> 900 </attrib>
        <section name="crawlmode">
            <attrib name="fwdlinks" type="boolean"> yes </attrib>
            <attrib name="fwdredirects" type="boolean"> yes </attrib>
            <attrib name="mode" type="string"> FULL </attrib>
            <attrib name="reset_level" type="boolean"> no </attrib>
        </section>
        <attrib name="csum_cut_off" type="integer"> 0 </attrib>
        <attrib name="cut_off" type="integer"> 5000000 </attrib>
        <attrib name="dbswitch" type="integer"> 5 </attrib>
        <attrib name="dbswitch_delete" type="boolean"> no </attrib>
        <attrib name="delay" type="real"> 60.0 </attrib>
        <attrib name="domain_clustering" type="boolean"> no </attrib>
        <attrib name="enforce_delay_per_ip" type="boolean"> yes </attrib>
        <attrib name="exclude_exts" type="list-string">
            <member> .jpg </member>
            <member> .jpeg </member>
            <member> .ico </member>
            <member> .tif </member>
            <member> .png </member>
            <member> .bmp </member>
            <member> .gif </member>
            <member> .wmf </member>
            <member> .avi </member>
            <member> .mpg </member>
            <member> .wmv </member>
            <member> .wma </member>
            <member> .ram </member>
            <member> .asx </member>
            <member> .asf </member>
            <member> .mp3 </member>
            <member> .wav </member>
            <member> .ogg </member>
            <member> .ra </member>
            <member> .aac </member>
            <member> .m4a </member>
            <member> .zip </member>
            <member> .gz </member>
            <member> .vmarc </member>
            <member> .z </member>
            <member> .tar </member>
            <member> .iso </member>
            <member> .img </member>
            <member> .rpm </member>
            <member> .cab </member>
            <member> .rar </member>
            <member> .ace </member>
            <member> .hqx </member>
            <member> .swf </member>
            <member> .exe </member>
            <member> .java </member>
            <member> .jar </member>
            <member> .prz </member>
            <member> .wrl </member>
            <member> .midr </member>
            <member> .css </member>
            <member> .ps </member>
            <member> .ttf </member>
            <member> .mso </member>
            <member> .dvi </member>
        </attrib>
        <attrib name="extract_links_from_dupes" type="boolean"> no </attrib>
        <attrib name="fetch_timeout" type="integer"> 300 </attrib>
        <attrib name="force_mimetype_detection" type="boolean"> no </attrib>
        <section name="ftp_errors">
            <attrib name="4xx" type="string"> DELETE:3 </attrib>
            <attrib name="550" type="string"> DELETE:0 </attrib>
            <attrib name="5xx" type="string"> DELETE:3 </attrib>
            <attrib name="int" type="string"> KEEP:0 </attrib>
            <attrib name="net" type="string"> DELETE:3, RETRY:1 </attrib>
            <attrib name="ttl" type="string"> DELETE:3 </attrib>
        </section>
        <attrib name="headers" type="list-string">
            <member> User-Agent: FAST Enterprise Crawler 6 </member>
        </attrib>
        <attrib name="html_redir_is_redir" type="boolean"> yes </attrib>
        <attrib name="html_redir_thresh" type="integer"> 3 </attrib>
        <section name="http_errors">
            <attrib name="4xx" type="string"> DELETE:0 </attrib>
            <attrib name="5xx" type="string"> DELETE:10 </attrib>
            <attrib name="int" type="string"> KEEP:0 </attrib>
            <attrib name="net" type="string"> DELETE:3, RETRY:1 </attrib>
            <attrib name="ttl" type="string"> DELETE:3 </attrib>
        </section>
        <attrib name="if_modified_since" type="boolean"> yes </attrib>
        <attrib name="javascript_keep_html" type="boolean"> no </attrib>
        <section name="limits">
            <attrib name="disk_free" type="integer"> 0 </attrib>
            <attrib name="disk_free_slack" type="integer"> 3 </attrib>
            <attrib name="max_doc" type="integer"> 0 </attrib>
            <attrib name="max_doc_slack" type="integer"> 1000 </attrib>
        </section>
        <section name="link_extraction">
            <attrib name="a" type="boolean"> yes </attrib>
            <attrib name="action" type="boolean"> yes </attrib>
            <attrib name="area" type="boolean"> yes </attrib>
            <attrib name="card" type="boolean"> yes </attrib>
            <attrib name="comment" type="boolean"> no </attrib>
            <attrib name="embed" type="boolean"> no </attrib>
            <attrib name="frame" type="boolean"> yes </attrib>
            <attrib name="go" type="boolean"> yes </attrib>
            <attrib name="img" type="boolean"> no </attrib>
            <attrib name="layer" type="boolean"> yes </attrib>
            <attrib name="link" type="boolean"> yes </attrib>
            <attrib name="meta" type="boolean"> yes </attrib>
            <attrib name="meta_refresh" type="boolean"> yes </attrib>
        </section>
        <section name="log">
            <attrib name="dsfeed" type="string"> text </attrib>
            <attrib name="fetch" type="string"> text </attrib>
            <attrib name="postprocess" type="string"> text </attrib>
            <attrib name="site" type="string"> text </attrib>
        </section>
        <attrib name="login_failed_ignore" type="boolean"> no </attrib>
        <attrib name="login_timeout" type="integer"> 300 </attrib>
        <attrib name="max_backoff_counter" type="integer"> 50 </attrib>
        <attrib name="max_backoff_delay" type="integer"> 600 </attrib>
        <attrib name="max_doc" type="integer"> 1000000 </attrib>
        <attrib name="max_pending" type="integer"> 2 </attrib>
        <attrib name="max_redirects" type="integer"> 10 </attrib>
        <attrib name="max_reflinks" type="integer"> 0 </attrib>
        <attrib name="max_sites" type="integer"> 128 </attrib>
        <attrib name="max_uri_recursion" type="integer"> 5 </attrib>
        <attrib name="mufilter" type="integer"> 0 </attrib>
        <attrib name="near_duplicate_detection" type="boolean"> no </attrib>
        <attrib name="obey_robots_delay" type="boolean"> no </attrib>
        <section name="pp">
            <attrib name="ds_max_ecl" type="integer"> 10 </attrib>
            <attrib name="ds_meta_info" type="list-string">
                <member> duplicates </member>
                <member> redirects </member>
                <member> mirrors </member>
                <member> metadata </member>
            </attrib>
            <attrib name="ds_paused" type="boolean"> no </attrib>
            <attrib name="ds_send_links" type="boolean"> no </attrib>
            <attrib name="max_dupes" type="integer"> 10 </attrib>
            <attrib name="stripe" type="integer"> 1 </attrib>
        </section>
        <section name="ppdup">
            <attrib name="compact" type="boolean"> yes </attrib>
        </section>
        <attrib name="proxy_max_pending" type="integer"> 2147483647 </attrib>
        <attrib name="refresh" type="real"> 1440.0 </attrib>
        <attrib name="refresh_mode" type="string"> scratch </attrib>
        <attrib name="refresh_when_idle" type="boolean"> no </attrib>
        <attrib name="robots" type="boolean"> yes </attrib>
        <attrib name="robots_auth_ignore" type="boolean"> yes </attrib>
        <attrib name="robots_timeout" type="integer"> 300 </attrib>
        <attrib name="robots_tout_ignore" type="boolean"> no </attrib>
        <attrib name="robots_ttl" type="integer"> 86400 </attrib>
        <section name="rss">
            <attrib name="auto_discover" type="boolean"> no </attrib>
            <attrib name="del_expired_links" type="boolean"> no </attrib>
            <attrib name="follow_links" type="boolean"> no </attrib>
            <attrib name="ignore_rules" type="boolean"> no </attrib>
            <attrib name="index_feed" type="boolean"> no </attrib>
            <attrib name="max_link_age" type="integer"> 0 </attrib>
            <attrib name="max_link_count" type="integer"> 128 </attrib>
        </section>
        <attrib name="smfilter" type="integer"> 0 </attrib>
        <attrib name="sort_query_params" type="boolean"> no </attrib>
        <attrib name="start_uris" type="list-string">
            <member> https://www.contoso.com </member>
        </attrib>
        <section name="storage">
            <attrib name="clusters" type="integer"> 8 </attrib>
            <attrib name="compress" type="boolean"> yes </attrib>
            <attrib name="compress_exclude_mime" type="list-string">
                <member> application/x-shockwave-flash </member>
            </attrib>
            <attrib name="datastore" type="string"> bstore </attrib>
            <attrib name="defrag_threshold" type="integer"> 85 </attrib>
            <attrib name="remove_docs" type="boolean"> no </attrib>
            <attrib name="store_dupes" type="boolean"> no </attrib>
            <attrib name="store_http_header" type="boolean"> yes </attrib>
        </section>
        <attrib name="truncate" type="boolean"> no </attrib>
        <attrib name="umlogs" type="boolean"> yes </attrib>
        <attrib name="uri_search_mime" type="list-string">
            <member> text/html </member>
            <member> text/vnd.wap.wml </member>
            <member> text/wml </member>
            <member> text/x-wap.wml </member>
            <member> x-application/wml </member>
            <member> text/x-hdml </member>
        </attrib>
        <attrib name="use_cookies" type="boolean"> no </attrib>
        <attrib name="use_http_1_1" type="boolean"> yes </attrib>
        <attrib name="use_javascript" type="boolean"> no </attrib>
        <attrib name="use_meta_csum" type="boolean"> no </attrib>
        <attrib name="use_sitemaps" type="boolean"> no </attrib>
        <section name="workqueue_priority">
            <attrib name="default" type="integer"> 1 </attrib>
            <attrib name="levels" type="integer"> 1 </attrib>
            <attrib name="pop_scheme" type="string"> default </attrib>
            <attrib name="start_uri_pri" type="integer"> 1 </attrib>
        </section>
   </DomainSpecification>
</CrawlerConfig>

Web クローラー XML 構成リファレンス

主な用語

新しいクロール構成の作成

crawlercollectiondefaults.xml のカスタマイズ

Web クローラー XML 構成クイック リファレンス

Web クローラー XML 構成ファイルのファイル形式

CrawlerConfig

DomainSpecification

例

attrib

属性

例

member

例

section

属性

例

include_domains

属性

例

exclude_domains

属性

例

include_uris

属性

例

exclude_uris

属性

例

log

属性

例

storage

属性

例

pp

属性

例

ppdup

属性

例

feeding

属性

例

cachesize

属性

例

http_errors

属性

http_errors セクションの既定値

例

ftp_errors

属性

ftp_errors セクションの既定値

例

workqueue_priority

属性

優先度レベル セクション

例

link_extraction

属性

例

limits

属性

例

focused

属性

例

passwd

属性

例

ftp_acct

属性

例

exclude_headers

属性

例

variable_delay

属性

例

Web クローラー XML 構成クイックリファレンス

優先度レベルセクション