Web クローラー XML 構成リファレンス
適用先: FAST Search Server 2010
トピックの最終更新日: 2016-11-29
FAST Search Web クローラーは、Web サイトから情報を自動的に取得し、その情報を Microsoft FAST Search Server 2010 for SharePoint インデックスに渡します。FAST Search Web クローラーを構成する場合は、この記事で説明する書式で XML 構成ファイルを作成し、crawleradmin.exe コマンドライン ツールを使用してそのファイルを Web クローラーに送信する必要があります。
この記事で指定する書式は、crawlercollectiondefaults.xml ファイルでも使用されます。このファイルは、新しいクロール コレクションに設定されるすべての既定のオプションと値を格納します。このファイルを変更すると、すべての新しいコレクションの既定値が変更されます。既定値は、特定のクロール コレクション用に作成した XML 構成で指定されないオプションに適用されます。
これらの構成ファイルは、XML スキーマに準拠した書式で記述する必要があります。この記事では、構成ファイルの簡易な例と一般的な例を示します。構成ファイルの要素とセクションの概要については、「Web クローラー XML 構成クイック リファレンス」の表を参照してください。
主な用語
"Web サイト" は、SharePoint サイトではなく、www.contoso.com などの Web サイトにあるコンテンツを指します。
"ホスト名" は、http://contoso/ の "contoso" 部分または http://download.contoso.com/ の "download.contoso.com" 部分を指します。完全修飾名でなくてもかまいません。この記事では、"Web サイト" を実際のサイトとコンテンツを指す言葉として使用し、"ホスト名" を特定の Web サーバーに到達するために使用されるネットワーク名として使用することで、両者を使い分けます。1 つのサイトに複数のホスト名がある場合があります。
新しいクロール構成の作成
注意
構成ファイルを変更する場合は、次の最小要件を満たしていることを確認します。FAST Search Server 2010 for SharePoint がインストールされているローカル コンピューターの FASTSearchAdministrators メンバーである必要があります。
この XML 構成書式を使用して新しいクロール構成を作成するには、次の手順を実行します。
事前に用意されている 3 種類のクロール構成テンプレートの 1 つを <FASTSearchFolder>\etc (<FASTSearchFolder> は FAST Search Server 2010 for SharePoint をインストールした C:\FASTSearch などのフォルダーのパス) から新しいファイル (MyCollection.xml など) にコピーし、新しいファイルを作成します。このファイルをテキスト エディターで編集して、必要な要素と設定を追加します。
注意
テキスト エディター (メモ帳など) を使用して、crawlercollectiondefaults.xml を変更します。このとき、汎用の XML エディターは使用しないでください。
crawleradmin.exe –f MyCollection.xml を実行してクロール構成をクローラーに追加します。このコマンドの MyCollection.xml の部分は、手順 1. で作成したファイルの名前で置き換えます。
詳細については、「crawleradmin.exe リファレンス」を参照してください。
crawlercollectiondefaults.xml のカスタマイズ
警告
このファイルに加えた変更は、次の操作を行うと上書きされ、失われます。
-
Set-FASTSearchConfiguration Windows PowerShell コマンドレットを実行する。
-
FAST Search Server 2010 for SharePoint の更新プログラムまたは Service Pack をインストールする。
Set-FASTSearchConfiguration Windows PowerShell コマンドレットを実行した後や FAST Search Server 2010 for SharePoint の更新プログラムまたは Service Pack をインストールした後で、変更を再度適用します。
注意
構成ファイルを変更する場合は、次の最小要件を満たしていることを確認します。FAST Search Server 2010 for SharePoint がインストールされているローカル コンピューターの FASTSearchAdministrators メンバーである必要があります。
このファイルを編集するには
テキスト エディターを使用して crawlercollectiondefaults.xml を編集し、必要な要素と設定を追加します。既存のファイルが <FASTSearchFolder>\etc\ 内に用意されているので、これを編集の土台にすることができます。
注意
テキスト エディター (メモ帳など) を使用して、crawlercollectiondefaults.xml を変更します。このとき、汎用の XML エディターは使用しないでください。
nctrl.exe restart crawler を実行して、手順 1. で設定したオプションで FAST Search Web クローラーを再起動します。
Web クローラー XML 構成クイック リファレンス
以下の表に、Web クローラー XML 構成書式の要素の一覧を示します。要素は任意の順序で記述できますが、次の例外があります。DomainSpecification 要素は、CrawlerConfig 要素の内部に記述します。プライマリ要素の SubDomain、Login、および Node は DomainSpecification 要素の内部に記述します。section サブ要素と attrib サブ要素は、プライマリ要素の内部に任意の順序で記述できます。member サブ要素は、attrib 要素の内部のみに記述できます。
<CrawlerConfig>
<DomainSpecification>
<SubDomain/>
<Login/>
<Node/>
<attrib>
<member/>
</attrib>
<section/>
</DomainSpecifcation>
</CrawlerConfig>
通常は、attrib サブ要素と section サブ要素の両方を SubDomain、Login、および section 要素に記述します。Node 要素には、これらのすべての要素とサブ要素を含めることができます。
要素 | 説明 |
---|---|
CrawlerConfig |
このトップレベルの要素は、この後に記述される XML が Web クローラー構成オブジェクトであることを指定します。 |
DomainSpecification |
この要素は、クロール コレクションを指定します。 |
SubDomain |
この要素は、クロール サブコレクションの構成を指定します。 |
Login |
この要素は、HTML フォームベース認証に使用されます。 |
Node |
この要素の値は、特定のノード スケジューラに関するクロール コレクションまたはクロール サブコレクションの構成パラメーターに優先して適用されます。 |
attrib |
このサブ要素は、その値、または一連のメンバー要素によって構成を指定します。 |
member |
このサブ要素は、構成を一覧形式で指定します。 |
section |
このサブ要素は、複数の設定が種類別に分けられたセクションを指定します。以下の表に、使用可能なすべてのセクションの一覧を示します。 |
この表では、section オプションを Web クローラー XML 構成ファイルの書式で定義します。セクションを CrawlerConfig 要素の内部に含めることはできません。
セクション名 | 説明 |
---|---|
include_domains |
クロール コレクションに含める URI を指定する一連のホスト名フィルターを定義します。 |
exclude_domains |
クロール コレクションから除外する URI を指定する一連のホスト名フィルターを定義します。 |
include_uris |
クロール コレクションに含める URI を指定する一連の URI 規則を定義します。 |
exclude_uris |
クロール コレクションから除外する URI を指定する一連の URI 規則を定義します。 |
log |
Web クローラー プロセスのログ動作を指定します。 |
storage |
Web クローラーによるコンテンツとメタデータの保管方法を指定します。 |
pp |
ノード スケジューラの後処理動作を指定します。 |
ppdup |
重複サーバー設定を指定します。 |
feeding |
クロール コレクションを表す情報をインデックス作成エンジンに送信する方法を指定する最低 1 つの section 要素から構成されます。 |
cachesize |
Web クローラー プロセスのキャッシュ サイズを構成します。 |
http_errors |
HTTP/HTTPS エラーの応答コードと条件を処理する方法を指定します。 |
ftp_errors |
FTP URI の応答コードとエラー条件を処理する方法を指定します。 |
workqueue_priority |
クロール キューの優先度レベルを指定し、キューへの URI の挿入やキューからの URI の取り出しに適用される規則とモードを指定します。 |
link_extraction |
抽出するハイパーリンクの種類を指定します。 |
limits |
クロール コレクションのフェール セーフ制限を指定します。 |
focused |
集中スケジュールを構成します。 |
passwd |
認証が必要とされる Web サイトの資格情報を構成します。 |
ftp_acct |
FTP URI のクロールに使用する FTP アカウントを指定します。 |
exclude_headers |
HTTP ヘッダー フィールドの内容に基づいてクロールから除外するアイテムを指定します。 |
variable_delay |
通常とは異なる遅延要求レートを使用する時間帯を指定します。 |
adaptive |
アダプティブ クロールオプションを指定します。 |
weights |
アダプティブ クロールの実行時に各 URI にスコアを与えます。weights セクションは、adaptive セクション内に指定する必要があります。 |
sitemap_weights |
サイトマップの <URL> エントリには changefreq 要素を指定できます。この要素は、URI を更新できる頻度を指定します。文字列の値が数値のウェイトに変換され、アダプティブ クロールに使用されます。sitemap_weights セクションは、adaptive セクション内に指定する必要があります。 |
site_clusters |
クローラーがホスト名をノード スケジューラにルーティングする通常の動作を上書きする構成パラメーターを指定します。 |
crawlmode |
クロール コレクションの範囲を制限します。 |
post_payload |
コンテンツを HTTP POST 要求に送信します。 |
rss |
クロール コレクションの RSS フィード サポートを初期化し、構成します。 |
logins |
このセクションは、Login 要素の特殊なケースです。複数の Login 要素を結合したのが、この logins セクションです。HTML フォームベース認証を定義するには、1 つの logins セクションまたは 1 つ以上の Login 要素が必要です。不完全な構成が適用されないように、ログインを削除するには logins を使用する必要があります。crawleradmin を使用してクローラーから構成情報をエクスポートすると、Login 要素が取得されることに注意してください。 |
parameters |
HTML フォームに使用する認証資格情報を設定します。このセクションは、Login 要素または logins セクションに指定する必要があります。 |
subdomains |
クロール サブコレクションの構成を指定します。このセクションは、SubDomain 要素の特殊なケースです。複数の SubDomain 要素を結合したのが、この subdomains セクションです。不完全な構成が適用されないように、サブドメインを削除するには subdomains を使用する必要があります。crawleradmin を使用してクローラーから構成情報をエクスポートすると、SubDomain 要素が取得されることに注意してください。 |
Web クローラー XML 構成ファイルのファイル形式
構成ファイルに記述する XML 要素は、<
で始まり、/>
で終わります。
要素の基本的な書式を以下に示します。
<attrib name="値" type="値"> 値**</attrib>**
次に例を示します。
<attrib name="accept_compression" type="boolean"> yes </attrib>
要素名、セクション名、属性名、および属性値では、大文字と小文字が区別されます。属性の名前と種類は、引用符 (" ") で囲む必要があります。要素は、複数の行にわたって定義できます。スペース、復帰、改行、およびタブの文字は、要素の定義に含まれていても無視されます。
次に例を示します。
<attrib
name=" accept_compression "
type="boolean"
> yes </attrib
>
ヒント
パラメーターの定義が長い場合は、値を別々の行に分けて記述し、インデントを使用して読みやすくしてください。
<CrawlerConfig>
要素は特殊なケースであり、必ず指定する必要があります。他のすべての要素は <CrawlerConfig>
要素内に記述します。この要素は </CrawlerConfig>.
で閉じられます。
XML ファイルの基本構造を次の例に示します。
<?xml version="1.0"?>
<CrawlerConfig>
<DomainSpecification>
...
</DomainSpecification>
</CrawlerConfig>
コメントは、<!--
と -->
で囲んで任意の場所に追加できます。
CrawlerConfig
このトップレベルの要素は、この後に記述する XML が Web クローラー構成オブジェクトであることを示します。Web クローラー構成ファイルは、CrawlerConfig XML 要素を 1 つのみ格納できます。
DomainSpecification
この要素は、クロール コレクションを指定します。
例
<CrawlerConfig>
<DomainSpecification name="sp">
...
</DomainSpecification>
</CrawlerConfig>
"sp"
は、実際のクロール コレクション名で置き換えてください。
attrib
この要素は、構成オプションを指定します。単一の値を指定するか、member 要素を使用して複数の値を指定できます。
属性
名前 | 種類 | 値 | 意味 |
---|---|---|---|
info |
string |
クロール コレクションについて説明するテキストです。 |
|
fetch_timeout |
integer |
<秒> |
Web アイテムの最大ダウンロード時間を秒単位で指定します。Web サーバーの動作が遅く、ダウンロードする Web アイテムが大きい場合は、この値を増やします。 既定値: 300 |
allowed_types |
list-string |
Web アイテムの有効な MIME タイプを指定します。 Web クローラー プロセスは、他の MIME タイプを破棄します。この構成パラメーターでは、ワイルドカードを使用してフィールド全体を表すことができます。ワイルドカード文字は、アスタリスク記号です。たとえば、"text/*" または "*/*" と指定できますが、"*/html" または "application/ms*" といった指定はできません。 既定値:
|
|
force_mimetype_detection |
boolean |
yes|no |
アイテムの検出に独自の MIME タイプを使用する Web クローラー プロセスを指定します。ほとんどの場合、Web アイテムがダウンロードされるときにその MIME タイプが Web サーバーから HTTP ヘッダーの一部として渡されます。このオプションを有効にすると、Web サーバーから渡された MIME タイプとクローラーによって検出された MIME タイプのうち、より正確と見なされるほうが Web アイテムにタグ付けされます。 既定値: no |
allowed_schemes |
list-string |
HTTP HTTPS FTP |
Web クローラーが処理する URI スキームを指定します。 既定値: HTTP |
ftp_passive |
boolean |
yes|no |
Web クローラーがパッシブ FTP モードを使用することを指定します。 既定値: yes |
domain_clustering |
boolean |
yes|no |
ホスト名を同じドメインから同じサイト マネージャー プロセスにルーティングするかどうかを指定します。このオプションは、Cookie などの情報を共有する必要があるホスト名を扱う場合に便利です。通常は、このような情報はサイト マネージャー プロセス間でやり取りされません。複数ノード構成でこのオプションを有効にすると、同じドメイン ( www.contoso.com と forums.contoso.com など) にあるホスト名も同じノード スケジューラにルーティングされます。 単一ノードでの既定値: no 複数ノードでの既定値: yes |
max_inter_docs |
integer |
<正の整数> または値なし |
Web サイトのインターリーブを実行する前にクロールするアイテムの最大数を指定します。既定で、クローラーは Web サイトが空になるまでクロールします。つまり、Web サイトごとの Web アイテムの最大数に達するまでクロールします。ただし、Web アイテムの "バッチ" を Web サイトから一度にクロールして、Web サイト間でインターリーブを行うようにクローラーを構成することもできます。この属性は、クローラーがインターリーブを行って他のサーバーのクロールを開始する前に、サーバーから連続してクロールする Web アイテムの数を指定します。クローラーは、リソースが解放された場合に前のサーバーのクロールを再開します。 既定値: 値なし (無効) |
max_redirects |
integer |
<値> |
URI から抽出する HTTP リダイレクトの最大数を指定します。 既定値: 10 |
diffcheck |
boolean |
yes|no |
Web クローラーが重複データの検出を実行することを指定します。重複データの検出は、2 つ以上の Web アイテムに同じコンテンツが含まれるかどうかをチェックして行われます。 既定値: yes |
near_duplicate_detection |
boolean |
yes|no |
Web クローラーが厳密ではない重複データ検出アルゴリズムを使用することを指定します。単語の並びに固有のパターンがあるかどうかで、データに重複があるアイテムを検出します。 既定値: no |
max_uri_recursion |
integer |
<値> |
この属性は、URI にパターンの繰り返しを探すために使用します。このオプションで指定した回数のパターンが現れると、その URI は破棄されます。値 0 を指定すると、このチェックは行われません。 たとえば、https://www.contoso.com/widget のリンク先が https://www.contoso.com/widget/widget である場合、1 要素の繰り返しと見なされます。 既定値: 5 |
ftp_searchlinks |
boolean |
yes|no |
Web クローラーが、FTP サーバーからダウンロードしたアイテム内にハイパーリンクを検索することを指定します。 既定値: yes |
use_javascript |
boolean |
yes|no |
JavaScript サポートを Web クローラーで有効にするかどうかを指定します。有効にすると、Web クローラーは、外部 JavaScript をダウンロードしてから解析および実行し、リンクを抽出します。 注意 JavaScript の処理にはリソースが集中的に消費されるので、大規模なクロールではこのオプションを有効にしないでください。 注意 JavaScript の処理にはブラウザー エンジン コンポーネントが使用されます。詳細については、「beconfig.xml のリファレンス」を参照してください。 既定値: no |
javascript_keep_html |
boolean |
yes|no |
インデックス付けエンジンに送信するものを指定します。このパラメーターを yes に設定すると、JavaScript を処理して生成された HTML が使用されます。それ以外の場合は、元の HTML アイテムが使用されます。 use_javascript 構成パラメーターを yes に設定した場合は、このオプションを使用しないでください。 |
javascript_delay |
real |
<秒> 値を指定しないと、Web クローラーは、delay 構成パラメーターと同じ値を使用します。 |
JavaScript によって HTML アイテムに関連付けられている依存アイテムを取得する場合に、遅延時間を秒単位で指定します。 既定値: 0 (遅延なし) |
exclude_exts |
list-string |
<コンマで区切られたファイル拡張子の一覧> |
クロールから除外するファイル名拡張子を指定します。 既定の一覧: 値なし |
use_http_1_1 |
boolean |
yes|no |
Web クローラーが HTTP/1.1 を使用することを指定します。no に設定すると、HTTP/1.0 が使用されます。 既定値: yes |
accept_compression |
boolean |
yes|no |
Web クローラーが 圧縮された Web アイテムを Web サーバーから受け付けるように指定します。use_http_1_1 構成パラメーターを有効にしない場合は、このパラメーターは効力を持ちません。 既定値: yes |
dbswitch |
integer |
<値> |
Web クローラーが見つけなかった Web アイテムを削除せずにクロール ストアとインデックスに残しておくクロール サイクル数を指定します。dbswitch_delete パラメーターの値によって、ここで指定したクロール サイクル数に達するまで見つからなかった Web アイテムの扱い方が決定されます。 注意 この値を 1 または 2 のように非常に小さい数に設定すると、Web アイテムが誤って削除される可能性があります。 既定値: 5 |
dbswitch_delete |
boolean |
yes|no |
Web クローラーは、Web サーバーから削除された Web アイテムを検出しようとします。このパラメーターは、このような Web アイテムの扱い方を指定します。アイテムをすぐに削除したり、使用できなくなったことを確認するために取得できるように作業キューに配置したりすることができます。 yes に設定すると、古すぎる Web アイテムは削除されます。no に設定すると、Web アイテムの再取得がスケジュールされ、Web サーバーに存在しないことが確認された場合にのみ削除されます。 このチェックは、Web サイトから最新の情報を取得する各サイクルの最初に自動的に実行されます。 注意 このパラメーターは、既定値から変更しないでください。 既定値: no |
html_redir_is_redir |
boolean |
yes|no |
このパラメーターを html_redir_thresh と一緒に使用すると、HTML Web アイテム内の META Refresh タグが HTTP リダイレクトであるかのように扱われます。このパラメーターを有効にすると、META Refresh タグを含む Web アイテムはインデックス付けされません。無効にすると、通常の Web アイテムとして扱われ、インデックス付けされます。 既定値: yes |
hmtl_redir_threshold |
integer |
<値> |
HTML Web アイテムに含まれる META Refresh タグを HTTP リダイレクトとして扱う最大の時間を秒単位で指定します。html_redir_is_redir を設定しない場合、このパラメーターは無視されます。 たとえば、次のように指定したと仮定します。
既定値: 3 |
robots_ttl |
integer |
<秒> |
Web クローラーが Web サイトから robots.txt ファイルを取得する間隔を指定します。この間隔は秒単位で指定する必要があります。 既定値: 86400 |
use_sitemaps |
boolean |
yes|no |
Web クローラーがサイトマップを検出し、解析することを指定します。 Web クローラーは、サイトマップ内の lastmod 属性を使用して、サイトマップを最後に取得した後で Web アイテムが変更されたかどうかを確認します。変更されていない Web アイテムは、再度クロールしません。 例外は、コレクションでアダプティブ更新モードが使用される場合です。アダプティブ更新モードでは、クローラーはサイトマップの priority 属性と changefreq 属性を使用して、Web アイテムをクロールする間隔を決めます。サイトマップに含まれる他のタグは、クローラーのメタ データベースに保管されてから、クロールされたプロパティとしてインデックス付けのために送信されます。 注意 ほとんどのサイトマップは、robots.txt ファイル内に指定されます。そのため、robots 属性を有効にすると最良のクロール結果が得られます。 既定値: no |
max_pending |
integer |
<値> |
1 つの Web サイトに一度に送信できる同時 HTTP 要求の最大数を指定します。 既定値: 2 |
robots_auth_ignore |
boolean |
yes|no |
Web サーバーから HTTP 40x 認証エラーが返された場合に、Web クローラーが robots.txt を無視するかどうかを指定します。no に設定すると、Web クローラーは、エラーを返した Web サイトをクロールしません。 robots.txt 標準には、この動作は Web クローラーが Web サイトを完全に無視するためのヒントとして記載されています。ただし、Web サーバーの構成が不適切なためにサイトがクロールの対象から誤って除外される可能性があります。このオプションを有効にして、Web サイトがクロールされるようにしてください。 既定値: yes |
robots_tout_ignore |
boolean |
yes|no |
robots.txt への要求がタイム アウトになった場合に、Web クローラーが robots.txt の規則を無視するかどうかを指定します。 Web サイトをクロールする前に、Web クローラーは robots.txt ファイルを Web サーバーから取得するために要求します。robots.txt 標準では、このファイルへの要求がタイム アウトになった場合に Web サイトをクロールしません。このパラメーターを yes に設定すると、この robots.txt 規則は無視され、Web サイトはクロールされます。 注意 クロール対象の Web サイトを所有していない場合は、このオプションを no から変更しないでください。 既定値: no |
rewrite_rules |
list-string |
URI を書き直すために使用される規則を指定します。 書き直しの規則を構成する 2 つの要素は、照合する表記 ( 書き直しの規則の書式は、 |
|
extract_links_from_dupes |
boolean |
yes|no |
Web クローラーが、重複する Web アイテムからハイパーリンクを抽出することを指定します。2 つの Web アイテムに同じデータが重複して存在する場合でも、ハイパーリンクは異なる可能性があります。このハイパーリンクを使用して Web クローラーがさらにコンテンツを発見できる可能性があります。 既定値: no |
use_meta_csum |
boolean |
yes|no |
Web クローラーが、生成された重複データ検出識別符号に META タグを含めることを指定します。 既定値: no |
csum_cut_off |
integer |
<値> |
重複データ識別符号を生成するために使用する最大バイト数を指定します。このパラメーターを 0 に設定すると、この機能は無効になります (つまり、無制限にすべてのバイトが使用されます)。 既定値: 0 |
if_modified_since |
boolean |
yes|no |
Web クローラーが 既定値: yes |
use_cookies |
boolean |
yes|no |
Web クローラーが Cookie を送信および保存するかどうかを指定します。ログインが使用される Web サイトにはこの機能が自動的に有効になりますが、すべての Web サイトに対して有効にすることもできます。 既定値: no |
uri_search_mime |
list-string |
<値> |
Web クローラーがハイパーリンクを抽出する MIME タイプを指定します。 この構成パラメーターには、フィールド全体のレベルでワイルドカードを使用できます。ワイルトカードにはアスタリスク記号を使用します。 既定値:
|
max_backoff_counter |
integer |
<値> |
このオプションを max_backoff_delay と一緒に指定すると、接続に失敗した Web サイトに再接続を試みる頻度を減らすアルゴリズムを制御できます。 この後で接続を試みたときにネットワーク エラーが発生するたびに、次に Web サイトを要求するまでの遅延時間が、遅延設定の初期値から max_backoff_delay の最大値 (秒単位) に達するまで増えます。この遅延時間の増加は、要求が正常に完了するまで継続されますが、要求の回数が max_backoff_counter の値を超えることはありません。回数が最大数に達すると、Web サイトのクロールは一時的に停止されます。 そうなる前に、Web サイトに影響していたネットワークの問題が解決されると、内部バックオフ カウンターの値が減らされ、要求の遅延時間が、Web アイテムのダウンロードが正常に完了するたびに半分に短縮され、最終的に遅延設定の初期値に戻ります。 既定値: 50 |
max_backoff_delay |
integer |
<秒> |
「max_backoff_counter」を参照してください。 既定値: 600 |
delay |
real |
<秒> |
Web クローラーが Web サイトから Web アイテムを取得できる間隔を秒単位で指定します。 既定値: 60.0 |
refresh |
real |
<分> |
Web クローラーが新しいクロール更新サイクルを開始するまでの間隔を分単位で指定します。 refresh の時間に実行される操作は、refresh_mode 設定を使用して指定します。 既定値: 1500.0 |
robots |
boolean |
yes|no |
Web クローラーが robot.txt ファイルの規則に従うかどうかを指定します。 既定値: yes |
start_uris |
list-string |
Web クローラーで使用される開始 URI を指定します。Web クローラーは、クロールを開始するために start_uris または start_uri_files を必要とします。 注意 クロールに IDNA ホスト名が含まれる場合、この名前は DNS エンコード形式ではなく UTF-8 文字で入力します。 |
|
start_uri_files |
list-string |
開始 URI を含む一連のファイルを指定します。これらのファイルは、書式のないテキスト ファイル形式で、1 行に 1 つの開始 URI を記述します。 注意 複数ノード展開では、これらのファイルはマルチノード スケジューラが実行されるサーバーでのみ使用可能になっている必要があります。 |
|
max_sites |
integer |
<値> |
同時にクロールできる Web サイトの最大数を指定します。マルチノード Web クローラー展開では、この値は Web クローラー全体にではなく、ノード スケジューラごとに適用されます。 たとえば、max_sites を 5 に設定し、10 サイトをクロールする場合、5 サイトのクロールが完了するまで、残りの 5 サイトのクロールは開始されません。 注意 max_sites の値を大きくすると、システム リソースの使用量に悪影響を与える可能性があります。 既定値: 128 |
mirror_site_files |
list-string |
指定したホスト名のミラー サイトが含まれる一連のファイルを指定します。ミラー サイトとは、既に存在する Web サイトの複製です。このファイルはテキスト形式ファイルであり、ホスト名を指定するには、スペースで区切ったホスト名の一覧を優先度の高い順に記述します。 注意 複数ノード Web クローラー展開では、ノード スケジューラを展開したすべてのサーバーでこのファイルが使用可能になっている必要があります。 |
|
proxy |
list-string |
Web クローラーが Web アイテムをフェッチするために使用する一連の HTTP プロキシを指定します。 プロキシを指定するには、以下の書式を使用します。
パスワードは、passwd の設定に従って暗号化されます。 |
|
proxy_max_pending |
integer |
<値> |
HTTP プロキシごとに開いた接続をその状態で維持できる最大数を指定します。 既定値: INT32 の最大数 |
headers |
list-string |
<ヘッダー> |
Web サーバーに送信する要求に追加する HTTP ヘッダーを指定します。 現在の既定値: |
cut_off |
integer |
アイテムの最大バイト数を指定します。このサイズの制限を超える Web アイテムは、破棄されるか、切り捨て構成パラメーターの値に従って切り捨てられます。 cut_off 構成パラメーターを設定しない場合、切り捨てのオプションは無効になります。 既定値: 制限なし |
|
truncate |
boolean |
yes|no |
指定した cut_off のしきい値を超えるサイズの Web アイテムを切り捨てるかどうかを指定します。 既定値: yes |
check_meta_robots |
boolean |
yes|no |
Web クローラーが robots の META タグから提供された 一般的な META タグの設定を以下に示します。
または
特殊な値 既定値: yes |
obey_robots_delay |
boolean |
yes|no |
Web クローラーが robots.txt ファイル内にクロール遅延ディレクティブがある場合にその設定に従うことを指定します。この設定がない場合は、delay 設定が適用されます。 既定値: no |
key_file |
string |
HTTPS 接続に使用する SSL クライアント証明書キー ファイルのパスを指定します。 この機能は、Web クローラーがクライアント証明書による認証を要求される Web サイトで使用されます。 このオプションは、cert_file と一緒に使用する必要があります。 注意 マルチノード Web クローラー展開では、このファイルはすべてのノード スケジューラに存在する必要があります。 |
|
cert_file |
string |
HTTPS 接続に使用する X509 クライアント証明書のパスを指定します。 このオプションは key_file と一緒に使用する必要があります。 |
|
max_doc |
integer |
<値> |
Web サイトからダウンロードする Web アイテムの最大数を指定します。 既定値: 100000 |
enforce_delay_per_ip |
boolean |
yes|no |
Web クローラーが、共有される IPv4 または IPv6 アドレスに名前がマップされる Web サーバーへの要求を制限することを指定します。このパラメーターの作用は、delay 構成パラメーターに依存します。 既定値: yes |
wqfilter |
boolean |
yes|no |
Web クローラーが、重複する URI をクロール キューから削除するブルーム フィルターを使用するかどうかを指定します。 既定値: yes |
smfilter |
integer |
<値> |
ノード スケジューラに関連付けられたキューから重複する URI を削除するブルーム フィルターの最大ビット数を指定します。 ブルーム フィルターは、要素が特定のセットのメンバーかどうかをテストするために使用される、領域の使用効率に優れた確率的なデータ構造 (ビット配列) です。テストでは、偽陽性と判定されることはあっても、偽陰性と判定されることはありません。 既定値: 0 |
mufilter |
integer |
<値> |
ブルーム フィルターに使用する最大ビット数を指定します。このフィルターは、ノード スケジューラからマルチノード スケジューラに送信される重複した URI を削除します。 このフィルターは、大規模なクロールの場合に有効に設定し、値として 500000000 (500 メガビット) を指定することをお勧めします。 既定値: 0 |
umlogs |
boolean |
yes|no |
すべてのログをマルチノード スケジューラに送信して保管するかどうかを指定します。 このパラメーターを有効にしない場合、ログはノード スケジューラ側にのみ保管されます。 既定値: yes |
sort_query_params |
boolean |
yes|no |
Web クローラーが URI のクエリ コンポーネントでパラメーターを並べ替えるかどうかを指定します。 通常、クエリ コンポーネントは、セミコロンまたはアンパサンドを区切り文字とするキーと値のペアです。この構成パラメーターを設定すると、クエリはキー名のアルファベット順に並べ替えられます。 既定値: no |
robots_timeout |
integer |
<秒> |
Web クローラーが robots.txt ファイルをダウンロードするために使用できる時間の最大値を秒で指定します。 既定値: 300 |
login_timeout |
integer |
<秒> |
Web クローラーがログインを要求するために使用できる時間の最大値を秒で指定します。 既定値: 300 |
send_links_to |
string |
抽出されたすべてのハイパーリンクの送信先となるクロール コレクションを指定します。 |
|
cookie_timeout |
integer |
<秒> |
セッション Cookie を保存する時間の最大値を秒で指定します。セッション Cookie は、有効期限の日付がない Cookie です。 既定値: 300 |
refresh_when_idle |
boolean |
yes|no |
Web クローラーがアイドル状態になったときに新しいクロール更新サイクルを開始するかどうかを指定します。このオプションは、マルチノード展開では使用しないでください。 既定値: no |
refresh_mode |
string |
append|prepend|scratch|soft|adaptive |
クロール コレクションの更新モードを指定します。有効な値は、次のとおりです。
既定値: scratch |
例
<attrib name="delay" type="real"> 60.0 </attrib>
<attrib name="max_doc" type="integer"> 10000 </attrib>
<attrib name="use_javascript" type="boolean"> no </attrib>
<attrib name="info" type="string">
My Web crawl collection crawling my intranet.
</attrib>
<attrib name="allowed_schemes" type="list-string">
<member> http </member>
<member> https </member>
</attrib>
member
これは、オプション値の一覧に含まれる 1 つの要素を指定します。
member 要素は、attrib 要素内でのみ使用できます。
例
<attrib name="allowed_schemes" type="list-string">
<member> http </member>
<member> https </member>
</attrib>
section
この要素は、関連する複数のオプションをグループにまとめます。section 要素には、attrib 要素が含まれます。
属性
属性 | 値 | 説明 |
---|---|---|
name |
<名前> |
セクションの名前を指定します。この記事で説明する各セクションがサポートされています。 |
例
<section name="crawlmode">
<attrib name="fwdlinks" type="boolean"> no </attrib>
<attrib name="fwdredirects" type="boolean"> no </attrib>
<attrib name="mode" type="string"> FULL </attrib>
<attrib name="reset_level" type="boolean"> no </attrib>
</section>
include_domains
このセクションは、クロール コレクションに含める URI を指定する一連のホスト名フィルターを定義します。セクションを空にすると、すべてのホスト名に指定したことになります。
属性
以下の表に、このセクションの attrib 要素を示します。
名前 | 種類 | 値 | 意味 |
---|---|---|---|
exact |
list-string |
ホスト名の一覧を指定します。URI のホスト名がこの一覧のいずれかのホスト名に一致した場合、その URI はこの規則に含まれます。 |
|
prefix |
list-string |
ホスト名の一覧を指定します。URI のホスト名の先頭がこの一覧のいずれかのホスト名に一致した場合、その URI はこの規則に含まれます。 |
|
suffix |
list-string |
ホスト名の一覧を指定します。URI のホスト名の末尾がこの一覧のいずれかのホスト名に一致した場合、その URI はこの規則に含まれます。 |
|
regexp |
list-string |
正規表現の一覧を指定します。URI のホスト名がこの一覧のいずれかの正規表現に一致した場合、その URI はこの規則に含まれます。 |
|
ipmask |
list-string |
IPv4 アドレス マスクの一覧を指定します。取得された IPv4 アドレスがこの一覧のいずれかの IPv4 アドレス マスクに一致した場合、その URI はこの規則に含まれます。IPv4 アドレス マスクは、以下のいずれかの形式で記述する必要があります。
|
|
ip6mask |
list-string |
IPv6 アドレス マスクの一覧を指定します。取得された IPv6 アドレスがこの一覧のいずれかの IPv6 アドレス マスクに一致した場合、その URI はこの規則に含まれます。 IPv6 アドレス マスクは、以下のいずれかの形式で記述する必要があります。
|
例
<section name="include_domains">
<attrib name="exact" type="list-string">
<member> www.contoso.com </member>
<member> www2.contoso.com </member>
</attrib>
<attrib name="prefix" type="list-string">
<member> www </member>
</attrib>
<attrib name="suffix" type="list-string">
<member> .contoso.com</member>
<member> .contoso2.com</member>
</attrib>
<attrib name="regexp" type="list-string">
<member> .*\.contoso\.com </member>
</attrib>
<attrib name="file" type="list-string">
<member> c:\myinclude_domains.txt </member>
</attrib>
</section>
exclude_domains
このセクションは、クロール コレクションから除外する URI を指定する一連のホスト名フィルターを指定します。このセクションが空白の場合、一致するホスト名はありません。
属性
このセクションの attrib 要素については、「include_domains」の表を参照してください。
例
<section name="exclude_domains">
<attrib name="exact" type="list-string">
<member> www.contoso.com </member>
<member> www2.contoso.com </member>
</attrib>
<attrib name="prefix" type="list-string">
<member> www </member>
</attrib>
<attrib name="suffix" type="list-string">
<member> .contoso.com</member>
<member> .contoso2.com</member>
</attrib>
<attrib name="regexp" type="list-string">
<member> .*\.contoso\.com </member>
</attrib>
<attrib name="file" type="list-string">
<member> c:\myexclude_domains.txt </member>
</attrib>
</section>
include_uris
このセクションは、クロール コレクションに含める URI を指定する一連のホスト名フィルターを指定します。このセクションが空白の場合、すべてのホスト名に一致します。
属性
以下の表に、このセクションの attrib 要素を示します。
名前 | 種類 | 値 | 意味 |
---|---|---|---|
exact |
list-string |
URI の一覧を指定します。この一覧のいずれかの URI に正確に一致する URI は、この規則に含まれます。 |
|
prefix |
list-string |
文字列の一覧を指定します。この一覧のいずれかの文字列で始まる URI は、この規則に含まれます。 |
|
suffix |
list-string |
文字列の一覧を指定します。この一覧のいずれかの文字列で終わる URI は、この規則に含まれます。 |
|
regexp |
list-string |
正規表現の一覧を指定します。この一覧のいずれかの正規表現に一致する URI は、この規則に含まれます。 |
例
<section name="include_uris">
<attrib name="exact" type="list-string">
<member> https://www.contoso.com/documents/doc2.html </member>
</attrib>
<attrib name="prefix" type="list-string">
<member> https://www.contoso.com/documents/ </member>
</attrib>
<attrib name="suffix" type="list-string">
<member> /doc2.html </member>
</attrib>
<attrib name="regexp" type="list-string">
<member> http://.*\.contoso\.com/documents.*</member>
</attrib>
<attrib name="file" type="list-string">
<member> c:\myinclude_uris.txt </member>
</attrib>
</section>
exclude_uris
このセクションは、クロール コレクションから除外する URI を指定する一連の URI ベース規則を指定します。このセクションが空白の場合、一致する URI はありません。
属性
このセクションの attrib 要素については、「include_uris」の表を参照してください。
例
<section name="exclude_uris">
<attrib name="exact" type="list-string">
<member> https://www.contoso.com/documents/doc2.html </member>
</attrib>
<attrib name="prefix" type="list-string">
<member> https://www.contoso.com/documents/ </member>
</attrib>
<attrib name="suffix" type="list-string">
<member> /doc2.html </member>
</attrib>
<attrib name="regexp" type="list-string">
<member> http://.*\.contoso\.com/documents.*</member>
</attrib>
<attrib name="file" type="list-string">
<member> c:\myexclude_uris.txt </member>
</attrib>
</section>
log
このセクションは、Web クローラーのログ動作を指定します。
属性
以下の表に、このセクションの attrib 要素を示します。
名前 | 種類 | 値 | 意味 |
---|---|---|---|
fetch |
string |
text|none |
ダウンロードした Web アイテムのログを有効または無効にします。有効な値は、次のとおりです。
既定値: text |
postprocess |
string |
text|xml|none |
ノード スケジューラ アイテム後処理のログを有効または無効にします。有効な値は、次のとおりです。
既定値: text |
header |
string |
text|none |
HTTP ヘッダーのログを有効または無効にします。有効な値は、次のとおりです。
|
screened |
string |
text|none |
すべてのスクリーニングされた URI のログを有効または無効にします。有効な値は、次のとおりです。
|
scheduler |
string |
text|none |
アダプティブ クロールのログを有効または無効にします。有効な値は、次のとおりです。
|
dsfeed |
string |
text|none |
インデックス付けエンジンへのコンテンツ送信のログを有効または無効にします。有効な値は、次のとおりです。
|
site |
string |
text|none |
クロール サイトごとにログを有効または無効にします。有効な値は、次のとおりです。
|
例
<section name="log">
<attrib name="dsfeed" type="string"> text </attrib>
<attrib name="fetch" type="string"> text </attrib>
<attrib name="postprocess" type="string"> text </attrib>
<attrib name="screened" type="string"> none </attrib>
<attrib name="site" type="string"> text </attrib>
</section>
storage
このセクションは、Web クローラーがデータとメタデータを保存する方法を指定します。
属性
次の表に、このセクションの attrib 要素を示します。
名前 | 種類 | 値 | 意味 |
---|---|---|---|
datastore |
string |
flatfile|bstore |
Web アイテム コンテンツ ストレージの形式を指定します。有効な値は、次のとおりです。
既定値: bstore |
store_http_header |
boolean |
yes|no |
Web クローラーが受信した HTTP ヘッダーを保存することを指定します。 既定値: yes |
store_dupes |
boolean |
yes|no |
Web クローラーが重複する Web アイテムを保存することを指定します。 既定値: no |
compress |
boolean |
yes|no |
ダウンロードしたアイテムを圧縮してから保存することを指定します。 既定値: yes |
compress_exclude_mime |
list-string |
保存する前に圧縮しない Web アイテムの MIME タイプの一覧を指定します。既に圧縮されている Web アイテム (マルチメディア形式のアイテムなど) に使用します。 compress 構成パラメーターを設定しない場合、このパラメーターは適用されません。 |
|
remove_docs |
boolean |
yes|no |
Web クローラーが、Web アイテムを Web クローラー ストアからインデックス付けエンジンに送信した後で、すぐにそのアイテムを削除するかどうかを指定します。この設定を有効にすると Web クローラーが消費するディスク領域は減りますが、フィールドの再実行は不可能になります。 既定値: no |
clusters |
integer |
<値> |
クロール コレクション用のストレージに使用するクラスターの数を指定します。Web アイテムは、これらのストレージ クラスターに分散して保管されます。 既定値: 8 |
defrag_threshold |
integer |
<パーセンテージ> |
データ ストレージ ファイルの最適化を実行するしきい値 (使用中の容量に対する割合) を指定する 0 以外の値です。使用中の領域が defrag_threshold の値を下回ると、Web アイテムの保存によって断片化した領域を再生するため、ファイルが最適化の対象となります。データベース ファイルは、最適化レベルとは無関係にコンパクト化されます。 既定値の 85% は、データ ストレージ ファイル内の領域の 15 %が再生可能になったときに最適化が実行されることを意味します。 0 を指定すると、最適化は無効になります。 この設定は、storage_format 属性の 既定値: 85 |
uri_dir |
string |
<パス> |
Web アイテムから抽出されたすべてのハイパーリンクのファイル一覧の保存先パスを指定します。サイト マネージャー プロセスごとに異なるファイルが使用されます。URI ファイルの名前は、プロセス PID に |
例
<section name="storage">
<attrib name="store_dupes" type="boolean"> no </attrib>
<attrib name="datastore" type="string"> bstore </attrib>
<attrib name="compress" type="boolean"> yes </attrib>
</section>
pp
このセクションは、ノード スケジューラの後処理動作を指定します。後処理では、Web アイテムをインデックスにフィードするタスクと、重複データを検出するタスクが主に実行されます。
属性
以下の表に、このセクションの attrib 要素を示します。
名前 | 種類 | 値 | 意味 |
---|---|---|---|
use_dupservers |
boolean |
yes|no |
Web クローラーが 1 つ以上の重複サーバーを使用することを指定します。 このオプションは、マルチノード展開にのみ適用されます。 既定値: no |
max_dupes |
integer |
<値> |
Web アイテムごとに記録する重複データの最大数を指定します。 既定値: 10 |
stripe |
integer |
<値> |
チェックサム データを分散して格納するデータ ファイルの数を指定します。この値を増やすと、後処理のパフォーマンスが向上します。 既定値: 1 |
ds_meta_info |
list-string |
duplicates|redirects|mirrors|metadata |
ノード スケジューラがインデックス付けエンジンに報告するメタデータの種類を指定します。有効な値は、次のとおりです。 duplicates : このアイテムと重複する URI を報告します。 redirects : このアイテムにリダイレクトされる URI を報告します。 metadata : このアイテムのメタデータを報告します。 mirrors : この Web アイテムのすべてのミラー URI を報告します。 |
ds_max_ecl |
integer |
<値> |
ds_meta_info 構成パラメーターの設定に従ってインデックス付けエンジンに報告する重複またはリダイレクトの最大数を指定します。 既定値: 10 |
ecl_override |
string |
max_dupes の値に達した後でも、保管しておそらくインデックス付けエンジンに送信するリダイレクト URI または重複 URI を識別する正規表現を指定します。使用例: |
|
ds_send_links |
boolean |
yes|no |
Web アイテムから抽出したすべてのハイパーリンクをインデックス付けエンジンに送信するかどうかを指定します。 |
ds_paused |
boolean |
yes|no |
ノード スケジューラがインデックス付けエンジンへのコンテンツ送信を保留するかどうかを指定します。 |
例
<section name="pp">
<attrib name="max_dupes" type="integer"> 10 </attrib>
<attrib name="use_dupservers" type="boolean"> yes </attrib>
<attrib name="ds_paused" type="boolean"> no </attrib>
</section>
ppdup
このセクションは、重複サーバー設定を指定します。
属性
以下の表に、このセクションの attrib 要素を示します。
名前 | 種類 | 値 | 意味 |
---|---|---|---|
format |
string |
gigabase|hashlog|diskhashlog |
重複サーバー データベースの形式を指定します。有効な値は、次のとおりです。
|
cachesize |
integer |
<MB> |
重複サーバー データベースのキャッシュ サイズを MB 単位で指定します。format 構成パラメーターが hashlog または diskhashlog に設定されている場合、このパラメーターはハッシュ テーブルの内部サイズを指定します。 |
stripes |
integer |
<値> |
コンテンツを分散して格納するデータ ファイルの数を指定します。複数のファイルを使用すると、重複サーバー データベースのパフォーマンスを向上できます。 |
compact |
boolean |
yes|no |
重複サーバー データベースがコンパクト化を実行するかどうかを指定します。hashlog 形式と diskhashlog 形式では、crawlerdbtool を使用して手動でコンパクト化を実行するか、このオプションを有効にして自動的にコンパクト化を実行する必要があります。これを行わないと、レコードの書き込みまたは更新に使用されるディスクの使用量が増えます。 既定値: yes |
例
<section name="ppdup">
<attrib name="format" type="string"> hashlog </attrib>
<attrib name="stripes" type="integer"> 1 </attrib>
<!-- 1 GB memory hash -->
<attrib name="cachesize" type="integer"> 1024 </attrib>
<attrib name="compact" type="boolean"> yes </attrib>
</section>
feeding
feeding セクションは、クロール コレクションを表す情報をインデックス付けエンジンに送信する方法を指定する最低 1 つの section XML 要素から構成されます。このようなセクションは、コンテンツの送信先を定義します。name 属性は、コンテンツの送信先を表す一意の名前です。
属性
以下の表に、コンテンツの送信先セクションの attrib 要素を示します。
名前 | 種類 | 値 | 意味 |
---|---|---|---|
collection |
string |
<名前> |
Web アイテムを送信するコンテンツ コレクションの名前を指定します。この構成パラメーターは、feeding セクションで指定する必要があります。 |
destination |
string |
default |
予約名。この構成パラメーターの値は常に default である必要があります。 |
paused |
boolean |
yes|no |
Web クローラーがインデックス付けエンジンへのコンテンツの送信を保留するかどうかを指定します。 既定値: no |
primary |
boolean |
yes|no |
このコンテンツ送信先をプライマリのコンテンツ送信先にするか、セカンダリのコンテンツ送信先にするかを指定します。 プライマリのコンテンツ送信先は、インデックス付けエンジンへのコンテンツ送信時にコールバック情報の役割をはたします。 コンテンツ送信先を 1 つだけ指定した場合は、それがプライマリの送信先となります。 |
例
<section name="feeding">
<section name="Global_News">
<attrib name="collection" type="string"> collection_A </attrib>
<attrib name="destination" type="string"> default </attrib>
<attrib name="primary" type="boolean"> yes </attrib>
<attrib name="paused" type="boolean"> no </attrib>
</section>
<section name="Local_News">
<attrib name="collection" type="string"> collection_B </attrib>
<attrib name="destination" type="string"> default </attrib>
<attrib name="primary" type="boolean"> no </attrib>
<attrib name="paused" type="boolean"> no </attrib>
</section>
</section>
cachesize
このセクションは、Web クローラー プロセスのキャッシュ サイズを構成します。
属性
次の表に、このセクションの attrib 要素を示します。
注意
この表に明記されていない場合、各属性の既定値は Web クローラーによって実行時に自動的に決定されます。
名前 | 種類 | 値 | 意味 |
---|---|---|---|
duplicates |
integer |
<アイテムの数を表す値> |
サイト マネージャー プロセスごとの重複データ チェックサム キャッシュのサイズを指定します。このキャッシュは、実行時に重複データ検出の最初のレベルとして使用されます。 |
screened |
integer |
<アイテムの数を表す値> |
スクリーニングされた URI キャッシュのサイズをハイパーリンクの数で指定します。スクリーニングされたキャッシュは、最近の取得が失敗に終わった重複ハイパーリンクを除外します。 |
smcomm |
integer |
<アイテムの数を表す値> |
ノード スケジューラとサイト マネージャー間で送信される重複ハイパーリンクを除外するためにキャッシュで使用されるブルーム フィルターのサイズを指定します。 |
mucomm |
integer |
<アイテムの数を表す値> |
マルチノード スケジューラとノード スケジューラ間で送信される重複ハイパーリンクを除外するためにキャッシュで使用されるブルーム フィルターのサイズを指定します。 |
wqcache |
integer |
<アイテムの数を表す値> |
Web サイト クロール キューから重複ハイパーリンクを除外するキャッシュのサイズを指定します。 |
crosslinks |
integer |
<アイテムの数を表す値> |
クロスリンク キャッシュのサイズを指定します。クロスリンク キャッシュには、取得したハイパーリンクと参照元ハイパーリンクが格納されます。mufilter が有効になっていない場合、このキャッシュはノード スケジューラ内の重複ハイパーリンクを除外します。 |
routetab |
integer |
<値> |
クロール ルーティング データベースのキャッシュ サイズをバイト単位で指定します。 既定値: 1048576 |
pp |
integer |
<値> |
後処理データベースのキャッシュ サイズをバイト単位で指定します。 既定値: 1048576 |
pp_pending |
integer |
<値> |
後処理保留キャッシュのサイズをバイト単位で指定します。保留キャッシュには、重複サーバーにまだ送信されていないエントリが格納されます。 既定値: 131072 |
aliases |
integer |
<値> |
エイリアス データ マッピング データベースのキャッシュ サイズをバイト単位で指定します。クロール サイトには、1 つ以上のエイリアス (代替ホスト名) を関連付けることができます。 既定値: 1048576 |
例
<section name="cachesize">
<!-- Specific cache size values (in number of items) for the following: -->
<attrib name="duplicates" type="integer"> 128 </attrib>
<attrib name="screened" type="integer"> 128 </attrib>
<attrib name="smcomm" type="integer"> 128 </attrib>
<attrib name="mucomm" type="integer"> 128 </attrib>
<attrib name="wqcache" type="integer"> 4096 </attrib>
<!-- Automatic cache size for crosslinks -->
<attrib name="crosslinks" type="integer"> </attrib>
<!-- Cache sizes in bytes for the following -->
<attrib name="routetab" type="integer"> 1048576 </attrib>
<attrib name="pp" type="integer"> 1048576 </attrib>
<attrib name="pp_pending" type="integer"> 1048576 </attrib>
<attrib name="aliases" type="integer"> 1048576 </attrib>
</section>
http_errors
このセクションは、HTTP/HTTPS のエラー応答コードと条件を処理する方法を指定します。
属性
次の表に、このセクションの attrib 要素を示します。name 属性には複数の値があるため、それぞれについて用途を説明しています。
名前 |
種類 |
値 |
意味 |
name 属性は、処理する HTTP/HTTPS/FTP 応答コード番号を指定します。文字 "X" は、ワイルドカード文字として使用できます。たとえば、"4XX" のように記述します。 他に、次の値を使用できます。
|
string |
<値> |
Web クローラーが HTTP/HTTPS/FTP エラーおよびネットワーク エラーを処理する方法を指定します。個々の応答コードを処理するための有効なオプションは、次のとおりです。
どちらかのオプションに RETRY[:X] を指定すると、Web クローラーは、同じクロール更新サイクル期間に最高 X 回まで Web アイテムの再ダウンロードを試みます。それ以外の場合は、クローラーは次のクロール更新サイクルが開始されるまで URI をダウンロードしません。 既定値: 「http_errors セクションの既定値」および「ftp_errors セクションの既定値」を参照してください。 |
http_errors セクションの既定値
次の表に、http_errors セクションの既定値を示します。
名前 | 値 | 意味 |
---|---|---|
4xx |
DELETE:0 |
すぐに削除します。 |
5xx |
DELETE:10 |
この URI でこのエラーが 10 回発生した場合に (通常は 10 回目のクロール サイクルの後で) 削除します。URI が正常に取得されると、カウンターはリセットされます。 |
int |
KEEP:0 |
削除しません。 |
net |
DELETE:3、RETRY:1 |
3 回目で削除します。1 回の再試行を指定します。したがって、URI は次回の更新サイクルでも取得できない場合に削除されます。 |
ttl |
DELETE:3 |
3 回目に削除します。 |
例
<section name="http_errors">
<attrib name="408" type="string"> KEEP </attrib>
<attrib name="4xx" type="string"> DELETE </attrib>
<attrib name="5xx" type="string"> DELETE:10, RETRY:3 </attrib>
<attrib name="ttl" type="string"> DELETE:3 </attrib>
<attrib name="net" type="string"> DELETE:3 </attrib>
<attrib name="int" type="string"> KEEP </attrib>
</section>
ftp_errors
このセクションは、FTP URI の応答コードとエラー条件を処理する方法を指定します。
属性
このセクションの attrib 要素については、「http_errors」の表を参照してください。
ftp_errors セクションの既定値
次の表に、ftp_errors セクションの既定値を示します。
名前 | 値 | 意味 |
---|---|---|
4xx |
DELETE:3 |
この URI でこのエラーが 3 回発生した場合に (通常は 3 回目のクロール サイクルの後で) 削除します。URI が正常に取得されると、カウンターはリセットされます。 |
550 |
DELETE:0 |
すぐに削除します。 |
5xx |
DELETE:3 |
4xx の場合と同様に、3 回目で削除します。 |
int |
KEEP:0 |
削除しません。 |
net |
DELETE:3、RETRY:1 |
3 回目で削除します。1 回の再試行を指定します。したがって、URI は次回の更新サイクルでも取得できない場合に削除されます。 |
例
<section name="ftp_errors">
<attrib name="4xx" type="string"> DELETE:3 </attrib>
<attrib name="550" type="string"> DELETE:0 </attrib>
<attrib name="5xx" type="string"> DELETE:3 </attrib>
<attrib name="int" type="string"> KEEP:0 </attrib>
<attrib name="net" type="string"> DELETE:3, RETRY:1 </attrib>
<attrib name="ttl" type="string"> DELETE:3 </attrib>
</section>
workqueue_priority
このセクションは、クロール キューの優先度レベルを指定し、キューへの URI の挿入とキューからの URI の取り出しに適用される規則とモードを指定します。
属性
次の表に、このセクションの attrib 要素を指定します。
名前 | 種類 | 値 | 意味 |
---|---|---|---|
levels |
integer |
<値> |
クロール キューに使用する優先度レベルの数を指定します。 既定値: 1 |
default |
integer |
<値> |
クロール キュー内の URI に割り当てる既定の優先度レベルを指定します。 既定値: 1 |
start_uri_pri |
integer |
<値> |
開始 URI の優先度レベルを指定します。start_uris 構成パラメーターと start_uri_files 構成パラメーターを参照してください。 既定値: 1 |
pop_scheme |
string |
default|rr|wrr|pri |
Web クローラーがクロール キューから URI を取り出すのに使用するモードを指定します。有効な値は、次のとおりです。
既定値: default |
put_scheme |
string |
default|include |
URI をクロール キューに挿入するときに使用する Web クローラー モードを指定します。有効な値は、次のとおりです。
既定値: default |
優先度レベル セクション
workqueue_priority セクションでは、クロール キューの優先度レベルとウェイトを指定する一連のセクションを指定できます。これらのセクションは、pop_scheme パラメーターを wrr または pri に設定した場合にのみ使用できます。これらのセクションの name 属性は、指定する優先度レベルである必要があります。優先度レベルは 1 で始まる必要があります (以下の例の <section name="1">
を参照)。
include_domains セクションまたは include_uris セクションは、「include_domains」 および「 include_uris」 で説明したように、各優先度レベル セクションで使用できます。これらの規則に一致する URI は、一致する優先度レベルでキューに設定されます。次の表に、これらのセクションの attrib 要素を指定します。
名前 | 種類 | 値 | 意味 |
---|---|---|---|
share |
integer |
各クロール キューに使用するウェイトを指定します。このウェイトは、pop_scheme 構成パラメーターを wrr に設定した場合にのみ使用されます。 |
例
<section name="workqueue_priority">
<attrib name="levels" type="integer"> 2 </attrib>
<attrib name="default" type="integer"> 2 </attrib>
<attrib name="start_uri_pri" type="integer"> 1 </attrib>
<attrib name="pop_scheme" type="string"> wrr </attrib>
<attrib name="put_scheme" type="string"> include </attrib>
<section name="1">
<attrib name="share" type="integer"> 10 </attrib>
<section name="include_domains">
<attrib name="suffix" type="list-string">
<member> web005.contoso.com </member>
</attrib>
</section>
</section>
<section name="2">
<attrib name="share" type="integer"> 5 </attrib>
<section name="include_domains">
<attrib name="suffix" type="list-string">
<member> web002.contoso.com </member>
</attrib>
</section>
</section>
</section>
link_extraction
このセクションは、追跡するハイパーリンクの種類を指定します。
属性
次の表に、このセクションの attrib 要素を示します。
名前 | 種類 | 値 | 意味 |
---|---|---|---|
a |
boolean |
yes|no |
既定値: yes |
action |
boolean |
yes|no |
HTML タグの action 属性からハイパーリンクを抽出します。 既定値: yes |
area |
boolean |
yes|no |
既定値: yes |
card |
boolean |
yes|no |
既定値: yes |
comment |
boolean |
yes|no |
Web アイテム内のコメントからハイパーリンクを抽出します。 既定値: yes |
embed |
boolean |
yes|no |
既定値: yes |
frame |
boolean |
yes|no |
既定値: yes |
go |
boolean |
yes|no |
既定値: yes |
img |
boolean |
yes|no |
既定値: no |
layer |
boolean |
yes|no |
既定値: yes |
link |
boolean |
yes|no |
既定値: yes |
meta |
boolean |
yes|no |
既定値: yes |
meta_refresh |
boolean |
yes|no |
meta refresh HTML タグ ( 既定値: yes |
object |
boolean |
yes|no |
既定値: yes |
script |
boolean |
yes|no |
既定値: yes |
script_java |
boolean |
yes|no |
JavaScript が含まれる 既定値: yes |
style |
boolean |
yes|no |
既定値: yes |
例
<section name="link_extraction">
<attrib name="action" type="boolean"> yes </attrib>
<attrib name="img" type="boolean"> no </attrib>
<attrib name="link" type="boolean"> yes </attrib>
<attrib name="meta" type="boolean"> yes </attrib>
<attrib name="meta_refresh" type="boolean"> yes </attrib>
<attrib name="object" type="boolean"> yes </attrib>
<attrib name="script_java" type="boolean"> yes </attrib>
</section>
limits
limits セクションは、クロール コレクションのフェールセーフ制限を指定します。コレクションがこの制限を超えると、"更新のみ" のクロール モードに切り替わります。つまり、前回クロールされた URI のみが再度クロールされます。
属性
次の表に、このセクションの attrib 要素を示します。
名前 | 種類 | 値 | 意味 |
---|---|---|---|
disk_free |
integer |
<パーセンテージ> |
Web クローラーが normal クロール モード (crawlmode 属性で指定する) で動作するために必要なディスクの空き容量のパーセンテージを指定します。パーセンテージがこの制限を下回ると、Web クローラーは (しきい値に達した時点で) "更新のみ" のクロール モードに切り替わります。 このパラメーターを 0 に設定すると、この機能は無効になります。 既定値: 0 |
disk_free_slack |
integer |
<パーセンテージ> |
disk_free しきい値に持たせる余裕をパーセンテージで指定します。 このオプションは、disk_free しきい値の前後に緩衝地帯を設けます。ディスクの空き容量がこの範囲内であれば、Web クローラーはクロール モードを通常 (normal) に戻しません。この機能により、ディスクの空き領域のパーセンテージが disk_free パラメーターに指定した値に近い場合に Web クローラーがクロール モードを頻繁に切り替えることが回避されます。ディスクの空き領域のパーセンテージが disk_free と disk_free_slack を足した値を超えると、通常のクロールが再開されます。 既定値: 3 |
max_doc |
integer |
<値> |
Web クローラーを "更新" クロール モードに切り替えるしきい値となる保存済み Web アイテム数を指定します。 注意 統計情報の報告は実際のクロールよりも遅れるので、このしきい値は正確な制限ではありません。 このオプションを 0 に設定すると、この機能は無効になります。 既定値: 0 |
max_doc_slack |
integer |
<値> |
Web クローラーが "更新のみ" のクロール モードに切り替わってからすぐに通常のクロール モードに戻る動作を繰り返すことを回避するため、絶対的なしきい値に余裕値を加えることができます。これにより、"しきい値から余裕値を引いた値" からしきい値までの範囲内ではクロール モードは変更されません。max_doc_slack 属性は、max_doc 構成パラメーターのしきい値に達するまでに余裕値に含まれるアイテムの最大数を指定します。 既定値: 1000 |
例
<section name="limits">
<attrib name="disk_free" type="integer"> 0 </attrib>
<attrib name="disk_free_slack" type="integer"> 3 </attrib>
<attrib name="max_doc" type="integer"> 0 </attrib>
<attrib name="max_doc_slack" type="integer"> 1000 </attrib>
</section>
focused
このセクションは、集中スケジュールを構成します。exclude_domains セクションを focused セクションと組み合わせて使用すると、この集中スケジュールからホスト名を除外できます。exclude_domains セクションを定義しないと、すべてのホスト名が集中スケジュールに含まれます。
属性
次の表に、このセクションの attrib 要素を示します。
名前 |
種類 |
値 |
意味 |
languages |
list-string |
Web クローラーによって保存できるアイテムの言語の一覧を指定します。言語の定義は、「ISO-639-1 (英語)」に従います。 |
|
depth |
integer |
<値> |
languages 構成パラメーターで設定された言語と一致しない Web アイテムを追跡するページ ホップ数を指定します。 |
例
以下の例では、Web クローラーはノルウェー語、英語、および言語不明のコンテンツについてすべてのアイテムを保存します。これらに該当しないすべての言語については、リンクを 2 レベルのみ追跡します。また、contoso.com にあるすべてのコンテンツは、言語チェックの対象外とし、自動的に保存します。
<section name="focused">
<!-- Crawl Norwegian, English and content of unknown language -->
<attrib name="languages" type="list-string">
<member> norwegian </member>
<member> unknown </member>
<member> en </member>
</attrib>
<!--Follow hyperlinks containing other languages for 2 levels -->
<attrib name="depth" type="integer"> 2 </attrib>
<!-- Exclude anything under .contoso.com from language checks, -->
<section name="exclude_domains">
<attrib name="suffix" type="list-string">
<member> .contoso.com </member>
</attrib>
</section>
</section>
passwd
このセクションは、認証を要求する Web サイトに使用する資格情報を構成します。Web クローラーは、 基本認証、ダイジェスト認証、および NTLM 認証をサポートします。
属性
次の表に、このセクションの attrib 要素を示します。
名前 | 種類 | 値 | 意味 |
---|---|---|---|
name |
string |
name 属性には、URI または領域を指定します。有効な URI はプレフィックスの役割を演じます。このレベルと同じかそれ以上の深さから抽出されたすべてのハイパーリンクに対して、ここで指定する認証設定が使用されるからです。 |
資格情報は、 資格情報文字列のパスワード コンポーネントは暗号化されていることがあります。暗号化されていない場合は、パスワードはテキスト形式です。 暗号化パスワードは、crawleradmin ツールで 資格情報を
|
例
<section name="passwd">
<attrib name="https://www.contoso.com/confidential1/" type="string">
user:password:contoso:auto
</attrib>
</section>
ftp_acct
このセクションは、FTP URI のクロールに使用する FTP アカウントを指定します。
属性
次の表に、このセクションの attrib 要素を示します。
名前 | 種類 | 値 | 意味 |
---|---|---|---|
name |
string |
name XML 属性の値は、この FTP アカウントが有効になっているホスト名です。 |
これは、この FTP アカウントのユーザー名とパスワードです。文字列の形式は、 |
例
<section name="ftp_acct">
<attrib name="ftp.contoso.com" type="string"> user:pass </attrib>
</section>
exclude_headers
このセクションは、HTTP ヘッダー フィールドの内容に基づいて Web アイテムをクロールから除外するために使用します。
属性
次の表に、このセクションの attrib 要素を示します。
名前 | 種類 | 値 | 意味 |
---|---|---|---|
name name 属性は、テストする HTTP ヘッダーの名前を設定するために使用します。 |
list-string |
正規表現の一覧を指定します。指定された HTTP ヘッダーの値がこの一覧のいずれかの正規表現に一致した場合、その Web アイテムはクロールから除外されます。 |
例
<section name="exclude_headers">
<attrib name="Header Name" type="list-string">
<member> .*excluded.*value </member>
</attrib>
</section>
variable_delay
このセクションは、別の要求レートを使用する時間帯を指定します。時間帯を指定しない場合、クローラーは attrib に指定された delay 構成パラメーターを使用します。
属性
次の表に、このセクションの attrib 要素を示します。
名前 | 種類 | 値 | 意味 |
---|---|---|---|
name (DDD:HH.MM-DDD:HH.MM 形式) |
string |
<秒> suspend |
この時間帯に使用する遅延要求レートを秒単位で指定します。suspend の値は、このクロール コレクションのクロールが中断されることを示します。 |
例
以下の例は、Web クローラーが曜日によって異なる遅延時間を使用する方法を示しています。水曜日の午前 9 時から午後 7 時までは、20 秒の遅延を使用します。月曜日の午前 9 時から午後 5 時までは、クロールを中断します。他の曜日を含め、これ以外の時間帯については 60 秒の遅延を使用します。
<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
<DomainSpecification name="variable_example">
<section name="variable_delay">
<attrib name="Wed:09-Wed:19" type="string">20 </attrib>
<attrib name="Mon:09-Mon:17" type="string">suspend</attrib>
</section>
</DomainSpecification>
</CrawlerConfig>
adaptive
このセクションは、アダプティブ クロール オプションを指定します。このセクションが Web クローラーに適用されるには、attrib 内で refresh_mode 構成パラメーターが adaptive に設定されている必要があります。
アダプティブ クロールの動作は、weights セクションと sitemap_weights セクションを使用して調整できます。
属性
次の表に、このセクションの attrib 要素を示します。
名前 | 種類 | 値 | 意味 |
---|---|---|---|
refresh_count |
integer |
<値> |
マイナー更新サイクルの回数を指定します。更新サイクルは複数のサイズ固定の間隔に分割できます。それぞれはマイナー更新サイクルと呼びます。 既定値: 4 |
refresh_quota |
integer |
<パーセンテージ> |
未確認の新規 URI に対する再クロールされる既存の URI の比率をパーセンテージで指定します。低いパーセンテージを指定すると、新規 URI が優先されます。 既定値: 90 |
coverage_min |
integer |
<値> |
マイナー更新サイクルで Web サイトごとにクロールする URI の最小数を指定します。小さな Web サイトからの十分なデータ取得を保証するために使用します。 既定値: 25 |
coverage_max_pct |
integer |
<値> |
マイナー更新サイクルで Web サイト全体に対して再クロールの対象とするパーセンテージを指定します。小さな Web サイトがマイナー更新サイクルのたびに完全にクロールされ、大きな Web サイトを十分にクロールする時間がなくなることを回避できます。 既定値: 10 |
例
<section name="adaptive">
<attrib name="refresh_count" type="integer"> 4 </attrib>
<attrib name="refresh_quota" type="integer"> 98 </attrib>
<attrib name="coverage_max_pct" type="integer"> 25 </attrib>
<attrib name="coverage_min" type="integer"> 10 </attrib>
<!-- Ranking weights. Each scoring criteria adds a score between -->
<!-- 0.0 and 1.0 which is then multiplied with the associated -->
<!-- weight below. Use a weight of 0 to disable a scorer -->
<section name="weights">
<attrib name="inverse_length" type="real"> 1.0 </attrib>
<attrib name="inverse_depth" type="real"> 1.0 </attrib>
<attrib name="is_landing_page" type="real"> 1.0 </attrib>
<attrib name="is_mime_markup" type="real"> 1.0 </attrib>
<attrib name="change_history" type="real"> 10.0 </attrib>
</section>
</section>
weights
このセクションでは、アダプティブ クロール プロセスに適用されるスコアを各 URI に与えます。このスコアは、URI に優先順位を与える役割を持ち、一連の規則に基づいて決定されます。各規則によってウェイトが与えられ、このウェイトが weights セクションで指定される合計スコアの一部となります。
属性
次の表に、このセクションの attrib 要素を指定します。
名前 | 種類 | 値 | 意味 |
---|---|---|---|
inverse_length |
real |
<値> |
逆長さ規則のウェイトを指定します。逆長さ規則は、パス セグメントの数 (スラッシュ記号の数) が少ない URI に高いスコアを与えます。スラッシュ記号が 10 以上ある URI のスコアは 0 です。 既定値: 1.0 |
inverse_depth |
real |
<値> |
逆深さ規則のウェイトを指定します。逆深さ規則は、開始 URI からのページ ホップの数を計算し、10 未満の URI に高いスコアを与えます。ページ ホップが 10 以上ある URI のスコアは 0 です。 既定値: 1.0 |
is_landing_page |
real |
<値> |
is_landing_page 規則のウェイトを指定します。この規則は、ジャンプ先であると判断された URI に高いスコアを与えます。ジャンプ先とは、/、/index.html、index.htm、index.php、index.jsp、index.asp、default.html、または default.htm のいずれかで終わる URI です。 この規則は、クエリ コンポーネントが含まれる URI にスコアを与えません。 既定値: 1.0 |
is_mime_markup |
real |
<値> |
is_mime_markup 規則のウェイトを指定します。この規則は、attrib の uri_search_mime 構成パラメーターで指定された MIME タイプのページに追加のスコアを与えます。 既定値: 1.0 |
change_history |
real |
<値> |
変更履歴規則のウェイトを指定します。この規則は、HTTP ヘッダーの "最終更新日" の値に基づいてスコアを与えます。変更される頻度の高い Web アイテムは、変更頻度の低い Web アイテムよりも高いスコアを獲得します。 既定値: 10.0 |
sitemap |
real |
<値> |
サイトマップ規則のウェイトを指定します。サイトマップ規則のウェイトは、sitemap_weights で指定します。 既定値: 10.0 |
例
<!-- Ranking weights. Each scoring criteria adds a score between -->
<!-- 0.0 and 1.0 which is then multiplied with the associated -->
<!-- weight below. Use a weight of 0 to disable a scorer -->
<section name="weights">
<!-- Score based on the number of /'es (segments) in the -->
<!-- URI. Max score with one, no score with 10 or more -->
<attrib name="inverse_length" type="real"> 1.0 </attrib>
<!-- Score based on the number of link "levels" down to -->
<!-- this URI. Max score with none, no score with >= 10 -->
<attrib name="inverse_depth" type="real"> 1.0 </attrib>
<!-- Score added if URI is determined as a "landing page", -->
<!-- defined as e.g. ending in "/" or "index.html". URIs -->
<!-- with query parameters are not given score -->
<attrib name="is_landing_page" type="real"> 1.0 </attrib>
<!-- Score added if URI points to a markup document as -->
<!-- defined by the "uri_search_mime" option. Assumption -->
<!-- being that such content changes more often than e.g. -->
<!-- "static" Word or PDF documents. -->
<attrib name="is_mime_markup" type="real"> 1.0 </attrib>
<!-- Score based on change history tracked over time by -->
<!-- using an estimator based on last modified date given -->
<!-- by the web server. If no modified date returned then -->
<!-- one is estimated (based on whether the document has -->
<!-- changed or not). -->
<attrib name="change_history" type="real"> 10.0 </attrib>
</section>
sitemap_weights
サイトマップ内の <URL>
エントリには changefreq 要素が含まれている場合があります。この要素は、URI が更新される頻度を指定します。
この要素の有効な文字列は、always、hourly、daily、weekly、monthly、yearly、および never です。この文字列値は数値のウェイトに変換されてアダプティブ クロールに使用されます。sitemap_weights セクションは、文字列値から数値のウェイトへのマッピングを指定します。この数値のウェイトが、weights セクションでのサイトマップ スコアの計算に使用されます。
URI のアダプティブ クロール スコアは、この数値のウェイトと sitemap 構成パラメーターのウェイトを掛けて計算されます。
属性
次の表に、このセクションの attrib 要素を示します。
重要
各要素の範囲は 0.0 ~ 1.0 です。
名前 | 種類 | 値 | 意味 |
---|---|---|---|
always |
real |
<値> |
changefreq 値 always のウェイトを数値で指定します。 既定値: 1.0 |
hourly |
real |
<値> |
changefreq 値 hourly のウェイトを数値で指定します。 既定値: 0.64 |
daily |
real |
<値> |
changefreq 値 daily のウェイトを数値で指定します。 既定値: 0.32 |
weekly |
real |
<値> |
changefreq 値 weekly のウェイトを数値で指定します。 既定値: 0.16 |
monthly |
real |
<値> |
changefreq 値 monthly のウェイトを数値で指定します。 既定値: 0.08 |
yearly |
real |
<値> |
changefreq 値 yearly のウェイトを数値で指定します。 既定値: 0.04 |
never |
real |
<値> |
changefreq 値 never のウェイトを数値で指定します。 既定値: 0.0 |
default |
real |
<値> |
<changefreq> 値が関連付けられていないすべての URI のウェイトを指定します。 既定値: 0.16 |
例
<section name="sitemap_weights">
<attrib name="always" type="real"> 1.0 </attrib>
<attrib name="hourly" type="real"> 0.64 </attrib>
<attrib name="daily" type="real"> 0.32 </attrib>
<attrib name="weekly" type="real"> 0.16 </attrib>
<attrib name="monthly" type="real"> 0.08 </attrib>
<attrib name="yearly" type="real"> 0.04 </attrib>
<attrib name="never" type="real"> 0.0 </attrib>
<attrib name="default" type="real"> 0.16 </attrib>
</section>
site_clusters
このセクションは、クローラーがホスト名をノード スケジューラにルーティングする動作を変更する構成パラメーターを指定します。このパラメーターを使用すると、ホスト名のグループを同じノード スケジューラとサイト マネージャーにルーティングできます。この機能は、use_cookies 設定が有効になっているときに便利です。Cookie はサイト マネージャー プロセス全体にのみグローバルであるからです。また、特定の Web サイトが相互に緊密にリンクする場合、それらのホスト名をクラスター化することで内部通信を削減できます。
属性
次の表に、このセクションの attrib 要素を示します。
名前 | 種類 | 値 | 意味 |
---|---|---|---|
name |
list-string |
グループとしてノード スケジューラに渡すホスト名の一覧を指定します。 |
例
<section name="site_clusters">
<attrib name="mycluster" type="list-string">
<member> host1.constoso.com </member>
<member> host2.constoso.com </member>
<member> host3.constoso.com </member>
</attrib>
</section>
crawlmode
このセクションは、クロール コレクションの範囲を制限します。
属性
次の表に、このセクションの attrib 要素を示します。
名前 | 種類 | 値 | 意味 |
---|---|---|---|
mode |
string |
クロールの深さを指定します。有効な値は FULL または DEPTH:# です。ここで、# は開始 URI からのページ ホップ数を意味します。 既定値: FULL |
|
fwdlinks |
boolean |
yes|no |
別のホスト名をポイントするハイパーリンクを追跡するかどうかを指定します。 既定値: yes |
fwdredirects |
boolean |
yes|no |
サーバーから受け取った外部 HTTP リダイレクトを追跡するかどうかを指定します。外部リダイレクトは、別のホスト名をポイントする HTTP リダイレクトです。 既定値: no |
reset_level |
boolean |
yes|no |
別のホスト名に移動するハイパーリンクを追跡するときに、mode で使用するページ ホップ カウンターをリセットするかどうかを指定します。 既定値: yes |
例
<section name="crawlmode">
<attrib name="mode" type="string"> DEPTH:1 </attrib>
<attrib name="fwdlinks" type="boolean"> yes </attrib>
<attrib name="fwdredirects" type="boolean"> yes </attrib>
<attrib name="reset_level" type="boolean"> no </attrib>
</section>
post_payload
このセクションは、HTTP POST 要求に対してコンテンツを送信するために使用します。コンテンツは、URI 全体が正確に一致するか URI プレフィックスに一致する URI に送信されます。
属性
次の表に、このセクションの attrib 要素を示します。
名前 |
種類 |
値 |
意味 |
name |
string |
ペイロード コンテンツ文字列を指定します。この文字列は、name XML 属性に指定した URI またはプレフィックスに一致する URI に送信されます。 name 属性に URI を指定した場合は、完全な一致が要求されます。 URI プレフィックスを指定する場合は、ラベル |
例
<section name="post_payload">
<attrib name="prefix:https://www.contoso.com/secure" type="string"> variable1=value1&variableB=valueB </attrib>
</section>
rss
このセクションは、クロール コレクションでの RSS フィード サポートを初期化および構成します。
属性
次の表に、このセクションの attrib 要素を示します。
名前 |
種類 |
値 |
意味 |
start_uris |
list-string |
RSS フィード アイテムをポイントする開始 URI の一覧を指定します。 |
|
start_uri_files |
list-string |
RSS フィード アイテムをポイントする URI が含まれるファイルへのパスの一覧を指定します。これらのファイルの形式は、1 行に 1 つの URI が記述されたテキスト形式である必要があります。 |
|
auto_discover |
boolean |
yes|no |
Web クローラーが新しい RSS フィードを検出するかどうかを指定します。このオプションを設定しない場合、RSS 開始 URI セクションと RSS 開始 URI ファイル セクションで指定したフィードのみが、RSS フィードとして扱われます。 既定値: no |
follow_links |
boolean |
yes|no |
Web クローラーが RSS フィード内に見つかった Web アイテムにあるハイパーリンクを追跡することを指定します (これが Web クローラーの通常の動作です)。このオプションを無効にすると、フィードから 1 ホップのみがクロールの対象となります。その場合、フィード自体とそこから参照される Web アイテムのみがクロールされます。 既定値: yes |
ignore_rules |
boolean |
yes|no |
Web クローラーが RSS フィードから参照されるすべての Web アイテムをクロールすることを指定します。このとき、include_domains、exclude_domains、include_uris、および exclude_uris で指定した包含/除外の規則によってクロールの対象となるかどうかは考慮されません。 既定値: no |
index_feed |
boolean |
yes|no |
Web クローラーが RSS フィード自体をインデックス付けエンジンに送信するか、フィード内からハイパーリンクが設定された Web アイテムのみを送信するかを指定します。 既定値: no |
del_expired_links |
boolean |
yes|no |
Web クローラーが、max_link_age および max_link_count の設定に従って、有効期限の切れたアイテムを RSS フィードから削除するかどうかを指定します。 既定値: no |
max_link_age |
integer |
<値> |
RSS フィード内に検出する Web アイテムの最大有効期間を分単位で指定します。del_expired_links 構成パラメーターが yes に設定されている場合にのみ、このオプションは適用されます。 既定値: 0 |
max_link_count |
integer |
<値> |
Web クローラーが 1 つの RSS フィードについて保存するハイパーリンクの最大数を指定します。Web クローラーはこの値を超えるハイパーリンクを見つけると、先入れ先出し法でハイパーリンクを破棄します。del_expired_links 構成パラメーターが yes に設定されている場合にのみ、このオプションが適用されます。 既定値: 128 |
例
<section name="rss">
<!-- Attempt to discover new rss feeds, yes/no -->
<attrib name="auto_discover" type="boolean"> yes </attrib>
<attrib name="del_expired_links" type="boolean"> yes </attrib>
<attrib name="follow_links" type="boolean"> yes </attrib>
<attrib name="ignore_rules" type="boolean"> no </attrib>
<attrib name="index_feed" type="boolean"> no </attrib>
<attrib name="max_link_age" type="integer"> 0 </attrib>
<attrib name="max_link_count" type="integer"> 128 </attrib>
<attrib name="start_uris" type="list-string">
<member> http://www.startsiden.no/rss.rss </member>
</attrib>
<!-- Start uri files (optional) -->
<attrib name="start_uri_files" type="list-string">
<member> /usr/fast/etc/rss_seedlist.txt </member>
</attrib>
</section>
logins
このセクションは、HTML フォームベース認証に使用する最低 1 つの logins セクション要素を指定します。この要素は特定の Web サイトのログインに関連付けられ、その name 属性には一意のログイン名が含まれている必要があります。
属性
次の表に、このセクションの attrib 要素を示します。
名前 | 種類 | 値 | 意味 |
---|---|---|---|
preload |
string |
<値> |
ログイン フォームを処理する前に取得するページの完全な URI を指定します。 |
scheme |
string |
http|https |
ログイン Web サイトの URI スキームを指定します。 有効な値は、http または https です。 |
site |
string |
<値> |
ログイン フォーム ページのホスト名を指定します。 |
form |
string |
<値> |
ログイン フォームのパスを指定します。 |
action |
string |
GET|POST |
フォームで HTTP POST または HTTP GET を使用することを指定します。 有効な値は、GET または POST です。 |
sites |
list-string |
<値> |
Web クローラーがクロール プロセスを開始する前にログオンする必要がある Web サイトまたはホスト名の一覧を指定します。 |
ttl |
integer |
<秒> |
再度ログインしなくてもクロールを続行できる時間を秒単位で指定します。 |
html_form |
string |
<値> |
ログイン フォームが含まれる HTML ページの URI を指定します。 |
autofill |
boolean |
yes|no |
Web クローラーが HTML ログイン フォームに情報を自動的に設定するかどうかを指定します。この属性を yes に設定した場合は、html_form 構成パラメーターを指定する必要があります。 |
relogin_if_failed |
boolean |
yes|no |
Web クローラーが、Web サイトへのログインに失敗した場合に ttl 秒後に再ログインを試みるかどうかを指定します。 |
備考
logins セクションの代わりに Login 要素を使用することもできます。
例
<section name="logins">
<section name="mytestlogin">
<!-- Instructs the crawler to "preload" potential cookies by -->
<!-- fetching this page and register any cookies before -->
<!-- proceeding with login -->
<attrib name="preload" type="string">http://preload.contoso.com/</attrib>
<attrib name="scheme" type="string"> https </attrib>
<attrib name="site" type="string"> login.contoso.com </attrib>
<attrib name="form" type="string"> /path/to/some/form.cgi </attrib>
<attrib name="action" type="string">POST</attrib>
<section name="parameters">
<attrib name="user" type="string"> username </attrib>
<attrib name="password" type="string"> password </attrib>
<attrib name="target" type="string"> sometarget </attrib>
</section>
<!-- Host names of sites requiring this login to crawl -->
<attrib name="sites" type="list-string">
<member> site1.contoso.com </member>
<member> site2.contoso.com </member>
</attrib>
<!-- Time to live for login cookie. Will re-log in when expires -->
<attrib name="ttl" type="integer"> 7200 </attrib>
</section>
</section>
parameters
このセクションは、HTML フォームに使用する認証用の資格情報を設定します。資格情報は、logins セクションまたは Login 要素で指定する必要があります。通常、資格情報のパラメーターは HTML フォームによって異なります。
autofill 構成パラメーターを有効にした場合、ブラウザー内に表示される変数のみを指定します。たとえば、ユーザー名やパスワード、またはそれらに相当するものです。この場合、Web クローラーは HTML ページを取得し、フォームを送信するために必要な "非表示" の変数を読み取る必要があります。この構成パラメーターで指定した変数の値は、フォームに保存された値に優先します。
属性
次の表に、このセクションの attrib 要素を示します。
名前 | 種類 | 値 | 意味 |
---|---|---|---|
name name XML 属性は、設定する HTML フォームの変数名を指定します。 |
string |
HTML フォーム変数の値を指定します。 |
例
<section name="parameters">
<attrib name="user" type="string"> username </attrib>
<attrib name="password" type="string"> password </attrib>
<attrib name="target" type="string"> sometarget </attrib>
</section>
subdomains
このセクションは、クロール サブコレクションの構成を指定します。subdomains セクションには最低 1 つの section XML 要素を設定し、各要素が 1 つのクロール サブコレクションを指定します。クロール サブコレクション セクションは、name 属性で設定される一意の名前を含む必要があります。
備考
subdomains セクションの代わりに SubDomain 要素を使用することもできます。
クロール サブコレクションの範囲を制限するために包含/除外の規則を指定する必要があります。これらの規則は、include_domains、exclude_domains、include_uris、および exclude_uris です。
attrib で指定した構成パラメーターのサブセットのみがサブセクションで使用できます。これらの構成パラメーターは、次のとおりです。
-
accept_compression
-
allowed_schemes
-
crawlmode
-
cut_off
-
delay
-
ftp_passive
-
headers
-
max_doc
-
proxy
-
refresh
-
refresh_mode
-
start_uris
-
start_uri_files
-
use_http_1_1
-
use_javascript
-
use_sitemaps
クロール サブコレクションの refresh 構成パラメーターは、メイン クロール コレクションよりも低い更新レートに設定されている必要があります。use_javascript、use_sitemaps、および max_doc 構成パラメーターは、クロール サブコレクションを指定するために include_uris 設定または exclude_uris 設定が使用される場合は、使用できません。
また、クロール サブコレクションでは rss セクションおよび variable_delay セクションを使用できます。
例
<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
<DomainSpecification name="subcollection_example">
<section name="subdomains">
<section name="subdomain_1">
<section name="include_uris">
<attrib name="prefix" type="list-string">
<member> https://www.contoso.com/index </member>
</attrib>
</section>
<attrib name="refresh" type="real"> 60.0 </attrib>
<attrib name="delay" type="real"> 10.0 </attrib>
<attrib name="start_uris" type="list-string">
<member> https://www.contoso.com/ </member>
</attrib>
</section>
</section>
</DomainSpecification>
</CrawlerConfig>
SubDomain
この要素は、クロール サブコレクションの構成を指定します。クロール サブコレクションは、クロール コレクション メンバーを区別するために定義するオブジェクトです。クロール コレクションには、複数の SubDomain 要素を格納できます。
SubDomain 要素の構成パラメーターは、subdomains で指定します。
SubDomain 要素には、attrib 要素と section 要素が含まれます。
属性
属性 | 値 | 意味 |
---|---|---|
name |
<名前> |
クロール サブコレクションの名前を指定する文字列です。 |
例
<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
<DomainSpecification name="subcollection_example">
<SubDomain name="subdomain_1">
<section name="include_uris">
<attrib name="prefix" type="list-string">
<member> https://www.contoso.com/index </member>
</attrib>
</section>
<attrib name="refresh" type="real"> 60.0 </attrib>
<attrib name="delay" type="real"> 10.0 </attrib>
<attrib name="start_uris" type="list-string">
<member> https://www.contoso.com/ </member>
</attrib>
</SubDomain>
</DomainSpecification>
</CrawlerConfig>
Login
この要素は、HTML フォームベース認証に使用されます。Login 要素の構成パラメーターは、logins で指定します。クロール コレクションには複数の Login 要素を格納できます。Login 要素には、attrib 要素と section 要素を格納できます。
属性
属性 | 値 | 意味 |
---|---|---|
name |
<値> |
ログインの固有名を指定する文字列です。 |
例
<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
<DomainSpecification name="login_example">
<Login name="mytestlogin">
<attrib name="preload" type="string">http://preload.contoso.com/
</attrib>
<attrib name="scheme" type="string"> https </attrib>
<attrib name="site" type="string"> login.contoso.com </attrib>
<attrib name="form" type="string"> /path/to/some/form.cgi </attrib>
<attrib name="action" type="string">POST</attrib>
<section name="parameters">
<attrib name="user" type="string"> username </attrib>
<attrib name="password" type="string"> password </attrib>
</section>
<attrib name="sites" type="list-string">
<member> site1.contoso.com </member>
<member> site2.contoso.com </member>
</attrib>
<attrib name="ttl" type="integer"> 7200 </attrib>
<attrib name="html_form" type="string">
http://login.contoso.com/login.html
</attrib>
<attrib name="autofill" type="boolean"> yes </attrib>
<attrib name="relogin_if_failed" type="boolean"> yes </attrib>
</Login>
</DomainSpecification>
</CrawlerConfig>
Node
この要素は、クロール コレクションまたはクロール サブコレクションの構成パラメーターを特定のノード スケジューラについて上書きするために使用します。Node 要素の構成パラメーターは、SubDomain、Login、attrib、および section で指定します。
Node 要素には、attrib 要素と section 要素が格納されます。
属性
属性 | 値 | 意味 |
---|---|---|
name |
<値> |
これらの構成パラメーターが適用されるノード スケジューラを指定する文字列です。 |
例
以下の例では、マルチノード展開を使用しています。ノード スケジューラの 1 つは、"crawler_node1" という名前です。ここでは "crawler_node1" に他のノードとは異なる遅延構成パラメーターを構成します。
<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
<DomainSpecification name="node_example ">
<attrib name="delay" type="real"> 60.0 </attrib>
<Node name="crawler_node1">
<attrib name="delay" type="real"> 90.0 </attrib>
</Node>
</DomainSpecification>
</CrawlerConfig>
XML スキーマ
Web クローラー構成ファイルは、以下の XML スキーマに従って書式が設定されている必要があります。
<?xml version="1.0" encoding="UTF-8" ?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema">
<xs:element name="CrawlerConfig" type="CT_CrawlerConfig"/>
<xs:complexType name="CT_CrawlerConfig >
<xs:choice minOccurs="0" maxOccurs="unbounded">
<xs:element name="DomainSpecification" type="CT_DomainSpecification"/>
</xs:choice>
</xs:complexType>
<xs:complexType name="CT_DomainSpecification">
<xs:choice minOccurs="0" maxOccurs="unbounded">
<xs:element name="attrib" type="CT_attrib" maxOccurs="unbounded"/>
<xs:element name="section" type="CT_section"/>
<xs:element name="SubDomain" type="CT_SubDomain"/>
<xs:element name="Login" type="CT_Login"/>
<xs:element name="Node" type="CT_Node"/>
</xs:choice>
<xs:attribute name="name" type="xs:string" use="required"/>
</xs:complexType>
<xs:complexType name="CT_attrib" mixed="true">
<xs:sequence minOccurs="0" maxOccurs="unbounded">
<xs:element name="member" type="ST_member"/>
</xs:sequence>
<xs:attribute name="name" type="xs:string" use="required"/>
<xs:attribute name="type" type="ST_type" use="required"/>
</xs:complexType>
<xs:complexType name="CT_section">
<xs:choice minOccurs="0" maxOccurs="unbounded">
<xs:element name="attrib" type="CT_attrib"/>
<xs:element name="section" type="CT_section"/>
</xs:choice>
<xs:attribute name="name" type="xs:string" use="required"/>
</xs:complexType>
<xs:complexType name="CT_SubDomain">
<xs:choice minOccurs="0" maxOccurs="unbounded">
<xs:element name="attrib" type="CT_attrib"/>
<xs:element name="section" type="CT_section"/>
</xs:choice>
<xs:attribute name="name" type="xs:string" use="required"/>
</xs:complexType>
<xs:complexType name="CT_Login">
<xs:choice minOccurs="0" maxOccurs="unbounded">
<xs:element name="attrib" type="CT_attrib"/>
<xs:element name="section" type="CT_section"/>
</xs:choice>
<xs:attribute name="name" type="xs:string" use="required"/>
</xs:complexType>
<xs:complexType name="CT_Node">
<xs:choice minOccurs="0" maxOccurs="unbounded">
<xs:element name="attrib" type="CT_attrib"/>
<xs:element name="section" type="CT_section"/>
</xs:choice>
<xs:attribute name="name" type="xs:string" use="required"/>
</xs:complexType>
<xs:simpleType name="ST_type">
<xs:restriction base="xs:string">
<xs:enumeration value="boolean"/>
<xs:enumeration value="string"/>
<xs:enumeration value="integer"/>
<xs:enumeration value="list-string"/>
<xs:enumeration value="real"/>
</xs:restriction>
</xs:simpleType>
<xs:simpleType name="ST_member">
<xs:restriction base="xs:string"></xs:restriction>
</xs:simpleType>
</xs:schema>
簡易な構成
次の例では、簡易な Web クローラー構成を設定します。ここでは、contoso.com Web サイトのみがクロールの対象となります。
<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
<DomainSpecification name="default_example">
<section name="crawlmode">
<attrib name="fwdlinks" type="boolean"> no </attrib>
<attrib name="fwdredirects" type="boolean"> no </attrib>
<attrib name="mode" type="string"> FULL </attrib>
<attrib name="reset_level" type="boolean"> no </attrib>
</section>
<attrib name="start_uris" type="list-string">
<member> https://www.contoso.com </member>
</attrib>
</DomainSpecification>
</CrawlerConfig>
一般的な構成
次の例では、一般的な構成パラメーターを含むクローラー構成を設定します。
<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
<DomainSpecification name="default_example">
<attrib name="accept_compression" type="boolean"> yes </attrib>
<attrib name="allowed_schemes" type="list-string">
<member> http </member>
<member> https </member>
</attrib>
<attrib name="allowed_types" type="list-string">
<member> text/html </member>
<member> text/plain </member>
</attrib>
<section name="cachesize">
<attrib name="aliases" type="integer"> 1048576 </attrib>
<attrib name="pp" type="integer"> 1048576 </attrib>
<attrib name="pp_pending" type="integer"> 131072 </attrib>
<attrib name="routetab" type="integer"> 1048576 </attrib>
</section>
<attrib name="check_meta_robots" type="boolean"> yes </attrib>
<attrib name="cookie_timeout" type="integer"> 900 </attrib>
<section name="crawlmode">
<attrib name="fwdlinks" type="boolean"> yes </attrib>
<attrib name="fwdredirects" type="boolean"> yes </attrib>
<attrib name="mode" type="string"> FULL </attrib>
<attrib name="reset_level" type="boolean"> no </attrib>
</section>
<attrib name="csum_cut_off" type="integer"> 0 </attrib>
<attrib name="cut_off" type="integer"> 5000000 </attrib>
<attrib name="dbswitch" type="integer"> 5 </attrib>
<attrib name="dbswitch_delete" type="boolean"> no </attrib>
<attrib name="delay" type="real"> 60.0 </attrib>
<attrib name="domain_clustering" type="boolean"> no </attrib>
<attrib name="enforce_delay_per_ip" type="boolean"> yes </attrib>
<attrib name="exclude_exts" type="list-string">
<member> .jpg </member>
<member> .jpeg </member>
<member> .ico </member>
<member> .tif </member>
<member> .png </member>
<member> .bmp </member>
<member> .gif </member>
<member> .wmf </member>
<member> .avi </member>
<member> .mpg </member>
<member> .wmv </member>
<member> .wma </member>
<member> .ram </member>
<member> .asx </member>
<member> .asf </member>
<member> .mp3 </member>
<member> .wav </member>
<member> .ogg </member>
<member> .ra </member>
<member> .aac </member>
<member> .m4a </member>
<member> .zip </member>
<member> .gz </member>
<member> .vmarc </member>
<member> .z </member>
<member> .tar </member>
<member> .iso </member>
<member> .img </member>
<member> .rpm </member>
<member> .cab </member>
<member> .rar </member>
<member> .ace </member>
<member> .hqx </member>
<member> .swf </member>
<member> .exe </member>
<member> .java </member>
<member> .jar </member>
<member> .prz </member>
<member> .wrl </member>
<member> .midr </member>
<member> .css </member>
<member> .ps </member>
<member> .ttf </member>
<member> .mso </member>
<member> .dvi </member>
</attrib>
<attrib name="extract_links_from_dupes" type="boolean"> no </attrib>
<attrib name="fetch_timeout" type="integer"> 300 </attrib>
<attrib name="force_mimetype_detection" type="boolean"> no </attrib>
<section name="ftp_errors">
<attrib name="4xx" type="string"> DELETE:3 </attrib>
<attrib name="550" type="string"> DELETE:0 </attrib>
<attrib name="5xx" type="string"> DELETE:3 </attrib>
<attrib name="int" type="string"> KEEP:0 </attrib>
<attrib name="net" type="string"> DELETE:3, RETRY:1 </attrib>
<attrib name="ttl" type="string"> DELETE:3 </attrib>
</section>
<attrib name="headers" type="list-string">
<member> User-Agent: FAST Enterprise Crawler 6 </member>
</attrib>
<attrib name="html_redir_is_redir" type="boolean"> yes </attrib>
<attrib name="html_redir_thresh" type="integer"> 3 </attrib>
<section name="http_errors">
<attrib name="4xx" type="string"> DELETE:0 </attrib>
<attrib name="5xx" type="string"> DELETE:10 </attrib>
<attrib name="int" type="string"> KEEP:0 </attrib>
<attrib name="net" type="string"> DELETE:3, RETRY:1 </attrib>
<attrib name="ttl" type="string"> DELETE:3 </attrib>
</section>
<attrib name="if_modified_since" type="boolean"> yes </attrib>
<attrib name="javascript_keep_html" type="boolean"> no </attrib>
<section name="limits">
<attrib name="disk_free" type="integer"> 0 </attrib>
<attrib name="disk_free_slack" type="integer"> 3 </attrib>
<attrib name="max_doc" type="integer"> 0 </attrib>
<attrib name="max_doc_slack" type="integer"> 1000 </attrib>
</section>
<section name="link_extraction">
<attrib name="a" type="boolean"> yes </attrib>
<attrib name="action" type="boolean"> yes </attrib>
<attrib name="area" type="boolean"> yes </attrib>
<attrib name="card" type="boolean"> yes </attrib>
<attrib name="comment" type="boolean"> no </attrib>
<attrib name="embed" type="boolean"> no </attrib>
<attrib name="frame" type="boolean"> yes </attrib>
<attrib name="go" type="boolean"> yes </attrib>
<attrib name="img" type="boolean"> no </attrib>
<attrib name="layer" type="boolean"> yes </attrib>
<attrib name="link" type="boolean"> yes </attrib>
<attrib name="meta" type="boolean"> yes </attrib>
<attrib name="meta_refresh" type="boolean"> yes </attrib>
</section>
<section name="log">
<attrib name="dsfeed" type="string"> text </attrib>
<attrib name="fetch" type="string"> text </attrib>
<attrib name="postprocess" type="string"> text </attrib>
<attrib name="site" type="string"> text </attrib>
</section>
<attrib name="login_failed_ignore" type="boolean"> no </attrib>
<attrib name="login_timeout" type="integer"> 300 </attrib>
<attrib name="max_backoff_counter" type="integer"> 50 </attrib>
<attrib name="max_backoff_delay" type="integer"> 600 </attrib>
<attrib name="max_doc" type="integer"> 1000000 </attrib>
<attrib name="max_pending" type="integer"> 2 </attrib>
<attrib name="max_redirects" type="integer"> 10 </attrib>
<attrib name="max_reflinks" type="integer"> 0 </attrib>
<attrib name="max_sites" type="integer"> 128 </attrib>
<attrib name="max_uri_recursion" type="integer"> 5 </attrib>
<attrib name="mufilter" type="integer"> 0 </attrib>
<attrib name="near_duplicate_detection" type="boolean"> no </attrib>
<attrib name="obey_robots_delay" type="boolean"> no </attrib>
<section name="pp">
<attrib name="ds_max_ecl" type="integer"> 10 </attrib>
<attrib name="ds_meta_info" type="list-string">
<member> duplicates </member>
<member> redirects </member>
<member> mirrors </member>
<member> metadata </member>
</attrib>
<attrib name="ds_paused" type="boolean"> no </attrib>
<attrib name="ds_send_links" type="boolean"> no </attrib>
<attrib name="max_dupes" type="integer"> 10 </attrib>
<attrib name="stripe" type="integer"> 1 </attrib>
</section>
<section name="ppdup">
<attrib name="compact" type="boolean"> yes </attrib>
</section>
<attrib name="proxy_max_pending" type="integer"> 2147483647 </attrib>
<attrib name="refresh" type="real"> 1440.0 </attrib>
<attrib name="refresh_mode" type="string"> scratch </attrib>
<attrib name="refresh_when_idle" type="boolean"> no </attrib>
<attrib name="robots" type="boolean"> yes </attrib>
<attrib name="robots_auth_ignore" type="boolean"> yes </attrib>
<attrib name="robots_timeout" type="integer"> 300 </attrib>
<attrib name="robots_tout_ignore" type="boolean"> no </attrib>
<attrib name="robots_ttl" type="integer"> 86400 </attrib>
<section name="rss">
<attrib name="auto_discover" type="boolean"> no </attrib>
<attrib name="del_expired_links" type="boolean"> no </attrib>
<attrib name="follow_links" type="boolean"> no </attrib>
<attrib name="ignore_rules" type="boolean"> no </attrib>
<attrib name="index_feed" type="boolean"> no </attrib>
<attrib name="max_link_age" type="integer"> 0 </attrib>
<attrib name="max_link_count" type="integer"> 128 </attrib>
</section>
<attrib name="smfilter" type="integer"> 0 </attrib>
<attrib name="sort_query_params" type="boolean"> no </attrib>
<attrib name="start_uris" type="list-string">
<member> https://www.contoso.com </member>
</attrib>
<section name="storage">
<attrib name="clusters" type="integer"> 8 </attrib>
<attrib name="compress" type="boolean"> yes </attrib>
<attrib name="compress_exclude_mime" type="list-string">
<member> application/x-shockwave-flash </member>
</attrib>
<attrib name="datastore" type="string"> bstore </attrib>
<attrib name="defrag_threshold" type="integer"> 85 </attrib>
<attrib name="remove_docs" type="boolean"> no </attrib>
<attrib name="store_dupes" type="boolean"> no </attrib>
<attrib name="store_http_header" type="boolean"> yes </attrib>
</section>
<attrib name="truncate" type="boolean"> no </attrib>
<attrib name="umlogs" type="boolean"> yes </attrib>
<attrib name="uri_search_mime" type="list-string">
<member> text/html </member>
<member> text/vnd.wap.wml </member>
<member> text/wml </member>
<member> text/x-wap.wml </member>
<member> x-application/wml </member>
<member> text/x-hdml </member>
</attrib>
<attrib name="use_cookies" type="boolean"> no </attrib>
<attrib name="use_http_1_1" type="boolean"> yes </attrib>
<attrib name="use_javascript" type="boolean"> no </attrib>
<attrib name="use_meta_csum" type="boolean"> no </attrib>
<attrib name="use_sitemaps" type="boolean"> no </attrib>
<section name="workqueue_priority">
<attrib name="default" type="integer"> 1 </attrib>
<attrib name="levels" type="integer"> 1 </attrib>
<attrib name="pop_scheme" type="string"> default </attrib>
<attrib name="start_uri_pri" type="integer"> 1 </attrib>
</section>
</DomainSpecification>
</CrawlerConfig>