クロール ルールとフィルタの種類を定義する
Microsoft Office SharePoint Server 2007 でのエンタープライズ検索 では、クロール ルールと拡張子を使用して、コンテンツ ソースの特定のコンテンツ セットをクロールする方法を定義します。
クロール ルール
クロール ルールを使用すると、特定のパスのコンテンツをクロールする際の エンタープライズ検索 インデックス エンジンの動作を設定できます。クロール ルールを使用すると、次のことを行うことができます。
特定のパスに存在するコンテンツをクロールから除外する。
たとえば、コンテンツ ソースが https://www.microsoft.com/ のような URL パスを指していて、"downloads" サブディレクトリ https://www.microsoft.com/downloads/ のコンテンツはクロールしないようにする場合は、このサブディレクトリのコンテンツを除外するように設定した動作で、この URL に対するルールを設定します。
何も指定しないとクロールから除外される特定のパスをクロールするように指示する。
前の例を使用すると、downloads ディレクトリに "content" という名前のディレクトリがあり、このディレクトリはクロールに含める必要がある場合は、"content" サブディレクトリ https://www.microsoft.com/downloads/content を含めるように設定した動作で、この URL に対するクロール ルールを作成します。
注意
これは、HTTP コンテンツに対してのみ適用されます。
認証資格情報を指定する。
このルールは、アクセス先のコンテンツが既定のコンテンツ アクセス アカウントに指定されているものとは異なる資格情報必要とする場合に使用します。
クロール ルールでは、アスタリスク (*) をワイルドカード文字として使用できます。次はその例です。
http://*.microsoft.com/*.html
注意
コンテンツ ソースを定義したりスコープを提供したりする別の手段としてルールを使用しないでください。ルールは、コンテンツ ソースの特定のコンテンツ セットを処理する方法をさらに詳細に指定するために使用します。
クロール ルールの順序
ルールの順序は重要です。特定のコンテンツ セットと一致する最初のルールが適用されます。したがって、前の例では, .aspx ページを除外するルールが最初に記述されているので、クローラが http://hostname 内で .aspx ページを検出すると常に、そのページが両方のルールに一致していたとしても、そのページは除外されて、他のルールは適用されません。
クロール ルールのオブジェクト モデル
個別のクロール ルールは、CrawlRule クラスによって表されます。クロール ルールの完全なセットは、CrawlRuleCollection クラスに格納されています。CrawlRuleCollection クラスでは、Create() メソッドを使用すると新しいクロール ルールを追加でき、SetPriority() メソッドを使用すると既存のクロール ルールの優先度を設定でき、Test() メソッドを使用するとすべてのクロール ルールに対して URL またはパスを検査して適用するものを決定できます。
更新の場合、または個別のクロール ルールを検査する場合は、CrawlRule オブジェクトを使用します。また、このオブジェクトを使用すると、そのルールと一致するコンテンツに対して使用する、またはルールを削除する場合に使用する、コンテンツ アクセス資格情報を指定できます。
ファイルの種類
ファイル種類の包含/除外リストには、クローラがインデックスに含める、またはインデックスから除外するファイルの種類を示す拡張子の一覧が含まれます。クローラが特定の種類のファイルのコンテンツおよびプロパティを抽出するには、そのファイル種類用のフィルタが、インデックス サービスが稼働しているサーバーにインストールされている必要があります。
また、特定のファイルの種類と関連付けられたフィルタがインストールされている場合であっても、リストを使用してそのファイル種類を除外できます。
ファイルの種類のオブジェクト モデル
個別のファイル名拡張子は、Extension クラスによって表されます。このオブジェクトを使用すると、ファイル名拡張子を削除できます。拡張子は ExtensionCollection オブジェクト内にグループ化されています。新しいファイル名拡張子を指定するには、Create() メソッドを使用します。
See Also
タスク
参照
Microsoft.Office.Server.Search.Administration.CrawlRule
Microsoft.Office.Server.Search.Administration.Extension