クロールされるコンテンツの量を制限または増加させる (Search Server 2008)。

更新日: 2008年10月

適用対象: Microsoft Search Server 2008

 

トピックの最終更新日: 2015-03-09

注意

別途記載のない限り、この記事の情報は Microsoft Search Server 2008 と Microsoft Search Server 2008 Express の両方に適用されます。

運用中には、通常、クロールしているコンテンツの量を変更しなければならなくなります。たとえば、次のような場合です。

  • 既存のコンテンツ ソースによって定義されている特定の名前空間で、一部のサイトのクロールを中止する。

  • 異なる深さでサイトをクロールする。

  • クロールするファイルの種類の数を変更する。これには、新しいファイルの種類でクロールを開始すること、既存のファイルの種類でクロールを中止すること、またはその両方が含まれます。

組織のニーズの変化に応じて、新しいコンテンツ ソース全体をクロールする必要が生じることもあります。新しいコンテンツ ソース全体をクロールする方法の詳細については、「コンテンツ ソースについて (Search Server 2008)」を参照してください。

次の設定を使用して、クロールされるコンテンツの量を増加させるか、あるいは制限できます。

  • コンテンツ ソースのクロース設定   たとえば、特定のコンテンツ ソースで指定されている開始アドレスのみをクロールするよう指定したり、開始アドレスからどの深さの名前空間までクロールするかを指定したり、許可するサーバー ホップ数を指定したりできます。コンテンツ ソース内で、クロールされるコンテンツの量を指定するために使用できるオプションは、コンテンツ ソースの種類によって異なります。

  • ファイルの種類の追加   クロールするファイルの種類を選択できます。

  • クロール ルール   クロール ルールを使用して、所定のパスのすべてのアイテムをクロール対象から除外できます。これは、インデックスを作成する必要のないサブサイトが、クロールする親サイトと共にクロールされないようにするのに最適な方法です。また、クロール ルールを使用して、たとえば所定のパスの複雑な URL をクロールするなど、クロールするコンテンツの量を増やすこともできます。

クロールの設定

各コンテンツ ソースについて、そのコンテンツ ソース内の開始アドレスのクロール範囲を選択できます。また、クロールの動作 (クロールの設定) も指定できます。特定のコンテンツ ソースについて選択できるオプションは、選択したコンテンツの種類によって異なります。しかし、ほとんどのオプションは、コンテンツ ソースに指定されているそれぞれの開始アドレスから、どの階層レベルの深さまでクロールするかを指定するものです。この動作は、特定のコンテンツ ソース内のすべての開始アドレスに適用されることに注意してください。

各コンテンツ ソースのプロパティで使用できるオプションは、選択したコンテンツ ソースの種類によって異なります。次の表に、各コンテンツ ソースの種類に対応するクロールの設定オプションを示します。

コンテンツ ソースの種類 クロール設定オプション

SharePoint サイト

  • 各開始アドレスからホスト名の下にあるすべて

  • 各開始アドレスの SharePoint サイトのみ

Web サイト

  • 各開始アドレスのサーバー内のみ

  • 各開始アドレスの先頭ページのみ

  • カスタム - ページの深さおよびサーバー ホップ数を指定します。

    注意

    このオプションの既定の設定では、ページの深さおよびサーバー ホップは無制限です。

ファイル共有

  • 各開始アドレスのフォルダおよびすべてのサブフォルダ

  • 各開始アドレスのフォルダのみ

Exchange パブリック フォルダ

  • 各開始アドレスのフォルダおよびすべてのサブフォルダ

  • 各開始アドレスのフォルダのみ

前出の表で示したように、検索サービスの管理者はクロール設定オプションを使用することで、クロールするコンテンツの量を制限したり、増やしたりできます。

以下の表では、クロール設定オプションを構成する際のベスト プラクティスについて説明します。

コンテンツ ソースの種類 目的 使用するクロール設定オプション

SharePoint サイト

特定のサイト コレクション上のコンテンツを、他のサイト コレクションとは異なるスケジュールでクロールする。

各開始アドレスから SharePoint サイトのみをクロールする。

注意

このオプションには任意の URL を指定できますが、URL で指定されるサイト コレクションのトップレベル サイトからクロールが開始されます。たとえば、http://contoso/sites/sales がサイト コレクションのトップレベル サイトである場合は、「http://contoso/sites/sales/car」と入力すると、http://contoso/sites/sales とそのサブサイトすべてがクロールされます。

SharePoint サイト

特定の Web アプリケーションのすべてのサイト コレクションに含まれるコンテンツを、すべて同じスケジュールでクロールする。

各開始アドレスから、ホスト名の下にあるすべてをクロールする。

注意

このオプションには、開始アドレスとして、http://contoso などのホスト名のみを指定できます。このオプションを使用する場合、http://contoso/sites/sales などのサブサイトの URL を使用することはできません。

Web サイト

サイト自体に含まれるコンテンツが関連している。

または

リンクされたサイトで利用できるコンテンツがあまり関連しない。

各開始アドレスのサーバー内のみをクロールする。

Web サイト

関連するコンテンツが最初のページのみに存在する。

各開始アドレスの最初のページのみをクロールする。

Web サイト

開始アドレスのリンクをクロールする深さを制限する必要がある。

カスタム - クロールするページの深さとサーバー ホップ数を指定します。

注意

接続の多いサイトでは、4 ページ以上の深さ、または 4 以上のサーバー ホップ数を指定すると、インターネット全体をクロールすることになる場合があるため、最初は小さい値を指定することをお勧めします。

注意

1 つ以上のクロール ルールを使用して、クロールするコンテンツを指定することもできます。詳細については、「クロール ルールを使用してクロールするコンテンツを決定する (Search Server 2008)」を参照してください。

ファイル共有

Exchange パブリック フォルダ

サブフォルダ内の利用できるコンテンツがあまり関連しない。

各開始アドレスのフォルダのみをクロールする

ファイル共有

Exchange パブリック フォルダ

サブフォルダ内のコンテンツが関連する可能性がある

各開始アドレスのフォルダとサブフォルダをクロールする

ファイルの種類の追加と IFilter

コンテンツがクロールされるのは、関連するファイル名拡張子がファイル タイプ追加リストに含まれており、そのファイル タイプをサポートするインデックス サーバーに IFilter がインストールされている場合に限られます。いくつかのファイル タイプは、初期インストール時に自動的に追加されます。クエリ ログを分析することで、エンド ユーザーが照会するコンテンツのファイル タイプを特定できます。現在クロールしていないファイル タイプをクロールしたり、特定のファイル タイプをクロールから除外したりすることが必要になる場合があります。

ファイル タイプ追加リストにファイル タイプを追加する場合、クロール時にそのファイル タイプの構文解析に使用できる IFilter がインストールされていることも確認する必要があります。IFilter がインストールされていないと、指定したファイル タイプのコンテンツがインデックス付けされず、検索できなくなります。ただし、そのファイル タイプのメタデータはクロールされるので、検索できます。たとえば、ファイル タイプ追加リストに PDF を追加しても、PDF ファイル タイプの IFilter をインストールしないと、PDF ファイルのコンテンツはインデックス付けされません。ただし、PDF ファイルのメタデータはインデックス付けされます。

Microsoft Search Server 2008 には数種類の IFilter が用意されていますが、Microsoft やサード パーティ ベンダも IFilter を提供しています。また、ソフトウェア開発者は、必要に応じて新しいファイル タイプに対応した IFilter を作成できます。Microsoft 提供の追加の IFilters を Search Server 2008 に登録する方法については、「Search Server 2008 および SharePoint Server 2007 と Microsoft フィルタ Pack の登録方法」(https://go.microsoft.com/fwlink/?linkid=110532&clcid=0x411) を参照してください。サード パーティ ベンダ製のものを含む IFilters の詳細については、「Filter Central (英語)」(https://go.microsoft.com/fwlink/?linkid=131255&clcid=0x411) を参照してください。

既定でインストールされる IFilter のサポートするファイル タイプのリスト、および既定でクロールが有効になるファイル タイプのリストについては、「IFilter をインストールして、より多くのファイルの種類をクロールする (Search Server 2008)」を参照してください。

クロール ルールを使用してコンテンツを制限または除外する

既存のクロール ルールを編集するか、新しいクロール ルールを作成して、特定のパスのすべてのアイテムを除外したり、特定のアイテムを含めたりできます。

注意

コンテンツ ソースに開始アドレスを追加して既定の動作を適用すると、その開始アドレスの下位にあるサブサイトまたはフォルダは、1 つまたは複数のクロール ルールを使用してそれらを除外しない限り、すべてクロールされます。

クロール ルールは、特定の URL、またはワイルドカードで表される一連の URL に適用されます (この URL はルールの影響を受ける "パス" とも呼ばれます)。クロール ルールを使用して、次の処理を実行できます。

  • 1 つ以上の URL を除外することで、あまり関係のないコンテンツのクロールを避ける。これによって、サーバー リソースおよびネットワーク トラフィックの使用が抑制されるとともに、検索結果の関連性が向上します。

  • URL 自体をクロールせずに、URL のリンクをクロールする。このオプションは、関連するコンテンツのリンクを含むサイトで、リンクを含むページに関連情報がない場合や、そのページがエンド ユーザーの検索結果ページに表示されないようにする場合に便利です。

  • 複雑な URL のクロールを可能にする。このオプションを実行すると、疑問符で指定されたクエリ パラメータを含む URL がクロールされます。サイトによって、このような URL には関連するコンテンツが含まれている場合と含まれていない場合があります。複雑な URL はあまり関連のないサイトにリダイレクトされることが多いので、複雑な URL から利用できるコンテンツの関連性が高いことがわかっているサイトについてのみ、このオプションを有効にすることをお勧めします。

    注意

    SharePoint サイトをクロールするとき、Search Server 2008 はすべてのコンテンツを列挙するため、このオプションは SharePoint サイトのクロールでは効果がありません。

注意

クロール ルールは、すべてのコンテンツ ソースに同時に適用されます。

通常、特定のサイト アドレスのほとんどのコンテンツには関連性がありますが、サイト アドレスの下位にある特定のサブサイトや一連のサイトには関連性がないコンテンツが含まれます。不要なアイテムを除外するクロール ルールを作成するために、主な URL の組み合わせを選択することによって、検索サービスの管理者はインデックス内のコンテンツの関連性を最大化し、クロールのパフォーマンスに対する影響や検索データベースのサイズを最小限に抑えることができます。組織内のユーザーはリソースの使用に対する影響を制御できないため、URL を除外するクロール ルールの作成は、外部コンテンツに対して開始アドレスを計画する場合に特に有効です。

クロール ルールを作成するときには、パスに標準的なワイルドカード文字を使用できます。たとえば、次のように使用します。

  • http://server1/folder* には、http://server1/folder で始まる URL のすべての Web リソースが含まれます。

  • *://*.txt には、ファイル名拡張子が txt であるすべてのドキュメントが含まれます。

コンテンツのクロールではリソースと帯域幅が消費されるため、少量でも関連することがわかっているコンテンツを含めることをお勧めします。初期展開後、クエリおよびクロールのログを検討して、より関連性が高く、より多くのコンテンツが含まれるように、コンテンツ ソースおよびクロール ルールを調整できます。

クロールするコンテンツの量を制限または増加させるには、以下の手順を実行します。