エンタープライズ検索の関連性アーキテクチャの概要
Search での関連性とは、ユーザーに返される検索結果と、ユーザーが発見することを望んでいた情報が、どの程度よく一致しているのかということです。最初のページで返される結果が最も関連性が高く、ユーザーが複数の結果ページを見なくても検索と最もよく一致する情報を見つけられるのが、理想的な状態です。
Microsoft Office SharePoint Server 2007 でのエンタープライズ検索 には、Microsoft Research との共同開発による改良された順位付けエンジンが組み込まれています。このエンジンは、エンタープライズ コンテンツの検索に固有の要件に合わせて、特別に調整されています。
静的順位付けと動的順位付けの概要
関連性の計算では、静的と動的という 2 種類の順位付け式コンポーネントが使用されます。これら 2 つのコンポーネントの違いは、計算される順位が、クエリ条件、およびコンテンツ アイテムのさまざまなプロパティにおける実際の内容やテキストによって、影響を受けるかどうかということに関係します。
動的順位付け
動的順位付けは、コンテンツ アイテムの内容やプロパティ値によって影響を受ける順位を作成します。クエリ依存順位付けとも呼ばれます。
以下では、エンタープライズ検索 の関連性計算で使用される動的順位付けアルゴリズムに使用されるコンポーネントの概要について説明します。
アンカー テキスト
アンカー テキストは、ハイパーリンクのターゲット コンテンツを説明するためにハイパーリンクと共に組み込まれるテキストです。エンタープライズ検索 がコンテンツ アイテムをクロールするときには、このテキストがそのコンテンツのインデックスに含まれます。アンカー テキストは、順位付けだけに影響を与え、結果セットにコンテンツ アイテムを含めるかどうかの決定要因ではありません。たとえば、すべてのクエリ条件がアンカー テキストにおいてのみ見つかり、アイテムの実際の内容には見つからない場合、そのリンクは古い可能性があり、そのコンテンツ アイテムは結果に含められません。
Search は、次の要素からアンカー テキストのインデックスを作成します。
HTML のアンカー要素
Windows SharePoint Services のリンク リスト
Microsoft Office SharePoint Portal Server 2003 のリスト
Microsoft Office Word 2007、Microsoft Office Excel 2007、および Microsoft Office PowerPoint 2007 のハイパーリンク (新しい Office Open XML 形式を使用しているファイルについてのみ)
プロパティの重み付け
重要
プロパティの重みを勝手に変更すると、システムの全体的な関連性に悪影響があるので、変更および変更が検索結果の精度に与える影響について適切な評価を行わずに重みを変更することはお勧めしません。
プロパティの中には、関連性の計算に関して他より重要なものがあります。これをプロパティの重み付けと呼びます。エンタープライズ検索 では、プロパティごとに重みを変更してこのようなプロパティを示し、関連性を計算するときにより大きい重みが与えられるようにすることができます。そのためには、検索管理オブジェクト モデルを使用する必要があります。これを行う方法を示したコード サンプルについては、「[方法] 管理プロパティの重み設定を変更する」を参照してください。
注意
Microsoft Office SharePoint Portal Server 2003 バージョンの SQL 検索構文は、クエリ時の列の重み付けをサポートしていました。Microsoft Office SharePoint Server 2007 でのエンタープライズ検索 バージョンの SQL 検索構文は、列の重み付けをサポートしていません。Office SharePoint Server 2007 に移行された検索クエリに列の重み付けが含まれる場合、検索クエリは機能しますが、列の重み付けの値は無視されます。
プロパティの長さの正規化
コンテンツ アイテムは、長さが異なる複数のプロパティを持つことができます。関連性の計算において、このようなプロパティの値をそのサイズに関係なく等しく扱うと、計算される順位に悪影響がある場合があります。長さの正規化では、プロパティの長さと長さの正規化の設定に基づいて、コンテンツ アイテムの順位が調整されます。プロパティの長さの正規化を実行するには、検索管理オブジェクト モデルを使用する必要があります。
URL の一致
URL の一致は、エンタープライズ検索 が、コンテンツ アイテムの URL が指定された検索条件と直接一致するかどうかを検査するプロセスです。
タイトルの抽出
タイトルの抽出つまり関連性の計算でタイトルの値を使用することは、コンテンツ アイテムに適切な名前が付けられている場合は、より関連性の高いコンテンツを返すのに役立ちます。ただし、タイトル プロパティの値がコンテンツを正確に反映していない場合があります。たとえば、次のようなタイトルでは、コンテンツに関する価値のある情報は提供されません。
Slide 1 (PowerPoint プレゼンテーション ファイルでの最初のスライドの既定の名前。変更しないと、PowerPoint はプレゼンテーション ファイル名としてこれを使用します)
Document 1 (Word ドキュメント ファイルの既定の名前。変更しないと、Word はドキュメント ファイル名としてこれを使用します)
これらのタイトルの例ではファイルの内容に関する価値のある情報は提供されないので、Search には関係ありません。このような問題を回避するため、エンタープライズ検索 は、コンテンツ アイテムの本体内で別のタイトル候補を検出し、関連性の計算では、実際のタイトルと共にこの値を使用します。
注意
この処理は、Microsoft Office ファイルについてのみ行われます。
静的順位付け
静的順位付けは、コンテンツ アイテムの内容やプロパティ値によって影響を受けない順位を作成します。クエリ独立順位付けとも呼ばれます。
以下では、エンタープライズ検索 の関連性計算で使用される静的順位付けアルゴリズムに使用されるコンポーネントの概要について説明します。
クリック ディスタンス
ドキュメント、Web ページ、リスト、または他のアイテムは、他のコンテンツ アイテムにリンクされます。これはおそらく、リンク先のコンテンツ アイテムに、リンクを含む元のアイテムのコンテンツに関係があり、その価値を高めるような情報が含まれるためです。したがって、ハイパーリンクの数やハイパーリンクが配置される場所など、特定のコンテンツ アイテムに対するこのようなハイパーリンクに関する情報は、関連性の判定に役立ちます。
クリック ディスタンスは、コンテンツ アイテムと、コンテンツ アイテムにリンクしている "エキスパート" ページの間にあるリンクの数を表します。検索の関連性を計算するときの開始位置は、「Authoritative Pages and Demoted Sites」で説明されているような信頼できるページです。信頼できるページからコンテンツ アイテムに至るまでにクローラが移動する必要のあるリンクが多いほど、関連性のスコアは低くなります。コンテンツ アイテムまでに複数のパスが存在する場合は、最短のパス、つまり信頼できるページからコンテンツ アイテムまでのリンクの数が最少のパスに基づいて、関連性が計算されます。
URL の深さ
重要なコンテンツまたは関連のあるコンテンツは、サイトの数レベル深い場所ではなく、サイトの階層の最上位近くにあることがよくあります。これにより、コンテンツの URL は短くなり、ユーザーが覚えやすく、またアクセスしやすくなります。エンタープライズ検索 は、URL の深さを調べることでこの事実を利用します。URL の深さとは、コンテンツ アイテムが見つかるレベルのサイト内での深さのことです。レベルは、URL に含まれるスラッシュ ("/") 文字の数を調べることで判別されます。URL パスに含まれるスラッシュ文字の数が多いほど、そのコンテンツ アイテムまでの URL は深くなります。結果として、URL の深さの値が大きいほど、そのコンテンツの関連性は低くなります。
自動言語検出
ユーザーは、話せない言語より話せる言語のコンテンツを探す傾向があります。エンタープライズ検索 は、ユーザーが使用しているブラウザの "Accept-Language" ヘッダーに基づいて、ユーザーの言語を判別します (自動言語検出)。関連性の計算では、ユーザーの言語で取得されたコンテンツの方が、他の言語のコンテンツより関連性が高いと見なされます。ただし、英語のコンテンツは例外です。英語のコンテンツは、ユーザーの言語のコンテンツと同程度の関連性があると見なされます。
ファイル種類のバイアス
ほとんどの検索シナリオでは、特定のファイルの種類が他の種類より高い関連性を持ちます。たとえば、HTML ページと Word ドキュメントは、通常、Excel スプレッドシートやプレーン テキスト ファイルより、ユーザーの検索に大きく関連します。
エンタープライズ検索 の関連性計算には、一部のファイル種類を他のファイル種類より高く順位付けする順位付けアルゴリズムが組み込まれています。次に示すのは、この処理が適用されるファイルの種類であり、エンタープライズ検索 での既定の順位付けで、順位の高いものから順番に並んでいます。
HTML Web ページ
PowerPoint プレゼンテーション
Word ドキュメント
XML ファイル
Excel スプレッドシート
プレーン テキスト ファイル
リスト アイテム
See Also
参照
Microsoft.Office.Server.Search.Administration.Ranking
Microsoft.Office.Server.Search.Administration.Schema
Microsoft.Office.Server.Search.Administration.Keywords
概念
エンタープライズ検索管理オブジェクト モデルを使うにあたって