エンタープライズ検索の関連性アーキテクチャの概要

[アーティクル]
06/15/2015

Search での関連性とは、ユーザーに返される検索結果と、ユーザーが発見することを望んでいた情報が、どの程度よく一致しているのかということです。最初のページで返される結果が最も関連性が高く、ユーザーが複数の結果ページを見なくても検索と最もよく一致する情報を見つけられるのが、理想的な状態です。

Microsoft Office SharePoint Server 2007 でのエンタープライズ検索には、Microsoft Research との共同開発による改良された順位付けエンジンが組み込まれています。このエンジンは、エンタープライズコンテンツの検索に固有の要件に合わせて、特別に調整されています。

静的順位付けと動的順位付けの概要

関連性の計算では、静的と動的という 2 種類の順位付け式コンポーネントが使用されます。これら 2 つのコンポーネントの違いは、計算される順位が、クエリ条件、およびコンテンツアイテムのさまざまなプロパティにおける実際の内容やテキストによって、影響を受けるかどうかということに関係します。

動的順位付け

動的順位付けは、コンテンツアイテムの内容やプロパティ値によって影響を受ける順位を作成します。クエリ依存順位付けとも呼ばれます。

以下では、エンタープライズ検索の関連性計算で使用される動的順位付けアルゴリズムに使用されるコンポーネントの概要について説明します。

アンカーテキスト

アンカーテキストは、ハイパーリンクのターゲットコンテンツを説明するためにハイパーリンクと共に組み込まれるテキストです。エンタープライズ検索がコンテンツアイテムをクロールするときには、このテキストがそのコンテンツのインデックスに含まれます。アンカーテキストは、順位付けだけに影響を与え、結果セットにコンテンツアイテムを含めるかどうかの決定要因ではありません。たとえば、すべてのクエリ条件がアンカーテキストにおいてのみ見つかり、アイテムの実際の内容には見つからない場合、そのリンクは古い可能性があり、そのコンテンツアイテムは結果に含められません。

Search は、次の要素からアンカーテキストのインデックスを作成します。

HTML のアンカー要素
Windows SharePoint Services のリンクリスト
Microsoft Office SharePoint Portal Server 2003 のリスト
Microsoft Office Word 2007、Microsoft Office Excel 2007、および Microsoft Office PowerPoint 2007 のハイパーリンク (新しい Office Open XML 形式を使用しているファイルについてのみ)

プロパティの重み付け

重要

プロパティの重みを勝手に変更すると、システムの全体的な関連性に悪影響があるので、変更および変更が検索結果の精度に与える影響について適切な評価を行わずに重みを変更することはお勧めしません。

プロパティの中には、関連性の計算に関して他より重要なものがあります。これをプロパティの重み付けと呼びます。エンタープライズ検索では、プロパティごとに重みを変更してこのようなプロパティを示し、関連性を計算するときにより大きい重みが与えられるようにすることができます。そのためには、検索管理オブジェクトモデルを使用する必要があります。これを行う方法を示したコードサンプルについては、「[方法] 管理プロパティの重み設定を変更する」を参照してください。

注意

Microsoft Office SharePoint Portal Server 2003 バージョンの SQL 検索構文は、クエリ時の列の重み付けをサポートしていました。Microsoft Office SharePoint Server 2007 でのエンタープライズ検索バージョンの SQL 検索構文は、列の重み付けをサポートしていません。Office SharePoint Server 2007 に移行された検索クエリに列の重み付けが含まれる場合、検索クエリは機能しますが、列の重み付けの値は無視されます。

プロパティの長さの正規化

コンテンツアイテムは、長さが異なる複数のプロパティを持つことができます。関連性の計算において、このようなプロパティの値をそのサイズに関係なく等しく扱うと、計算される順位に悪影響がある場合があります。長さの正規化では、プロパティの長さと長さの正規化の設定に基づいて、コンテンツアイテムの順位が調整されます。プロパティの長さの正規化を実行するには、検索管理オブジェクトモデルを使用する必要があります。

URL の一致

URL の一致は、エンタープライズ検索が、コンテンツアイテムの URL が指定された検索条件と直接一致するかどうかを検査するプロセスです。

タイトルの抽出

タイトルの抽出つまり関連性の計算でタイトルの値を使用することは、コンテンツアイテムに適切な名前が付けられている場合は、より関連性の高いコンテンツを返すのに役立ちます。ただし、タイトルプロパティの値がコンテンツを正確に反映していない場合があります。たとえば、次のようなタイトルでは、コンテンツに関する価値のある情報は提供されません。

Slide 1 (PowerPoint プレゼンテーションファイルでの最初のスライドの既定の名前。変更しないと、PowerPoint はプレゼンテーションファイル名としてこれを使用します)
Document 1 (Word ドキュメントファイルの既定の名前。変更しないと、Word はドキュメントファイル名としてこれを使用します)

これらのタイトルの例ではファイルの内容に関する価値のある情報は提供されないので、Search には関係ありません。このような問題を回避するため、エンタープライズ検索は、コンテンツアイテムの本体内で別のタイトル候補を検出し、関連性の計算では、実際のタイトルと共にこの値を使用します。

注意

この処理は、Microsoft Office ファイルについてのみ行われます。

静的順位付け

静的順位付けは、コンテンツアイテムの内容やプロパティ値によって影響を受けない順位を作成します。クエリ独立順位付けとも呼ばれます。

以下では、エンタープライズ検索の関連性計算で使用される静的順位付けアルゴリズムに使用されるコンポーネントの概要について説明します。

クリックディスタンス

ドキュメント、Web ページ、リスト、または他のアイテムは、他のコンテンツアイテムにリンクされます。これはおそらく、リンク先のコンテンツアイテムに、リンクを含む元のアイテムのコンテンツに関係があり、その価値を高めるような情報が含まれるためです。したがって、ハイパーリンクの数やハイパーリンクが配置される場所など、特定のコンテンツアイテムに対するこのようなハイパーリンクに関する情報は、関連性の判定に役立ちます。

クリックディスタンスは、コンテンツアイテムと、コンテンツアイテムにリンクしている "エキスパート" ページの間にあるリンクの数を表します。検索の関連性を計算するときの開始位置は、「Authoritative Pages and Demoted Sites」で説明されているような信頼できるページです。信頼できるページからコンテンツアイテムに至るまでにクローラが移動する必要のあるリンクが多いほど、関連性のスコアは低くなります。コンテンツアイテムまでに複数のパスが存在する場合は、最短のパス、つまり信頼できるページからコンテンツアイテムまでのリンクの数が最少のパスに基づいて、関連性が計算されます。

URL の深さ

重要なコンテンツまたは関連のあるコンテンツは、サイトの数レベル深い場所ではなく、サイトの階層の最上位近くにあることがよくあります。これにより、コンテンツの URL は短くなり、ユーザーが覚えやすく、またアクセスしやすくなります。エンタープライズ検索は、URL の深さを調べることでこの事実を利用します。URL の深さとは、コンテンツアイテムが見つかるレベルのサイト内での深さのことです。レベルは、URL に含まれるスラッシュ ("/") 文字の数を調べることで判別されます。URL パスに含まれるスラッシュ文字の数が多いほど、そのコンテンツアイテムまでの URL は深くなります。結果として、URL の深さの値が大きいほど、そのコンテンツの関連性は低くなります。

自動言語検出

ユーザーは、話せない言語より話せる言語のコンテンツを探す傾向があります。エンタープライズ検索は、ユーザーが使用しているブラウザの "Accept-Language" ヘッダーに基づいて、ユーザーの言語を判別します (自動言語検出)。関連性の計算では、ユーザーの言語で取得されたコンテンツの方が、他の言語のコンテンツより関連性が高いと見なされます。ただし、英語のコンテンツは例外です。英語のコンテンツは、ユーザーの言語のコンテンツと同程度の関連性があると見なされます。

ファイル種類のバイアス

ほとんどの検索シナリオでは、特定のファイルの種類が他の種類より高い関連性を持ちます。たとえば、HTML ページと Word ドキュメントは、通常、Excel スプレッドシートやプレーンテキストファイルより、ユーザーの検索に大きく関連します。

エンタープライズ検索の関連性計算には、一部のファイル種類を他のファイル種類より高く順位付けする順位付けアルゴリズムが組み込まれています。次に示すのは、この処理が適用されるファイルの種類であり、エンタープライズ検索での既定の順位付けで、順位の高いものから順番に並んでいます。

HTML Web ページ
PowerPoint プレゼンテーション
Word ドキュメント
XML ファイル
Excel スプレッドシート
プレーンテキストファイル
リストアイテム

Share via

エンタープライズ検索の関連性アーキテクチャの概要

静的順位付けと動的順位付けの概要

動的順位付け

アンカーテキスト

プロパティの重み付け

プロパティの長さの正規化

URL の一致

タイトルの抽出

静的順位付け

クリックディスタンス

URL の深さ

自動言語検出

ファイル種類のバイアス

See Also

参照

概念

その他のリソース

その他のリソース

Share via

エンタープライズ検索の関連性アーキテクチャの概要

静的順位付けと動的順位付けの概要

動的順位付け

アンカー テキスト

プロパティの重み付け

プロパティの長さの正規化

URL の一致

タイトルの抽出

静的順位付け

クリック ディスタンス

URL の深さ

自動言語検出

ファイル種類のバイアス

See Also

参照

概念

その他のリソース

その他のリソース

アンカーテキスト

クリックディスタンス