言語機能について (FAST Search Server 2010 for SharePoint)

 

適用先: FAST Search Server 2010

トピックの最終更新日: 2011-11-10

Microsoft FAST Search Server 2010 for SharePoint には、検索の関連性の向上に役立つ多くの言語機能があります。調整できる機能もあれば、既定の動作を変更できない機能もあります。

ここでは、以下の言語機能について説明します。

  • トークン化

  • 言語の自動検出

  • ステミング

  • スペル チェックとその調整

  • アンチフレージング

  • プロパティ抽出

  • 不快コンテンツのフィルター処理

これらの言語機能でサポートされる言語の概要については、「言語別の言語関係の機能 (FAST Search Server 2010 for SharePoint)」を参照してください。

トークン化

トークン化とは、テキストをセグメント化してインデックス作成が可能な個々の単語 (トークン) に分割することです。空白、タブ、ピリオド、コンマ、ダッシュ、疑問符、および引用符は区切り文字と見なされます。こうした区切り文字を使用しない東アジアの言語 (中国語、日本語、韓国語) では、より洗練化された手法を利用してインデックス可能なトークンを生成する必要があります。

トークン化は、アイテム処理とクエリ処理の双方でテキスト コンテンツに対して実行されます。FAST Search Server 2010 for SharePoint でのトークン化のプロセスは、以下の 3 つの段階で構成されています。

  1. 言語に依存しない入力正規化では、入力テキストが統一された形式に変換されます。これには、合字のような複雑な文字を正規形式で置き換える処理や、使用頻度の低い Unicode 文字を互換文字や文字の系列 (商標記号であれば tm、全角のラテン文字であれば半角の等価文字) で置き換える処理が含まれます。

  2. ドキュメントの言語に基づく言語固有のトークン化エンジンは、ワード ブレーカーというトークナイザーに基づいてテキストを個々の単語 (トークン) に分割します。

  3. インデックス付けされたトークンは、異なる言語間での検索を可能にするために、言語に依存しないルールに従って正規化されます。正規化は、文字の変更や文字の一部の削除によって文字の複雑さを低減します。FAST Search Server 2010 for SharePoint では、すべての文字が小文字に変換され、アクセント付き文字はアクセント記号のない文字に変換されます。

トークン化はすべての言語でサポートされています。

言語とエンコードの自動検出

アイテム処理の際、FAST Search Server 2010 for SharePoint は 80 種類を超える言語を一般的なエンコードのすべてで自動的に認識します。テキストの言語とエンコードは、ドキュメントのメタデータで定義することも、アイテム処理時の自動処理で判断することもできます。

こうした情報は、アイテム処理の際に適切な言語固有の辞書およびアルゴリズムを選択するために使用されます。

ステミング

ステミングは、同じ単語の複数の形 (たとえば、名詞の単数形と複数形) を 1 つにまとめます。ステミングによって再現率は向上するので、1 つの単語が多くの形をとる言語では、十分な再現率を達成するうえでステミングが重要になります。ステミングの辞書は調整できません。

スペル チェックとその調整

スペル チェックは、クエリ用語と言語固有の辞書を比較照合してスペルミスのある用語を特定することで、クエリの質を高めます。

スペル チェックの調整は、スペル チェックの辞書を微調整して、処理されるドキュメントでの単語の出現頻度によってそれらの辞書の配置を変更します。ユーザーには、処理されるコンテンツに関連するスペル チェック候補のみが提示されることになります。こうした調整がなければ、スペル チェック候補の提示によって結果セットのヒット数が 0 になってしまう可能性があります。

特定の製品名または会社名など、スペル チェックの対象から除外する単語を定義できます。こうした除外リストはすべての言語で使用されます。

アンチフレージング

アンチフレージングは、ストップ ワードの概念と深く関連しています。ストップ ワードは、エンド ユーザーのクエリ内の単語のうちで検索システムが無視するものです。アンチフレージング機能で削除されるのは、単一の語ではなくひと揃いの語句です。単一の語を削除すると、ストップ ワードと同一の重要な単語を削除してしまう危険性があるからです。語句は、単語よりも曖昧性が低く、より安全にクエリから削除できます。そのため、FAST Search Server 2010 for SharePoint で提供されるアンチフレージングの辞書には、単一の語は含まれていません。また、アンチフレージングの辞書は調整できません。

プロパティ抽出

FAST Search Server 2010 for SharePoint には、個人名、会社名、地名や場所を対象とした、言語固有の高度なプロパティ抽出の機能があります。

詳細については、「プロパティ抽出を管理する (FAST Search Server 2010 for SharePoint)」を参照してください。

不快コンテンツのフィルター処理

FAST Search Server 2010 for SharePoint は、多くの言語で不快コンテンツをフィルター処理する機能を備えています。

不快コンテンツのフィルター処理は、既定の状態では利用できませんが、構成できます。

See Also

Concepts

言語別の言語関係の機能 (FAST Search Server 2010 for SharePoint)
Windows PowerShell を使用して、マップされていないクロール対象プロパティを識別する (FAST Search Server 2010 for SharePoint)
スペル チェックの調整に関するコマンドレット (FAST Search Server 2010 for SharePoint)