フルテキストインデックス作成とクエリのプロセス

[アーティクル]
12/15/2008

フルテキスト検索のためのインデックス作成コンポーネントは、フルテキストインデックスの初期作成を行い、以降フルテキストインデックスの付いたテーブルのデータに変更があった場合には、このインデックスを更新します。Microsoft SQL Server 2005 では、フルテキストインデックス作成をより効率的に処理できるようにフルテキスト収集メカニズムのアーキテクチャが改善され、パフォーマンスが大幅に向上しています。

フルテキストインデックス作成のプロセス

フルテキスト作成 (クロールとも呼ばれます) を開始すると、データベースエンジンは大きなデータをバッチでメモリにプッシュして、Microsoft Full-Text Engine for SQL Server (MSFTESQL) にインデックス作成サービスを開始するように指示します。MSFTESQL サービスは、テーブルの 1 つまたは複数の列に格納されている文字とフォーマットされたバイナリデータにインデックスを作成します。フルテキストエンジンはプロトコルハンドラコンポーネントを使用して、メモリからデータをプルし、追加の処理を行ってフルテキストインデックスを作成します。

varbinary(max) 型または image 型の列に格納されたデータにインデックスを作成する場合には、IFilter インターフェイスを実装するフィルタが、そのデータに指定されたファイルフォーマット (Microsoft Word など) に基づいてテキストを抽出します。場合によっては、フィルタコンポーネントは varbinary(max) 型または image 型のデータをサービスアカウントの Temp ディレクトリに書き込む必要があります。この場合、メモリへのプッシュは行われません。

一連の処理の中で、生成されたテキストデータがワードブレーカに渡され、そこで個々のトークンまたはキーワードに分解されます。トークン化に使用する言語は列レベルで指定するか、varbinary(max) 型、image 型、または xml 型データのいずれかからフィルタコンポーネントによって識別されます。

この後、追加の処理によってノイズワードが削除され、トークンが正規化されて、フルテキストインデックスまたはインデックスフラグメントに格納されます。

作成が完了すると、最終的なマージプロセスが起動され、インデックスフラグメントが 1 つのマスタフルテキストインデックスにマージされます。これにより、多数のインデックスフラグメントではなく、1 つのマスタインデックスのみを照会すれば済むため、クエリのパフォーマンスが向上し、関連順位付けにもより的確なスコア (評価) 統計を適用できます。

メモ :
マスタのマージ処理では、インデックスフラグメントをマージする際に大量のデータを読み書きする必要があるため、大量の I/O が発生しますが、クエリの着信がブロックされることはありません。

フルテキストクエリのプロセス

クライアントから送信されたフルテキストクエリは、SQL Server プロセスの SQL Server QP (クエリプロセッサ) に送られます。QP はこれを、フルテキストクエリコンポーネントに渡します。このコンポーネントは、OLE DB コマンドを作成し、そのコマンドを Microsoft Full-Text Engine for SQL Server (MSFTESQL) サービスに送信します。MSFTESQL プロセスでは、フルテキストエンジンのクエリプロセッサにより、ワードブレーカやステミング機能だけでなく、類義語辞典ファイルやノイズワードファイルも使用してクエリが処理されます。このクエリを処理した後、MSFTESQL サービスから SQL Server プロセスに結果セットが返されます。この結果セットは、さらに処理を行うために使用されるか、そのままクライアントに返されます。

参照

Share via

フルテキストインデックス作成とクエリのプロセス

フルテキストインデックス作成のプロセス

フルテキストクエリのプロセス

参照

概念

その他の技術情報

ヘルプおよび情報

その他のリソース

Share via

フルテキスト インデックス作成とクエリのプロセス

フルテキスト インデックス作成のプロセス

フルテキスト クエリのプロセス

参照

概念

その他の技術情報

ヘルプおよび情報

その他のリソース

フルテキストインデックス作成とクエリのプロセス

フルテキストインデックス作成のプロセス

フルテキストクエリのプロセス