SharePoint
SharePoint Enterprise Search ですべてを見つけ出す
Matt Hester
概要:
- エンタープライズ検索ソリューションのアーキテクチャ
- ビジネス データのインデックス作成とクエリ
- LOB データと人の知識
皆さんはおそらく、サーバーの稼働時間や利用可能性、ソフトウェアの更新、セキュリティなどを憂慮して、多くの時間を費やしてきたのではないでしょうか。たとえ、インフラストラクチャが完全に稼働していたとしても、
ネットワーク全体ですべてのアプリケーションとファイルが使用可能であっても、依然、生産性は失われています。従業員に必要なデータはすべて揃っています。ただし、彼らがそのデータを見つけ出すまでにどれくらいの時間がかかるのでしょうか。
情報過多を克服するために多くの手段がとられてきました。デスクトップ検索機能の台頭により、自分のシステムに保存されているさまざまなデータの中から情報の断片を見つけ出すのは容易になりました (2006 年 8 月の掲載記事「Find Anything with Windows Desktop Search」(英語) を参照してください)。しかし、ポータルや共有リソースに保存された数々のデータ、ビジネス アプリケーション内に留まったままのデータについてはどうでしょう。ましてや、従業員個人の記憶の中に蓄積された価値ある情報については置き去りのままではないでしょうか。この情報はユーザーにとって極めて重要です。業務を遂行するため、または迅速で適切な意思決定を下すうえで不可欠なデータと言えます。ネットワークの方々に散らばったデータを見つけ出し、集めるまでにどれくらいの時間を要するでしょう。こうした時間が企業の業績に及ぼす潜在的な影響を考える必要があります。
企業内に点在する情報を見つけ出すための時間。この時間こそ減らさなくてはなりません。どうしたら可能でしょうか。答えは至って簡単です。エンタープライズ検索機能を持つ検索エンジンを導入することで、問題は解決です。
エンタープライズ検索は組織内のどのような場所に格納された情報も見つけ出すことができます。デスクトップ、インターネット サイト、基幹業務アプリケーション、あるいはユーザーの記憶の片隅など、データがどのような場所に存在したとしてもエンタープライズ検索ツールはそのデータを見つけ出すのに役立ちます (ユーザーの脳にチップを埋め込む必要はありませんのでご安心ください)。
エンタープライズ検索ソリューションとは、デスクトップ検索とイントラネット検索機能を統合したものです。突き詰めれば、エンタープライズ検索ツールは統合検索、つまり、1 回のクエリで複数のデータ ソースにアクセスする検索を実行できる必要があります。ユーザーがクエリを入力するインターフェイスは 1 つです。しかし、内部ではそのクエリが複数の異なる検索エンジンに送信され、1 つに集約されたビューに結果が表示されます。
この記事では、Microsoft SharePoint ソリューションの次世代を担う Microsoft® Office SharePoint® Server 2007 (MOSS 2007) の持つ強力な検索エンジンが、組織内に積み上がった情報の山を打ち崩すためにどのように役立つかについて解説します。MOSS 2007 は旧バージョンに比べ、さまざまな点で改良され、一部のコンポーネントが再開発されたほか、まったく新しい機能も加わりました。ここではインデックス作成、伝達、関連性、コンテンツ ソースなどの主要コンポーネントについて取り上げ、優れたエンタープライズ検索機能を使用するにあたり、これらがどのように機能するかについて解説していきます。
SharePoint で企業全体を検索する
エンタープライズ検索は主要な機能が異なる 4 つのバージョンで構成されます。Microsoft Office SharePoint Server 2007 for Search Standard Edition、Microsoft Office SharePoint Server 2007 for Search Enterprise Edition、Microsoft Office SharePoint Server 2007 Standard、および Microsoft Office SharePoint Server 2007 Enterprise の 4 種類です。
2 つの Search エディションと完全な SharePoint Server エディションとの違いは、人の検索機能 (Knowledge Network for MOSS 2007 との統合を含む)、ビジネス データ カタログ、または高度な検索センターにあります。2 つの Search エディションにはこれらが含まれていません。図 1 に主要な違いを示します。
Figure 1 4 つの Search が提供する主な違い
Microsoft Office SharePoint Server 2007 for Search Standard Edition | Microsoft Office SharePoint Server 2007 for Search Enterprise Edition | Microsoft Office SharePoint Server 2007 Standard Edition | Microsoft Office SharePoint Server 2007 Enterprise Edition | |
インデックス | 特別な構成なしに使用できる 40 種のファイルの種類 (拡張可能) | 特別な構成なしに使用できる 40 種のファイルの種類 (拡張可能) | 特別な構成なしに使用できる 40 種のファイルの種類 (拡張可能) | 特別な構成なしに使用できる 40 種のファイルの種類 (拡張可能) |
ファイルの共有、Web サイト、SharePoint サイト、Exchange パブリック フォルダ、Notes データベース ファイルでの検索サポート (特別な構成不要) | ||||
サード パーティ製ドキュメント リポジトリに対する検索のサポート | ||||
人と専門家の検索のサポート | ||||
構造化データ ソースの検索のサポート | ||||
セキュリティで保護されたコンテンツへのアクセス制御の提供 | ||||
拡張された検索センター UI の提供 | ||||
ドキュメントの制限 | 400,000 | 無制限 | 無制限 | 無制限 |
UI には他の候補を表示する機能など、さまざまな新機能が加わりました。インターネット検索エンジンの主軸であるこの機能は、一般的な検索用語にスペルミスがあった場合にユーザーに修正候補を提示します (図 2 を参照)。 インターフェイスでは、ヒット ハイライト機能や "おすすめコンテンツ" もフル サポートされます。しかし、これらは新しい検索機能のほんの一部に過ぎません。
図 2** SharePoint Search に新しく導入される自動スペルチェック機能 **(画像を拡大するには、ここをクリックします)
人の知識を検索する
最も注目すべき新機能として、特定の知識や経験を持った「人」を検索できるようになったことが挙げられます。この機能により、ユーザーは組織内の人が持つ知識を引き出し、活用できるようになります。高く積み上がった情報の山を打ち崩す重要な第一歩です。
そのために、Active Directory® の配布リストや SharePoint のユーザー グループなどの、すべてのライトウェイト ディレクトリ アクセス プロトコル (LDAP) で、インデックス作成機能と検索機能を実行できるようになりました。実際には、MOSS は LDAP ディレクトリを直接検索しません。人の検索を行うには、LDAP の情報を MOSS にインポートする必要があります (企業のインフラストラクチャ全体で検索を実行することもできます)。
検索結果は個人の "社会的距離" に応じてグループ化できます。"社会的距離" とはユーザーの物理的な距離 (販売アシスタントが CFO に連絡しようとは思わないでしょう) と共通の関心事を意味します。図 3 に、人の検索の結果を表示しています。
図 3** 関連知識を持つ同僚を見つける **(画像を拡大するには、ここをクリックします)
ビジネス データを検索する
SharePoint ではさまざまな種類のビジネス データにもインデックスを付けることができます。人事アプリケーション、CRM、予算報告書などの LOB アプリケーションもその対象になります。従来、LOB アプリケーションの通常のインターフェイス以外からこの種のデータにアクセスすることは困難で、一般的な従業員がこのデータを検索して使用する妨げとなっていました。
しかし、今後は MOSS 検索によりリレーショナル データベース、Lotus Notes データベースなど、どのような LOB アプリケーションのデータも検索できるようになりました。つまり、ADO.NET または Web サービスを使用してアクセスできるようになったのです。この機能の優れた点は、独自にコードを記述する必要がないことです。ビジネス データ カタログ機能を使用することで、ビジネス データの取得はドキュメントや Web サイトにアクセスするのと同じくらい容易になります。ビジネス データ カタログ機能は検索センターによって提供される資産管理やカスタマイズされたスコープに簡単に統合できます。
関連性を返す
もちろん、いくら新機能がたくさん盛り込まれたとしても、新機能によってもたらされる検索結果が正確でなければ価値はありません。幸い、MOSS では関連性の面で劇的な改良がなされました。これらの改良点について説明する前に、エンタープライズ検索における関連性と、インターネット検索における関連性は異なることについて理解することが重要です。
おそらく、イントラネット検索についても、インターネット検索と同じツールで実行できる (その精度も同じである) と考える読者が多いのではないでしょうか。簡単に説明すると、これらはまったく異なる環境で、まったく異なるニーズと要件に基づいて行われます。これらの違いは主にセキュリティ、構造、階層の 3 つにグループ分けすることができます。
エンタープライズに比べると、インターネットのセキュリティは放置状態とも言えます。インターネット上のデータは一般的に匿名でアクセスでき、インデックス作成、検索には認証、セキュリティ調整などは不要です。一方、エンタープライズ環境では検索者の権限と照合して結果をフィルタリングするなど、厳密なセキュリティ モデルに従う必要があります。
構造の影響はその密度に関係します。インターネットの世界は広大で深く、他のサイトとリンクすることでそのコンテンツを増やしています。それに比べてエンタープライズでは、通常、リンクはナビゲーションのために使用するのがほとんどで、その構造は単純です。
リンクの構造は広い意味では、サイトの階層という要因に関連しています。インターネットでは通常、階層という概念はなく、トップレベルに位置するサイトもごく限られています。一方、企業のイントラネットは通常、計画段階から階層構造を持って作られます。企業に複数のルート レベルが存在しても、組織の主要ポータルは通常、1 つだけです。
これらの根本的な違いにより、エンタープライズ検索ソリューションがデータにインデックスを作成し、結果を返す方法が変わってくるのです。MOSS 2007 はエンタープライズのさまざまなニーズに対応することを目的とします。MOSS には Microsoft リサーチと MSN® チームの作業を組み合わせた既存のテクノロジを使用して開発された、新しいランキング エンジンが使用されています。一連の関連性アルゴリズムを作成することで、関連性が向上し、ドキュメントと LOB データをクロールすることで得られた内外の情報が収集されます。エンタープライズ データにインデックスが作成される場合、200 種以上のドキュメントの種類がスキャンされ、言語の検出、メタデータの抽出、テキスト分析の実行にアルゴリズムが適用されます。これらの新しいアルゴリズムは、エンタープライズ データと LOB アプリケーションのニーズを満たすように特別に調整され、結果の制度を劇的に向上します。
一部のメタデータ タグは関連性を算出する場合に使用されます。次に考慮点をまとめます。
- クリックの距離: 信頼できるサイトからの距離を参照します (距離が短いほど、関連性は上がります)。
- アンカー テキスト ハイパーリンクは対象を探す上で注釈の役割を果たします。さらに、アンカー テキストは非常に説明的な傾向があります。
- URL の深さ: 階層の上位にある URL は関連性が高い傾向があります。
- URL 照合: 直接、URL に含まれるテキストと照合します。
- メタデータ抽出: タイトルと作成者の記載がない場合は、ドキュメントからそれらを自動的に抽出します。
- 自動言語検出: ユーザーの言語で表記されている結果の優先度を付けます。
- ファイルの種類のバイアス: 特定のファイルの種類に対する関連性がより高くなる傾向があります (たとえば、PPT ファイルは XLS ファイルに比べ関連性が高くなることが、より頻繁に起こります)。
- テキスト分析: 用語の照合、用語の頻度、語句の変化などの要因に基づいた、従来のテキスト ランキング。
インデックス作成のしくみ
MOSS 2007 ではインデックス作成サービスの機能とコンテンツの管理方法において、重要な改良点が盛り込まれています。初心者の方は、SharePoint サーバー、Web サイト、ファイル共有、Exchange パブリック フォルダ、Lotus Notes データベース、LOB アプリケーションの中から、当てはまるコンテンツ ソースを指定できます。全体的なインデックス作成の管理操作性は合理化され、複数のコンテンツ ソースにわたって何を、どのように、いつ、インデックス化するかをユーザーが自由に選択できるようになりました。これは各種ルールをクロールすることで可能になり、この機能でパスを含めたり除外したりできるようになります。クローラが URL のリンクをたどる方法を構成することもできます。組み込みのログにより、クロールされたサイトの数とインデックスの作成方法を総合的に参照できます。
インデックスは Windows® デスクトップ検索で使用されるインデックス テクノロジに似ています。コンテンツ インデックスとプロパティ ストアの 2 つの主要コンポーネントがインデックス機能の核になります。これにより非常に効率的にデータを処理できます。コンテンツ インデックスにはファイルに含まれる実際のテキストのほか、企業のインデックスに含まれる関連した単語をインデックスに変換したものも含まれます。プロパティ ストア データベースは結果の処理に重要な役割を果たします。プロパティ ストアのデータベースには、ストアにあるすべてのドキュメントに関する、あらゆるメタデータ プロパティ (作成者、作成日付、ドキュメントの種類など) が格納されています。構造上、プロパティ ストアはプロパティとその値のテーブルで構成されます。テーブルの各行は、完全なテキスト インデックスで、個別のドキュメントに対応します。プロパティ ストアにはドキュメントにインデックスが作成されるときに取得されたドキュメント レベルのセキュリティが保持され、強制的に使用されます。
インデックス作成とストレージ処理は、コンテンツ ソースのクロールを行うインデックス エンジンにより始まります。エンジンはコンテンツ ソースを読むために適切なプロトコル ハンドラが存在することが確認されると、クロールを開始します。コンテンツ ソースの正しいプロトコル ハンドラが読み込まれると、プロトコル ハンドラと必要な IFilter が、コンテンツ リソースからアイテムの抽出とフィルタリングを開始します。IFilter はインデックス エンジンが新しいファイル タイプのコンテンツを開き、読み込み、インデックスを付与できるようにするアドインで、このアドインがなければ完全なインデックスは作成されません。IFilters は各ドキュメントのテキストとメタデータを抽出し、ストリームをインデックス エンジンに戻します。
そして、ドキュメントのプロパティはプロパティ ストアに格納され、ドキュメントの実際のテキストはコンテンツ インデックスに配置されます。その前の段階で、インデックス エンジンは "不要な" 単語を取り除きます。また、エンジンはワードブレーカとステマを使用して情報を処理し、データを最適化することで、より快適なクエリの実行を可能にします (ワードブレーカはテキストを単語や句に分けます。ステマは指定された単語の活用形を生成します)。
インデックス エンジンは継続的な伝達を使用することで、インデックスがほぼ即座に作成されるようになりました。継続的な伝達を使用すると、別のコンテンツ ソースにクロール処理が移動してもインデックスは継続的に作成されます。この強化により、ほぼ即座に結果を得られるようになりました。SharePoint Portal Sever 2003 では大規模なコンテンツのクロールには数日を要し、インデックスはクロールが完了したときにのみ伝達されていたため、劇的な改善と言えます。
クエリのしくみ
ユーザーがクエリを入力するか、カスタム アプリケーションからインデックスが呼び出されると、クエリ エンジンは要求の処理を開始します。最初に、クエリは言語固有のワードブレーカに渡されます。言語を識別できない場合は、特定の言語に依存しないワードブレーカが呼び出されます。クエリが分析されると、エンジンからステマ (ステミングが有効な場合) に情報が渡り、さらに処理を進めます。この 2 段階の処理でクエリから返される結果の関連性と効率が上がります。
クエリでプロパティ情報が指定されている場合は、プロパティ ストアのドキュメントと突き合わせて、コンテンツ インデックスが確認されます。続いて、クエリのプロパティが確認のために再度照合されます。クエリ エンジンはさらに詳細なレベルのフィルタリングを実行し、ユーザーがアクセス権を持たない結果を取り除きます。照合結果は関連性の高い順に一覧で返されます。図 4 に、インデックス作成とクエリの全コンポーネントの相関図を示します。
図 4** MOSS 2007 Enterprise Search 環境のアーキテクチャ **(画像を拡大するには、ここをクリックします)
管理の強化
管理者にとって、検索環境の管理は容易になるはずです。エンド ユーザーと管理者は改良された共通のツールを使用します。これにより、プラットフォームへの接続ポイントが異なることで発生する複雑さを軽減できます。さらに、MOSS 2007 の新しい管理モデルにより、検索エンジンの利点はさらに大きくなります。(図 5 に、検索設定の変更に使用されるメイン ページを示します。)
図 5** 検索設定を構成する **(画像を拡大するには、ここをクリックします)
さまざまな検索機能を制御するためのスコープも改良されています。スコープを使うことで、コンテンツ ソース内の検索が容易になり、本質的にはインデックスを小さな塊で管理できるようになります。SharePoint Portal Server 2003 ではスコープはコンテンツ ソースに接続されていたため、柔軟性が制限され、管理面でも多少困難さが残りました。MOSS 2007 では、コンテンツ ソースを切り離したことで、より大きな柔軟性が得られるようになりました。URL、種類、作成者など任意のプロパティを基にスコープを定義できます。また、特定の作成者ごとにすべての技術関連ドキュメントをまとめるなど、複数のルールを持つスコープを組み合わせることもできます。
もちろん、検索エンジンのパフォーマンスを向上するための手段として最も重要なのは、現在のインデックスの使い方を理解することです。管理用ツールセットとして新しく追加されたものの中で、最も優れたツールの 1 つはクエリ レポート機能です。特別な構成なしに使用できるクエリ レポート機能により、クエリのボリューム傾向、上位クエリ、クリック率、結果が得られなかったクエリなどに関する情報を迅速に検索できるようになります。クエリ レポートはサイト レベルでの詳細情報と、プロバイダ レベルの主要サービスを提供します。図 6 に、サンプル レポートを示します。情報を Microsoft Excel® にエクスポートし、詳細な分析やデータ上でのピボットを行うこともできます。
図 6** MOSS 2007 のクエリ レポート **(画像を拡大するには、ここをクリックします)
セキュリティと特権
先にも述べたように、クエリ エンジンによって結果がフィルタリングされるため、ユーザーにはアクセス許可が付与されているドキュメントのみ表示されます (SharePoint Portal Server 2003 では、ユーザーに表示されるリンクの中に、権限によって表示が制限される可能性のあるものも含まれていました)。セキュリティ調整で注意すべき点は、MOSS 2007 では Web クロールに対して、セキュリティ調整を行わないことです。HTTP プロトコルではアクセス制御情報を確認する方法がないため、Web サイトを調整する方法はありません。また、MOSS 2007 はビジネス データ カタログ、または人の検索でもセキュリティの調整を行うことはできません。
MOSS 2007 は既存のアクセス制御リスト (ACL) を順守することで、インデックスに含まれるドキュメントのセキュリティを確保します。これは他の検索ツールとの主な違いです。ファイルに手動で権限を設定するために構成ファイルを使用しなければならない一部の検索エンジンとは異なり、MOSS 2007 では現在の権限を同期することができます。
インデックスは 1 つのドキュメントの ACL に対する変更を素早く反映できます。たとえば、現在、インデックスに格納されている Excel スプレッドシートがあり、このドキュメントの ACL が制限するように変更されたとします。管理者はこのドキュメントに再度インデックスを作成し、クロールを実行するだけで、セキュリティ調整が即座に行われます (必要な場合は、ドキュメントはインデックスから完全に削除されます)。
さらに、個々のドキュメントに固有の権限を割り当てたり、ドキュメント ライブラリや親ディレクトリから権限を継承するように設定したりできます。この機能により、ドキュメントを表示、編集、保存できるグループや個人を選択する処理が、一層容易になります。
認証とサインオン管理でも強化された点があります。今回のバージョンからセキュリティ資格情報キャッシュが拡張可能になったため、MOSS はサード パーティのソースや独自にコードを記述したアドオンなども、シングル サインオン用の資格情報キャッシュ システムに受け入れられるようになりました。さらに、今後は、主要な認証でサード パーティ システムを受け入れられるようになります。これら 2 つの機能拡張は新しい ASP.NET プロバイダ モデルに組み込まれ、他のディレクトリ サービスでも使用できます。
カスタマイズ
MOSS 2007 ではユーザー インターフェイスを変更するために数々のオプションが設けられています。UI は Web サイトを変更するためにこれまでにも使用してきた各種ツールの多くと共にカスタマイズすることができます。また、マスタ ページの作成に役立つ Office SharePoint Designer などの新しいツール (ブランド化されたサイトにビルドに簡単な方法を提供します) も加わりました。図 7 に、編集中の検索結果ページを示します。
図 7** 検索結果ページの外観をカスタマイズする **(画像を拡大するには、ここをクリックします)
特別な構成なしに使える MOSS 2007 の検索センターのインターフェイスには、[すべてのサイト] と [人] の 2 種類のタブがあります。タブを追加するのは簡単で、ユーザーが最も頻繁に使用する情報の種類に応じて、異なるタブを追加できます。たとえば、企業アプリケーション、データベース、またはディレクトリ サービスなどへの直接的な入り口を作成することもできます。これらのタブとスコープを関連付けることもできます。これは特定のコンテンツに意味のわかりやすい検索タブを作成するのに役立ちます。検索専用エディションでは検索タブのカスタマイズはサポート外ですので、注意してください。
まとめ
ここまでお読みいただいたとおり、MOSS 2007 ではエンタープライズ検索機能に新しい極めて強力な機能拡張が加わり、ユーザーの効率と生産性をさらに向上させることができます。詳細については、Microsoft Office SharePoint Server TechCenter (英語) を参照してください。
Matt HesterMicrosoft Across America の TechNet プレゼンタ。ライブ プレゼンテーションを閲覧するには、www.technetevents.com/mhester (英語) を参照してください。blogs.technet.com/matthewms (英語) ではブログも公開されています。
© 2008 Microsoft Corporation and CMP Media, LLC. All rights reserved; 許可なしに一部または全体を複製することは禁止されています.