SharePoint Portal Server 2003 の日本語検索機能について

Updated : 2004年5月7日

By Erik Heino、Kaoru Okumura - Microsoft Corporation

対象製品
Microsoft Office SharePoint Portal Server 2003

概要
Microsoft SharePoint Portal Server Search (SharePointPSSearch) サービスは、日本語文書の検索およびインデックス化に特化した日本語ワード ブレーカが搭載されています。一部の機能は Microsoft Office SharePoint Portal Server 2003 で新たに追加されましたが、SharePoint Portal Server 2001 などの従来の製品やテクノロジにすでに含まれているものもあります。

このホワイト ペーパーでは、新たに追加された、および既存の日本語機能に対する改良について説明します。日本語機能を使用する際のヒントも提供します。

トピック

はじめに
新機能
既存の日本語機能
ヒント

はじめに

Microsoft SharePoint Portal Server Search (SharePointPSSearch) サービスは、日本語文書の検索およびインデックス化を行う高度な機能が搭載されています。一部の機能は Microsoft Office SharePoint Portal Server 2003 で新たに追加されましたが、SharePoint Portal Server 2001 などの従来の製品やテクノロジにすでに含まれているものもあります。これらの機能は英語用のテクノロジを日本語向けに改良したものではなく、日本語文書固有の要件を満たすために専用開発されたものです。これらの機能には、単語ベースのインデックス化、および単語ベースのインデックス化に基づいた正規化手法が含まれます。

新機能

次の改良および機能が SharePoint Portal Server 2003 に新たに搭載されました。

  • パフォーマンスの向上

  • カタカナ語表記揺らぎの扱いの改善

  • ユーザー辞書のサポート

  • 検索結果の改良

  • システム辞書のアップデート

パフォーマンスの向上
SharePoint Portal Server 2001 の日本語ワード ブレーカに比較して、SharePoint Portal Server 2003 の日本語ワード ブレーカはほぼ倍の速さになりました。

カタカナ語表記揺らぎの扱いの改善
従来の検索サービスでは、カタカナ語揺らぎを処理するときに正規化ではなく拡張を使用しました。拡張では、単語のさまざまな揺らぎを含めるために、複数個のカタカナ語を含んだ複雑なクエリを実行すると、SharePoint Portal Server が許容できるクエリ数を超えてしまい、検索を行えない可能性がありました。

この課題を解決するため、カタカナ語揺らぎの処理方法が拡張から正規化に変更されました。次の表では、SharePoint Portal Server 2001 の日本語ワード ブレーカと SharePoint Portal Server 2003 の日本語ワード ブレーカによる検索結果の違いを示しています。SharePoint Portal Server 2001 の日本語ワード ブレーカでは、インデックス語がクエリ時に拡張され、複数の揺らぎが含まれます。SharePoint Portal Server 2003 の日本語ワード ブレーカでは、インデックス時、クエリ時ともに、ある種の正規化された形がキーワードに追加されます。

検索キーワード

SharePoint Portal Server 2001 の日本語ワード ブレーカ

SharePoint Portal Server 2003 の日本語ワード ブレーカ

コンピュータ

インデックス時
コンピュータ
クエリ時
コンピュータ
コンピューター [Alt]*
コンピュタ [Alt]
コンピュター [Alt]
コンピュウタ [Alt]
コーンピュータ [Alt]

インデックスおよびクエリ時
コンピュータ
コンピュタ [Alt]

*[Alt] はクエリ時またはコンテンツ インデックスの更新時に追加されるバリエーションを意味します。各バリエーションは別単語として扱われます。

方式の変更により、以前のバージョンと多少動作が異なるケースもありますが、テストの結果、全体的な検索範囲、検索精度が向上することが判明しています。

次の表では、SharePoint Portal Server 2001 と SharePoint Portal Server 2003 による数種類の検索結果を示しています。SharePoint Portal Server 2003 は多くの検索語を含んだクエリ (1 番目の例) に対応しつつ、他の検索の精度も向上しています。2 ~ 3 番目の例では、SharePoint Portal Server 2001 では一致しなかった言葉が正しく検索されています。4 ~ 5 番目の例では、SharePoint Portal Server 2001で不正に一致した言葉が SharePoint Portal Server 2003 では正しく除外されています。

検索キーワード

SharePoint Portal Server 2001 の 日本語ワード ブレーカ

SharePoint Portal Server 2003 の 日本語ワード ブレーカ

イタリア観光 名所 ホテル レストラン ツアー情報 エアチケット 食事 ミラノ ヴェネチア ローマ フィレンツェ イタリア語

許容クエリ数を超えてしまうため、クエリ結果が返されません。

期待通りにクエリが機能します。

"サーバー" と "サーバ" が一致

いいえ

はい

"インタビュア" と "インタヴューアー" が一致

いいえ

はい

"ディベロッパ" と "デヴェロッパー" が一致

いいえ

はい

"シェービング" と "セービング" が誤まって一致

はい

いいえ

"フェイス" と "フェーズ" が誤まって一致

はい

いいえ

ユーザー辞書のサポート
新バージョンの検索サービス SharePointPSSearch はユーザー辞書に対応しています。未知語が原因で検索精度が落ちている場合には、ユーザー辞書に未知語を登録して、それらの未知語に対する検索精度を向上することができます。未知語には新語、略語等があります。

ユーザー辞書ファイル
ユーザー辞書は、\SharePoint Portal Server\Bin ディレクトリの MSIR5JP.udr ファイルに格納されています。MSIR5JP.udr ファイルは Unicode 形式です。検索サーバーのローカル Administrators グループのユーザーのみがユーザー辞書ファイルを変更できます。

ユーザー辞書には、次の制約があります。

  • ユーザー辞書に登録する 1 単語は MSIR5JP.udr の 1 行に記入します。

  • ユーザー辞書のエントリは名詞として扱われます。

  • ユーザー辞書は 1,000 単語以上記入できません。

  • 単語の最大文字数は 64 文字です。

ユーザー辞書への単語の追加
IMEユーザー辞書とは異なり、すべての未知語を登録したほうがよいわけではありません。

カタカナ語や英語の未知語は文字境界で自動的に分割されます。また、単語分割が人間の期待するものと異なっていたからといって、検索結果が大変に悪くなるとも限りません。つまり、検索結果がどうしても思うようにならない場合に限り、ユーザー辞書による対処を行うことをお勧めします。一般的なガイドラインとしては、関連文書があることが分かっているのに、"クエリと一致する結果が見つかりませんでした" というメッセージが出るときや、あまりに関連していない文書ばかり検索されてくるときに、ユーザー辞書を利用することを考えるとよいでしょう。

漢字単語は、未知語の場合にも比較的単語分割間違いが起こりにくくなっています。平仮名語や平仮名・アルファベットを含む語で一部がノイズ ワードとなりそうなもの、かつその単語がそのサイトの検索で重要な場合は、ユーザー辞書に入れる候補となります。この場合にも、まず検索がうまくいくかどうかを試みてからにしてください。

メモ
カタカナ語は通常、文字種境界で分割されます。もしどうしてもカタカナ複合語を分割したい場合には、その両方の語をユーザー辞書に入れると分割されます。たとえば、サイト テンプレートをサイト、テンプレートのいずれのクエリでも検索したい場合には、サイトとテンプレートの両方をユーザー辞書に入れると分割することができます。

ユーザー辞書で避けるべき単語
特にひらがなの短い単語は、不正な単語分割が行われる可能性があります。たとえば、"おに" という単語をユーザー辞書に登録すると、"こわいかおには、" が "こわい-か/おに-は" と分析され、キーワードが "こわい" および "おに" になってしまいます。短い単語に関しては、検索結果の精度を確認し、非常に重要な場合のみユーザー辞書に登録することをお勧めします。

また、ひらがなの 1 文字単語をユーザー辞書に登録しないでください。SharePointPSSearch サービスは 1 文字単語をノイズ ワードと判断し、無視します。

半角/全角の単語の正規化は日本語ワード ブレーカが自動的に対応します。よって、半角/全角のバリエーションをユーザー辞書に登録する必要はありません。

ユーザー辞書によるパフォーマンスの影響
ユーザー辞書のエントリ数が増えると SharePointPSSearch サービスの速度が低下します。上限である 1000 語を登録したユーザー辞書を使用するとポータル サイトの検索速度が半分に低下する場合があります。

ユーザー辞書のヒント

  • ユーザー辞書にスペースが含まれる単語が登録された場合、検索結果ではその単語は 1 単語として扱われます。行末のスペースは無視されます。

  • 同じ単語を重複して入力した場合、2 回目以降の単語は無視されます。

  • 1000 単語以上、または 64 文字を超える単語を辞書に登録した場合、それらのエントリは無視されます。

検索結果の改良
日本語ワード ブレーカの改良により、全体的な検索結果の向上が確認されています。また、以下に述べるような個別の改良も行われています。

接辞、付属語の扱い
接頭語、接尾語、および付属語は次の 3 とおりの方法で処理されます。

  • 無視する。多くの付属語は検索時に無視されます。

  • 付属語を別の単語として扱う。

  • 付属語を語幹にくっつけて、1 単語として検索時に扱う。

次の特定の付属語は、テストを行い、最適化な検索結果を得られるように調整されました。

検索キーワード (接辞、付属語)

SharePoint Portal Server 2001 の 日本語ワード ブレーカ

SharePoint Portal Server 2003 の 日本語ワード ブレーカ

コメント

たまちゃん

たま

たま
ちゃん

2001 では除外されました。2003 では別単語として扱われます。

私的

私的

2001 では除外されました。2003 では語幹に接続されます。

長さ

長さ

2001 では除外されました。2003 では語幹に接続されます。

最適化

最適

最適化

2001 では別単語として扱われました。2003 では語幹に接続されます。

初期化

初期

初期化

2001 では別単語として扱われました。2003 では語幹に接続されます。

同一性

同一

同一性

2001 では別単語として扱われました。2003 では語幹に接続されます。

マイクロソフト(株)

マイクロソフト(株)

マイクロソフト
(株)

2001 では語幹に接続されました。2003 では別単語として扱われます。

送り仮名の揺らぎ
従来の検索サービスでは、異なった送り仮名を使ったものは検索できないという制約がありました。SharePoint Portal Server 2003 の SharePointPSSearch サービスでは、クエリ時に送り仮名のバリエーションを出力するため、検索の再現率が向上しています。ただし、バリエーションを出力できる単語が制限されているため、あらゆる送り仮名のバリエーションに対応しているわけではありません。次の表では、クエリ時に送り仮名のバリエーションを出力して再現性を向上している特定の例を示します。

検索キーワード

SharePoint Portal Server 2001 の 日本語ワード ブレーカ

SharePoint Portal Server 2003 の 日本語ワード ブレーカ

買物

買物

買物
買い物 [Alt]*

買い物

買い物

買い物
買物 [Alt]

打ち合せる

打ち合せ

打ち合せ
打ち合わせ [Alt]
打合せ [Alt]
打合わせ [Alt]

打ち合わせる

打ち合わせ

打ち合わせ
打ち合せ [Alt]
打合せ [Alt]
打合わせ [Alt]

*[Alt] はクエリ時に追加されるバリエーションを意味します。各バリエーションは別単語として扱われます。

連用形の代替出力
センテンスに未知のひらがなの名詞が含まれる場合、日本語ワード ブレーカが名詞を動詞として分析してしまう場合があります。分析の結果、ある単語が 1 文字ひらがなの語幹+動詞の活用形と判断された場合、その単語がノイズ ワードと判断されて検索時に無視されてしまいます。

SharePoint Portal Server 2003 の日本語ワード ブレーカは、特定の動詞に対して五段活用動詞の連用形も代替出力するようになりました。これにより、期待される検索結果が返される可能性が高くなります。次の表では、SharePoint Portal Server 2003 の日本語ワード ブレーカがクエリ時に連用形を出力する 2 つの例を示します。

検索キーワード

SharePoint Portal Server 2001 の 日本語ワード ブレーカ

SharePoint Portal Server 2003 の 日本語ワード ブレーカ

北野ゆい

北野

北野

ゆい [Alt]*

ゆいます


ゆい [Alt]

*[Alt] はクエリ時に追加されるバリエーションを意味します。各バリエーションは別単語として扱われます。

SharePoint Portal Server 2001 の日本語ワード ブレーカでの検索結果
たとえば、"北野ゆい" という人物について検索するとします。"ゆい" は未知語のため、ワード ブレーカは "ゆ"(語幹) + "い"(変化形) と分析し、"ゆ" が出力されます。しかし、検索エンジンは "ゆ" をノイズ ワードとして無視してしまいます。よって、"北野ゆい" のクエリが "北野" のクエリと同等になってしまい、期待される "北野ゆい" の検索結果が埋もれてしまう可能性があります。

SharePoint Portal Server 2003 の日本語ワード ブレーカでの検索結果
SharePoint Portal Server 2003 の日本語ワード ブレーカでは、"ゆい" も含まれるため、"北野" のみでヒットした項目よりも "北野ゆい" のヒットが優先して一覧されます。

この機能は特定の短いひらがなの五段動詞のみに限定されています。

名詞 / 動詞のあいまい性
日本語ワード ブレーカは語幹を出力します。よって、入力文字列 "取り込み" が名詞として分析された場合および動詞として分析された場合では検索結果が異なります。日本語の語幹は名詞、動詞の区別がつきにくいことがあるため、正しい分析方法が文脈に依存することがあります。

SharePointPSSearch サービスではクエリ時に名詞および動詞の両方の語幹を出力することで再現性を向上しています。この機能は特定の名詞および動詞のみを対象としているため、あいまいな場合には必ず両方の語幹を出すとは限りません。次の表では、SharePoint Portal Server 2003 の日本語ワード ブレーカが名詞および動詞の語幹を出力する "取り込み" というあいまい語の例を示しています。表の 2 番目の "取り込む" はあいまい語ではないため、名詞および動詞の語幹が出力されません。

検索キーワード

SharePoint Portal Server 2001 の 日本語ワード ブレーカ

SharePoint Portal Server 2003 の 日本語ワード ブレーカ

取り込み

取り込み

取り込み
取り込 [Alt]*

取り込む

取り込

取り込

*[Alt] はクエリ時に追加されるバリエーションを意味します。各バリエーションは別単語として扱われます。

数字正規化に関するあいまい性
日本語ワード ブレーカは漢数字をアラビア数字に正規化します。しかし、漢数字を含む語が数値的表現なのか、一般的な言葉なのかあいまいな場合があります。SharePoint Portal Server 2003 の日本語ワード ブレーカでは、クエリ時に両方の状況に対応できます。

この機能は特定の言葉のみを対象としているため、あいまいな場合には必ず両方の形が出力されるとは限りません。次の表では、SharePoint Portal Server 2003 の日本語ワード ブレーカが数値的表現を正規化しつつ一般的な言葉にも対応したクエリを出力する例を示します。

検索キーワード

SharePoint Portal Server 2001 の日本語ワード ブレーカ

SharePoint Portal Server 2003 の日本語ワード ブレーカ

一度、

一度

1度
(2) 一度 [Alt]*

*[Alt] はクエリ時に追加されるバリエーションを意味します。各バリエーションは別単語として扱われます。

システム辞書のアップデート
あらゆる言語と同様に、日本語もたえず新語が登場します。英語などの言語では言葉がスペースで区切られるため、新しい単語が登場しても検索に対する影響はさほど大きくありません。しかし、日本語では言葉が普通スペースで区切られていないため、新語が辞書に登録されていないと、正しく分割されない場合があります。

ユーザー辞書に新語を登録して、検索精度を向上することができます。

次の言葉は、SharePoint Portal Server 2003 の日本語ワード ブレーカのシステム辞書に新たに追加されました。

さいたま、ゆりかもめ、C#、C++、ねずみくす、まんが、つわり、Lモード、iモード、駅すぱーと、ぷらら、まぐまぐ、天安門、Jリーグ、W杯、写メール、チケットぴあ、ゆうパック、写ルンです、eメール、2ちゃんねる

既存の日本語機能

次の日本語ワード ブレーカ機能は、従来の検索サービスから引き継がれました。

  • 単語ベースのインデックス化

  • 変化形の正規化

  • 半角/全角の正規化

  • 数字の正規化

  • カタカナの揺らぎ

  • 中黒縮退

これらは日本語ワード ブレーカの基本的な機能です。一部の機能は部分的に改良されています。以下に各機能の解説を示します。

単語ベースのインデックス化
SharePointPSSearch サービスは、コンテンツのインデックス化およびクエリ時に使用されるインテリジェントなワード ブレーカを搭載しています。英語に比較して日本語の単語境界はあいまいなため、英語のワード ブレーカに比較して日本語ワード ブレーカはより高度なものといえます。SharePointPSSearch サービスは日本語文書に含まれる文字ではなく、単語のインデックス化を行います。文字ベースのインデックス化は一般的なクエリで有効ですが、期待しない検索結果を返してしまう場合があります。単語ベースのインデックス化により検索精度が向上し、インデックスのサイズも減少します。また、次の例で示すような正規化手法も利用できます。

クエリ : 京都

文書に含まれる文字列 : 東京都

SharePointPSSearch サービスはこの文書を検索結果に返しません。"東京" が分割されないため、"京都" としてインデックス化されません。

クエリ : アジ

文書に含まれる文字列: アジア "アジア" は単語としてインデックス化されるため、SharePointPSSearch サービスはこの文書を "アジ" のクエリの検索結果に返しません。

"アジア" に比較して "アジ" の出現が少ないため、文字ベースのインデックス システムではこの種のクエリを不得意とします。文字ベースのインデックス システムで "アジ" を検索すると、"アジア" の文書が大量にヒットして、"アジ" に関する文書がわずかに見つかることが予想されます。

変化形の正規化
日本語ワード ブレーカは、標準およびバリエーションの変化形に対してインデックスおよびクエリ時に言葉の変化形の正規化を行います。これに対して英語ワード ブレーカは終止形および語幹に正規化されます。正規化により、クエリは検索語の異なる変化形を検索することができます。次に、検索語として使用される変化形に関わらず、同じ検索結果が返される例を示します。

元の検索キーワード

正規化検索キーワード

表示の切り替え方

表示の切り替え方
表示を切り替えるには

特捜部の調べによれば

特捜部の調べによれば
特捜部が調べたところ

買います

買います
買う
買った

きれい

きれい
きれいな
きれいでした

半角 / 全角の正規化
半角および全角のカタカナ、アルファベット、数字、および記号はすべて正規化され、半角文字を使用した検索に全角文字がヒットし、その逆にも対応できます。次に、検索語の半角/全角の種類に関わらず、同じ検索結果が返される例を示します。

元の検索キーワード

正規化検索キーワード

アメリカ

アメリカ
アメリカ

2000

2000
2000

数字の正規化
半角数字、全角数字、および漢数字はすべて正規化され、特定の数字種類を使用した検索にも他の数字種類がヒットします。次に、検索語として使用される数字の種類に関わらず、半角数字、全角数字、および漢数字の検索結果が返される例を示します。

元の検索キーワード

正規化検索キーワード

2000円札

2000円札
2000円札
2千円札
二千円札
二〇〇〇円札

第二次世界大戦

第二次世界大戦
第2次世界大戦
第2次世界大戦

メモ
不要なマッチを回避するため、数字の間の読点の正規化は行われなくなりました。たとえば、"1、2日" が "12日" にマッチしないようになりました。ただし、"2、000円札" と "2000円札" などがマッチしなくなりましたのでご注意ください。

カタカナの揺らぎ
カタカナ語が含まれるクエリは、カタカナの揺らぎを含む文書も検索できます。次に、カタカナの揺らぎの処理が有効に働く例を示します。

元の検索キーワード

正規化検索キーワード

デジタル

デジタル
ディジタル

コンピュータ

コンピュータ
コンピューター

ギリシャ

ギリシャ
ギリシア

中黒縮退
一般に、カタカナ複合語を書き表す際、中黒やその他の区切り文字を使用する場合と、カタカナを直接つなげて書く場合とがあります。SharePointPSSearch サービスでは、クエリに対して、いずれの書き方をしたものも検索できます。次に、中黒縮退が有効に働く例を示します。

元の検索キーワード

正規化検索キーワード

アール・ヌーボー

アール・ヌーボー
アールヌーボー

サン=テグジュペリ

サン=テグジュペリ
サンテグジュペリ

シャーロック・ホームズ

シャーロック・ホームズ
シャーロックホームズ

アガサクリスティ

アガサクリスティ
アガサ=クリスティ

ヒント

SharePointPSSearch サービスの日本語機能は非常に高度なものです。次に、トラブルシューティングを行う際のヒントおよび検索精度、パフォーマンスを改善するベスト プラクティスを示します。

中黒の使用
中黒で区切られたカタカナ語のクエリに比較して、縮退されたカタカナ語を使用したクエリのほうがより少ない、より正確な検索結果を返します。次に例を示します。検索精度を向上するには縮退形を使用します。検索範囲を拡張するには中黒を使用します。

クエリ 1 : メールアドレス

クエリ 2 : メール・アドレス

文書 1 の単語 : メールアドレス

文書 2 の単語 : メール・アドレス
文書 3 の単語 : メール アドレス
文書 4 の単語 : メール アドレス
文書 5 の単語 : "メール" および "アドレス"

検索結果

文書 1

文書 2

文書 3

文書 4

文書 5

クエリ 1

マッチ

マッチ

マッチ

マッチ

マッチせず

クエリ 2

マッチ

マッチ

マッチ

マッチ

マッチ

混在言語
SharePointPSSearch サービスは日本語および英語を含む文書のインデックス化を行えます。日本語文書に他言語が含まれる場合、スペースや句読点の使用法が英語に似ている言語であればインデックス精度が向上します。

クエリおよびロケール
SharePointPSSearch サービスは、ブラウザの言語設定からクエリ文字の言語を判断します。日本語クエリを行うためには、ブラウザの既定言語が日本語に設定されている必要があります。他の言語に設定されている場合、クエリが他言語と解釈されてしまう場合があります。

日本語ワード ブレーカでのアルファベットの扱い
アルファベットを含む文書に対して日本語ワード ブレーカが使用される場合があります。これは、検索時にブラウザの既定の言語が日本語に設定されている場合、およびインデックス時に検索サービスが文書の言語が日本語であると判断した場合に発生します。

ワード ブレーカの言語によって、アルファベットの検索結果に次のような違いが発生します。

検索キーワード

英語ワード ブレーカでの結果

日本語ワード ブレーカでの結果

David's Web

David

s

Web

David's

Web

http://example.com?this%20is%20nice

http

example

.com

this

is

nice

http

example

.com

this%20is%20nice

類義語辞書 ( シソーラス ファイル )
SharePointPSSearch サービスは類義語辞書をサポートしており、類義語辞書のエントリも、単語分割をしてから使用されています。類義語辞書のエントリはユーザー辞書に自動的に追加されません。よって、エントリに未知語が含まれる場合、予期せぬ単語分割が発生する場合があります。

類義語辞書のエントリをすべてユーザー辞書に登録する必要はありませんが、エントリをユーザー辞書に登録することによって検索精度が向上する場合もあります。エントリをユーザー辞書に登録しないことにより、エントリの一部分がノイズ ワードと判断されてしまうことがあります。ユーザー辞書にエントリを登録する前に、このホワイト ペーパーの「ユーザー辞書のサポート」のセクションを参照してください。