シソーラス ファイルを編集する (Office SharePoint Server)

シソーラス ファイルは Microsoft Office SharePoint Server 2007 のクエリ拡張検索機能で、検索ボックスに語句を入力すると、入力した語句に関連する単語が検索結果として返されます。たとえば、"run" という単語の検索では、シソーラス ファイルで "run" と "jog" という 2 つの用語が関連付けられている場合、そのどちらかの単語を含む結果が返されます。シソーラス ファイルでは、置換セットを使用して、代替値に置き換えられるパターンを指定します。また、拡張セットを使用すると、指定したパターンと同義である追加の値が返されます。

この記事の内容 :

  • シソーラス ファイルについて

  • 置換セットを使用する

  • 拡張セットを使用する

  • シソーラス ファイルを編集する

  • 言語別シソーラス ファイルのリスト

シソーラス ファイルについて

Microsoft Office SharePoint Server 2007 をインストールすると、Office SharePoint Server 2007 がサポートする各言語のシソーラス ファイルが、ニュートラルな (言語に依存しない) シソーラス ファイルである tsneu.xml と共に、自動的にインストールされます。ニュートラルなシソーラス ファイル tsneu.xml は、クエリ言語に関連付けられたシソーラス ファイルがないクエリに適用されます。ニュートラルなシソーラス ファイルは、クエリ言語に関連付けられた特定のシソーラス ファイルがある場合でも、必ずクエリに適用されます。詳細については、「言語別シソーラス ファイルのリスト」のセクションを参照してください。

既定では、シソーラス ファイルは、クエリ サーバー上の Drive:\Program Files\Microsoft Office Servers\12.0\Data\Config に作成され、格納されます。シソーラス ファイルは、この既定の場所からクエリ サーバー上にある Microsoft Search サービスの各インスタンスの Drive:\Program Files\Microsoft Office Servers\12.0\Data\Office Server\Applications\<Application UID>\Config というフォルダの場所にコピーされます。ここで、< Application UID > は、特定の共有サービス プロバイダに関連付けられている GUID です。

注意

既定の場所にあるシソーラス ファイルを変更すると、新しい共有サービス プロバイダ (SSP) が作成されるたびに、シソーラス ファイルの変更されたバージョンが自動的にコピーされます。SSP の作成後に既定の場所のシソーラス ファイルを変更した場合は、既定の場所から、既に存在している各 SSP の指定のディレクトリにシソーラス ファイルをコピーする必要があります。

重要

tsschema.xml という名前のファイルがシソーラス ファイルと共に同じディレクトリにインストールされます。tsschema.xml ファイルは変更しないでください。このファイルはその他すべてのシソーラス ファイルから参照されているので、このファイルを変更すると、検索が正しく機能しなくなることがあります。

各シソーラス ファイルには、既定で、非アクティブなサンプル コンテンツが含まれています。検索でシソーラス ファイルを使用できるようにするには、このファイルを編集する必要があります。シソーラス ファイルには、置換セットおよび拡張セットという 2 種類の主要なエントリがあります。これらのエントリについては、このトピックの後半のセクションで詳しく説明します。第 3 の種類のエントリ diacritics_sensitive は、検索でアクセントなどの分音記号を無視するか、反映するかを指定するために使用します。既定では、分音記号は無視されるので、値は 0 に設定されています。検索で分音記号を反映させるには、この値を 1 に変更します。

シソーラス ファイル内の既定の XML の例を次に示します。

<XML ID="Microsoft Search Thesaurus">

<!--  Commented out

    <thesaurus xmlns="x-schema:tsSchema.xml">
        <diacritics_sensitive>0</diacritics_sensitive>
        <expansion>
            <sub>Internet Explorer</sub>
            <sub>IE</sub>
            <sub>IE5</sub>
        </expansion>
        <replacement>
            <pat>NT5</pat>
            <pat>W2K</pat>
            <sub>Windows 2000</sub>
        </replacement>
        <expansion>
            <sub>run</sub>
            <sub>jog</sub>
        </expansion>
    </thesaurus>
-->
</XML>

重要

パフォーマンスの観点から、シソーラス ファイル内に定義されているアイテム数に注意し、アイテム数が 1,000/10,000 (通常/最大) を超えないようにすることが重要です。個々の <pat> タグまたは <sub> タグは 1 つの定義済みアイテムとして見なされるので、推奨アイテム数を超えないように注意してください。

特殊文字だけを含むエントリをシソーラス ファイルに追加することはできません。ただし、空白のエントリを追加することはできます。たとえば、特定の用語のクエリが結果を返さないことを確認できるようにする場合に、エントリを変更します。次の例では、用語 "windows" に対するクエリの結果は返されません。

<replacement>
    <pat>windows</pat>
    <sub></sub>
</replacement>

シソーラス ファイルには、ノイズ ワードを含めることができます。ただし、ノイズ ワード ファイルを併用している場合、ノイズ ワードは後の段階でフィルタにより除外されます。詳細については、「ノイズ ワード ファイルの編集 (Office SharePoint Server)」を参照してください。

置換セットを使用する

置換セットは、検索クエリ内の 1 つ以上の代替文字列で置換されるパターンを指定します。たとえば、"W2K" がパターンで、"Windows 2000" が代替文字列である置換セットを追加できます。用語 "W2K" のクエリでは、Office SharePoint Server 2007 により用語 "Windows 2000" を含む検索結果のみが返されます。"W2K" という用語を含むアイテムは検索結果として返されません。

各置換セットは、<replacement> タグで囲みます。置換タグ内では、<pat> タグでパターンを囲んで 1 つ以上のパターンを指定し、<sub> タグで代替文字列を囲んで 1 つ以上の代替文字列を指定します。パターンと代替文字列は、単語または一連の単語を含むことができます。たとえば、"W2K" がパターンで、"Windows 2000" が代替文字列である置換セットを追加するには、次のようにします。

<replacement>
    <pat>W2K</pat>
    <sub>Windows 2000</sub>
</replacement>

指定する各パターンには、複数の代替文字列を設定できます。

注意

できる限り、置換セットはすべてのユーザーの解釈が同じになる用語と共に使用します。たとえば、廃止された用語 (社内で使用していた製品名など) をクエリで他の用語 (リリースされた製品名など) に置き換えるなどのシナリオが考えられます。

拡張セットを使用する

拡張セットは、互いに類義語の関係にある代替文字列のグループです。1 つの代替文字列との一致を含むクエリが、拡張セットのその他すべての代替文字列を含むように拡張されます。たとえば、以下の代替文字列を類義語とする拡張セットを追加できます。

  • ライタ

  • 作成者

  • ジャーナリスト

用語 "作成者" のクエリを実行すると、Office SharePoint Server 2007 では、用語 "ライタ" と用語 "ジャーナリスト" を含む検索結果も返されます。

各拡張セットは、<expansion> タグで囲みます。<expansion> タグ内では、<sub> タグで代替文字列を囲んで 1 つ以上の代替文字列を指定します。たとえば、前の例では次の行を追加します。

<expansion>
    <sub>ライタ</sub>
    <sub>作成者</sub>
    <sub>ジャーナリスト</sub>
</expansion>

シソーラス ファイルには個々の単語または語句を追加できます。特定の言語のワード ブレーカは、言語の語彙規則に基づいて単語境界が存在する箇所を決定することにより、個々の単語を識別します。ワード ブレーカで 1 つの単語として認識されない単語をシソーラス ファイルに追加する場合は、ワード ブレーカによって単語がさらに細かいトークンに分割されないように、ユーザー定義の辞書にもその単語を追加する必要があります。たとえば、拡張セットで "IT&T" という単語を使用しており、ユーザー定義の辞書にその単語を追加していない場合、ワード ブレーカによってその単語が "IT" および "T" という別々の 2 つの単語に分割される可能性があります。これにより、検索クエリの実行時に、拡張セットが期待どおりに機能しない場合があります。ユーザー定義の辞書の作成および使用については、「ユーザー辞書を作成する (Office SharePoint Server 2007)」を参照してください。

シソーラス ファイルを編集する

シソーラス ファイルを編集するには、次の手順を使用します。

重要

ファイルを編集するときは、ファイル内の各エントリを開始タグおよび終了タグの整合するペアで囲む必要があります。シソーラス ファイル内の XML タグが整合しない場合、アプリケーション イベント ログにエラーが記録されます。

シソーラス ファイルを編集する

  1. メモ帳を起動し、シソーラス ファイルを開きます。適切なシソーラス ファイルの検索および識別については、「シソーラス ファイルについて」のセクションを参照してください。

  2. シソーラス ファイルを初めて変更する場合は、ファイルの先頭に表示される <!-- Commented out コメント行と、ファイルの末尾に表示される --> コメント行を削除します。

  3. シソーラス ファイルを変更します。置換セットまたは拡張セットを追加、変更、または削除します。

  4. シソーラス ファイルを保存し、メモ帳を閉じます。

言語別シソーラス ファイルのリスト

言語 ファイル名

アラビア語

tsara.xml

ベンガル語

tsben.xml

ブルガリア語

tsbul.xml

カタルニア語

tscat.xml

簡体字中国語

tschs.xml

繁体字中国語

tscht.xml

クロアチア語

tscro.xml

オランダ語 (オランダ)

tsnld.xml

英語 (英国)

tseng.xml

英語 (米国)

tsenu.xml

フィンランド語

tsfin.xml

フランス語

tsfra.xml

ドイツ語

tsdeu.xml

グジャラート語

tsguj.xml

ヘブライ語

tsheb.xml

ヒンディー語

tshin.xml

アイスランド語

tsice.xml

インドネシア語

tsind.xml

イタリア語

tsita.xml

日本語

tsjpn.xml

カンナダ語

tskan.xml

韓国語

tskor.xml

ラトビア語

tslat.xml

リトアニア語

tslit.xml

マレー語

tsmal.xml

マラヤーラム語

tsmly.xml

マラーティー語

tsma.xml

ニュートラル言語

tsneu.xml

ノルウェー語 (ブークモール)

tsnor.xml

ポーランド語

tsplk.xml

ポーランド語

tspol.xml

ポルトガル語 (ブラジル)

tsptb.xml

ポルトガル語 (ポルトガル)

tspor.xml

パンジャーブ語

tspun.xml

ルーマニア語

tsrom.xml

ロシア語

tsrus.xml

セルビア語 (キリル)

tssbc.xml

セルビア語 (ラテン)

tssbl.xml

スロバキア語

tssvk.xml

スロベニア語

tsslo.xml

スペイン語

tsesn.xml

スウェーデン語

tssve.xml

タミール語

tstam.xml

テルグ語

tstel.xml

タイ語

tstha.xml

トルコ語

tstur.xml

ウクライナ語

tsukr.xml

ウルドゥー語 (パキスタン)

tsurd.xml