Konfiguracja tezaurusa

W SQL Server, pełny tekst kwerendy można wyszukać synonimy warunki określone przez użytkownika, korzystając z tezaurusa.A SQL Server thesaurus defines a set of synonyms for a specific language.Administratorzy systemu mogą definiować dwie formy synonimy: rozszerzenia zestawów i zestawów zastępczych.Poprzez rozwijanie tezaurusa dostosowanych do danych pełnego tekstu, można skutecznie poszerzenia zakres pełnotekstowe kwerendy dotyczące danych.Tezaurus dopasowywania występuje tylko dla kwerendy ZAWIERA i CONTAINSTABLE, określające klauzula FORMSOF, TEZAURUS i kwerendy FREETEXT i FREETEXTABLE.

Przed kwerend przeszukiwanie pełnego tekstu na serwerze wystąpienie można wyszukać synonimy w danym języku, należy zdefiniować mapowania tezaurusa (synonimy) dla tego języka.Każdy tezaurusa musi ręcznie skonfigurowany zdefiniowanie następujących elementów:

  • Ustawianie znaków diakrytycznych

    Dla danego tezaurusa, wszystkich wzorów szukania są poufne lub niewrażliwe znaków diakrytycznych, takich jak tyldy (~), znaku akcentu silnego (´), lub umlaut (¨) (, akcentu poufnych lub Akcent niewrażliwe).Załóżmy na przykład, określić wzorzec "café" zastępuje się inne wzorce zapytanie pełnotekstowe.Jeżeli tezaurus jest niewrażliwe akcentu, przeszukiwanie pełnego tekstu zastępuje desenie "café" i "cafe".Jeżeli tezaurus jest accent-sensitive, przeszukiwanie pełnego tekstu zastępuje tylko wzorka "café".Tezaurus jest domyślnie niewrażliwe akcentu.

    Ostrzeżenie

    Aby uzyskać informacje dotyczące znaków diakrytycznych, zobacz Znakiem diakrytycznym w encyklopedii Encarta MSN.

  • Zestaw rozszerzający

    Zestaw rozszerzający zawiera grupę synonimów, takich jak "writer", "Autor" i "journalist" które zostały zastąpione jednym innym zapytanie pełnotekstowe.Kwerendy zawierające dopasowanie dla dowolnego synonim w zestaw rozszerzający są rozwinięte uwzględnienie wszystkich innych synonim w zestawie rozszerzającym.

    Aby uzyskać więcej informacji zobacz "XML struktury z rozszerzenia Ustawianie" w dalszej części tego tematu.

  • Zestaw zastępczy

    Zestaw zastępczy zawiera wzorca tekstowego zastępuje się zestaw podstawiania.Na przykład zobacz sekcję "XML struktury z zestaw zastępczy" w dalszej części tego tematu.

Ostrzeżenie

Ograniczenia i zalecenia dotyczące plik tezaurusa, zobacz Jak Edytuj plik tezaurusa (wyszukiwanie pełnotekstowe).

SQL Server zawiera zestaw plików tezaurusa XML, jeden dla każdego obsługiwanego języka.Pliki te są zasadniczo puste.Zawierają one tylko najwyższego poziom że struktura języka XML jest wspólne dla wszystkich SQL Server tezaurusy i tezaurus próbki poza komentarzem.

Ten temat zawiera informacje, aby pomóc w osiągnięciu tego zadania w następujący sposób:

  • Wstępną zawartość plików tezaurusa

  • Lokalizacja plików tezaurusa

  • Jak pliki tezaurusa używania kwerend

  • Opis struktury pliku tezaurusa

  • Praca z plikami tezaurusa

Wstępną zawartość plików tezaurusa

Pliki tezaurusa, które są zwolnione z SQL Server 2008 Wszystkie zawierają następujący kod XML:

<XML ID="Microsoft Search Thesaurus">

<!--  Commented out

    <thesaurus xmlns="x-schema:tsSchema.xml">
<diacritics_sensitive>0</diacritics_sensitive>
        <expansion>
            <sub>Internet Explorer</sub>
            <sub>IE</sub>
            <sub>IE5</sub>
        </expansion>
        <replacement>
            <pat>NT5</pat>
            <pat>W2K</pat>
            <sub>Windows 2000</sub>
        </replacement>
        <expansion>
            <sub>run</sub>
            <sub>jog</sub>
        </expansion>
    </thesaurus>
-->
</XML>

[Do góry]

Lokalizacja plików tezaurusa

Domyślna lokalizacja plików tezaurusa jest:

SQL_Server_install_path\Microsoft SQL Server\MSSQL10_50.MSSQLSERVER\MSSQL\FTDATA\

Lokalizacja domyślna to zawiera następujące pliki:

  • Pliki tezaurusa dla języka

    Podczas instalacji pliki tezaurusa puste są instalowane w powyższej lokalizacji.Oddzielny plik znajduje się dla każdego obsługiwanego języka.Administrator systemu można dostosować te pliki.

    Domyślne nazwy pliku Użyj plików tezaurusa, następującego formatu:

    'ts' + <języka trzyliterowego> + ".xml"

    Nazwa pliku tezaurusa dla danego języka jest określona w rejestrze w następującej wartości HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Microsoft SQL Server\<wystąpienie-nazwa>\MSSearch\<abbrev języka>.

  • Globalnego pliku tezaurusa

    Pusty globalnego pliku tezaurusa, tsGlobal.xml.

Można zmienić lokalizację i nazwy pliku tezaurusa, zmieniając jego klucz rejestru.Dla każdego języka lokalizację pliku tezaurusa jest określona w rejestrze następującą wartość:

HKLM/oprogramowania/Microsoft/Microsoft SQL Server /<wystąpienie nazwę>/MSSearch/język/<Skrót języka>/TsaurusFile

Język neutralny LCID 0 odpowiada globalnego pliku tezaurusa.Wartość tę można zmienić tylko Administratorzy.

[Do góry]

Jak pliki tezaurusa używania kwerend

Kwerenda tezaurusa używa tezaurusa określonego języka i globalnego tezaurusa.Najpierw kwerendy wyszukuje plik określonego języka i ładuje go do przetwarzania (o ile nie jest już załadowany).Kwerenda jest rozszerzona w celu uwzględnienia synonimy określonego języka, określona przez zestaw rozszerzający i zestaw zastępczy reguł w pliku tezaurusa.Następujące kroki są następnie powtarzane dla globalnego tezaurusa.Jednakże jeśli termin jest już częścią dopasowania w pliku tezaurusa określonego języka, termin jest nieodpowiednia do dopasowania w tezaurusie globalnego.

[Do góry]

Opis struktury pliku tezaurusa

Każdy plik tezaurusa definiuje kontener XML, którego identyfikator jest Microsoft Search Thesaurusi komentarz, <!-- … -->, zawierający próbkę tezaurusa.Tezaurus jest zdefiniowany w <tezaurusa> element zawierający próbek elementów podrzędność, które określają ustawienie znaków diakrytycznych, rozszerzenia zestawów i zestawów zastępczych następująco:

  • Ustawienie diakrytycznych struktury XML

    Ustawienie znaków diakrytycznych Tezaurus jest określony w jednym <diacritics_sensitive> elementu.Ten element zawiera formanty następująco akcent czułości, całkowitą:

    Ustawianie znaków diakrytycznych

    Wartość

    XML

    Akcent niewrażliwe

    0

    <diacritics_sensitive>0</diacritics_sensitive>

    Akcent wrażliwe

    1

    <diacritics_sensitive>1</diacritics_sensitive>

    Ostrzeżenie

    To ustawienie może być tylko jeden stosowane czas w pliku i dotyczy wszystkich wzorów szukania w pliku.Nie można określić to ustawienie dla poszczególnych wzorców.

  • Zestaw rozszerzający struktury XML

    Każdy zestaw rozszerzający jest ujęty w <rozszerzenia> elementu.W ramach tego elementu można określić jeden lub kilka elementów zastępczych w <sub> elementu.W rozwoju zestaw, można określić grupę elementów zastępczych, które są synonimami od siebie.

    For example, you can edit the expansion section to treat the substitutions "writer", "author", and "journalist" as synonyms.full-text search queries that contain matches in one substitution are expanded to include all other substitutions specified in the expansion set.Zatem w poprzednim przykładzie podczas wystawiania formularzy TEZAURUS lub kwerendy FREETEXT wyrazu "Autor" przeszukiwanie pełnego tekstu zwraca także wyniki wyszukiwania zawierające słowa "writer" i "journalist".

    Jest to jakie rozszerzenia zestaw sekcji będzie wyglądać w powyższym przykładzie:

     <expansion>
             <sub>writer</sub>
             <sub>author</sub>
             <sub>journalist</sub>
     </expansion>
    
  • Zestaw zastępczy struktury XML

    Każdy zestaw zastępczy jest ujęty w <wymiany> elementu.W ramach tego elementu można określić jeden lub kilka wzorców w <pat> element i zero lub kilka elementów zastępczych w <sub> elementów, jeden na synonim.Można określić wzorzec zastępuje się zestaw podstawiania.Wzorce i elementy zastępcze może zawierać słowo lub sekwencję słów.W przypadku podstawiania nie określono deseń ma skutek usuwania deseniu z kwerendy użytkownika.

    Załóżmy, że chcesz kwerend dla "W2K" wzorca, zastępuje się "Windows 2000" lub "xp", substytutów.Po uruchomieniu zapytanie pełnotekstowe dla "w2k" przeszukiwanie pełnego tekstu zwraca tylko wyniki wyszukiwania zawierające "Windows 2000" lub "xp".Nie zwraca wyniki zawierające "w2k".Wynika to z wzorcem "w2k" "zastąpiono" według wzorów "Windows 2000" i "xp".

    Jest to, co zestaw zastępczy sekcji może wyglądać na przykład powyżej:

     <replacement>
             <pat>W2K</pat>
             <sub>Windows 2000</sub>
             <sub>XP</sub>
     </replacement>
    

    Jeśli masz dwóch zestawów zastępczych z podobnymi wzorcami filtrowanego dłużej dwóch pierwszeństwo.Na przykład uruchomić formy kwerendy TEZAURUSA dla "Wspólnota online programu Internet Explorer" i następujących zestawów zastępczych "Internet Explorer" zestaw zastępczy ma pierwszeństwo przed "Internet" zestaw zastępczy.Kwerenda dlatego będą przetwarzane jako "Wspólnota online IE" lub "IE 5 Wspólnota online".

    <replacement>
             <pat>Internet</pat>
             <sub>intranet</sub>
    </replacement>
    

    i

    <replacement>
             <pat>Internet Explorer</pat>
             <sub>IE</sub>
             <sub>IE 5</sub>
    </replacement>
    

[Do góry]

Praca z plikami tezaurusa

Aby edytować plik tezaurusa

Aby wczytać plik tezaurusa zaktualizowane

Aby wyświetlić wynik tokenizacja połączenia dzielenie, tezaurus i stoplist programu word