Modificare un file del Thesaurus (Office SharePoint Server)

Un file del Thesaurus è una caratteristica di ricerca per l'espansione delle query in Microsoft Office SharePoint Server 2007 che consente agli utenti di digitare una frase in una casella di ricerca e ricevere risultati relativi a parole correlate alla frase immessa. Ad esempio, una ricerca della parola "corsa" potrebbe restituire risultati che contengono la parola "corsa" o "correre" se i due termini sono correlati nel file del Thesaurus. All'interno di un file del Thesaurus si utilizzano insiemi di sostituzioni per specificare i criteri che vengono sostituiti da valori alternativi e si utilizzano i set di espansioni per restituire valori aggiuntivi che sono sinonimi del criterio specificato.

Contenuto dell'articolo:

  • Informazioni sui file del Thesaurus

  • Utilizzo dei sey di sostituzioni

  • Utilizzo dei set di espansioni

  • Modifica di un file del Thesaurus

  • Elenco di file del Thesaurus in base alla lingua

Informazioni sui file del Thesaurus

Quando si installa Microsoft Office SharePoint Server 2007, viene incluso automaticamente un file del Thesaurus per ogni lingua supportata da Microsoft Office SharePoint Server 2007, oltre a un file del Thesaurus neutro, tsneu.xml. Il file del Thesaurus neutro tsneu.xml viene applicato alle query la cui lingua non è associata ad alcun file del Thesaurus. Tale file viene sempre applicato alle query, anche se al linguaggio della query è associato un file del Thesaurus specifico. Per ulteriori informazioni, vedere la sezione "Elenco di file del Thesaurus in base alla lingua".

Per impostazione predefinita, i file del Thesaurus vengono creati e archiviati nel percorso seguente nel server di query: Unità:\Programmi\Microsoft Office Servers\12.0\Data\Config. I file del Thesaurus disponibili in tale percorso predefinito vengono copiati nel percorso di cartella seguente per ogni istanza del servizio Microsoft Search esistente nel server di query: Unità:\Programmi\Microsoft Office Servers\12.0\Data\Office Server\Applications\<UID applicazione>\Config, dove <UID applicazione> è il GUID associato a uno specifico provider di servizi condivisi.

Nota

Se si apportano modifiche ai file del Thesaurus nel percorso predefinito, la versione modificata dei file verrà copiata automaticamente a ogni creazione di un nuovo provider di servizi condivisi. Se i file del Thesaurus vengono modificati nel percorso predefinito dopo la creazione di un provider di servizi condivisi, sarà necessario copiare i file dal percorso predefinito alla directory specificata per ogni provider di servizi condivisi già esistente.

Importante

Un file denominato tsschema.xml viene installato nella stessa directory dei file del Thesaurus. Non modificare il file tsschema.xml, poiché tutti gli altri file del Thesaurus fanno riferimento a questo file ed eventuali modifiche apportate a tale file potrebbero provocare errori nel funzionamento della ricerca.

Per impostazione predefinita, ogni file del Thesaurus include contenuto di esempio inattivo. Per consentirne l'utilizzo da parte della ricerca, è necessario innanzitutto modificare un file del Thesaurus. Nei file del Thesaurus sono disponibili due tipi principali di voci, ovvero i set di sostituzioni e i set di espansioni. Tali voci vengono illustrate in modo più dettagliato nelle sezioni successive di questo argomento. Un terzo tipo di voce, con distinzione dei segni diacritici, viene utilizzato per specificare se i segni diacritici quali gli accenti vengono ignorati o inclusi nella ricerca. Per impostazione predefinita, i segni diacritici vengono ignorati e quindi il valore è impostato su 0. Per includere nella ricerca i segni diacritici, impostare il valore su 1.

Di seguito è riportato un esempio di codice XML predefinito in un file del Thesaurus:

<XML ID="Microsoft Search Thesaurus">

<!--  Commented out

    <thesaurus xmlns="x-schema:tsSchema.xml">
        <diacritics_sensitive>0</diacritics_sensitive>
        <expansion>
            <sub>Internet Explorer</sub>
            <sub>IE</sub>
            <sub>IE5</sub>
        </expansion>
        <replacement>
            <pat>NT5</pat>
            <pat>W2K</pat>
            <sub>Windows 2000</sub>
        </replacement>
        <expansion>
            <sub>run</sub>
            <sub>jog</sub>
        </expansion>
    </thesaurus>
-->
</XML>

Importante

Dal punto di vista delle prestazioni è importante essere a conoscenza del numero di elementi definiti nel file del Thesaurus e non superare i 1.000/10.000 elementi (valore tipico/valore massimo). Si noti che ogni tag <pat> o <sub> viene calcolato come elemento definito che supera i valori consigliati.

Le voci aggiunte al file del Thesaurus non possono includere solo caratteri speciali. Sono tuttavia consentite voci vuote. Ad esempio, se si desidera assicurarsi che le query per un termine specifico non restituiscano alcun risultato, è possibile modificare la voce. Nell'esempio seguente le query relative al termine “windows” non restituiscono alcun risultato:

<replacement>
    <pat>windows</pat>
    <sub></sub>
</replacement>

È possibile includere parole non significative in un file del Thesaurus. Tali parole vengono tuttavia escluse tramite filtro in una fase successiva se si utilizza anche un file delle parole non significative. Per ulteriori informazioni, vedere Modificare un file di parole non significative (Office SharePoint Server).

Utilizzo dei set di sostituzioni

Un set di sostituzioni specifica un criterio che viene sostituito da una o più sostituzioni in una query di ricerca. Ad esempio, è possibile aggiungere un set di sostituzioni nel quale “W2K” è il criterio e “Windows 2000” la sostituzione. Una query relativa al termine “W2K”, Microsoft Office SharePoint Server 2007 restituirà solo risultati di ricerca che includono il termine “Windows 2000”. I risultati della ricerca non includeranno voci contenenti il termine “W2K”.

Ogni set di sostituzioni è racchiuso in un tag <replacement>. All'interno del tag di sostituzione è possibile specificare uno o più criteri, racchiudendoli in un tag <pat>, e quindi specificare una o più sostituzioni, racchiudendole in un tag <sub>. I criteri e le sostituzioni possono includere una parola o una sequenza di parole. Ad esempio, per aggiungere un set di sostituzioni in cui “W2K” è il criterio e “Windows 2000” la sostituzione, utilizzare il codice seguente:

<replacement>
    <pat>W2K</pat>
    <sub>Windows 2000</sub>
</replacement>

È possibile definire più di una sostituzione per ogni criterio specificato.

Nota

Se possibile, è consigliabile utilizzare set di sostituzioni con termini chiaramente equivalenti. Ad esempio, si consideri lo scenario in cui un termine obsoleto, quale il nome interno di un prodotto, deve essere sostituito da un altro termine in una query, quale il nome del prodotto rilasciato.

Utilizzo dei set di espansioni

Un set di espansioni è un gruppo di sostituzioni che risultano sinonimi. Le query che contengono corrispondenze in una sostituzione vengono espanse per includere tutte le altre sostituzioni disponibili nel set di espansioni. Ad esempio, è possibile aggiungere un set di espansioni nel quale le sostituzioni seguenti sono sinonimi:

  • scrittore

  • autore

  • giornalista

Se si esegue una query relativa al termine “autore”, Microsoft Office SharePoint Server 2007 restituisce anche risultati della ricerca contenenti il termine"scrittore" e il termine "giornalista".

Ogni set di espansioni è racchiuso in un tag <expansion>. All'interno del tag <expansion> è possibile specificare una o più sostituzioni, racchiudendole in un tag <sub>. Ad esempio, aggiungere le righe seguenti all'esempio precedente:

<expansion>
    <sub>scrittore</sub>
    <sub>autore</sub>
    <sub>giornalista</sub>
</expansion>

È possibile includere singole parole o frasi in un file del Thesaurus. Il word breaker per una determinata lingua identifica le singole parole determinando la presenza dei limiti delle parole sulla base delle regole lessicali della lingua. Se si include in un file del Thesaurus una parola che non viene riconosciuta come singola parola dal word breaker, è necessario includere tale parola anche in un dizionario personalizzato, in modo da evitare che venga suddivisa in token di dimensioni inferiori dal word breaker. Ad esempio, se si utilizza la parola “IT&T” in un set di espansioni, ma non la si include in un dizionario personalizzato, è possibile che il word breaker la suddivida in due parole distinte, “IT” e “T” e che il set di espansioni non funzioni come previsto quando viene eseguita una query di ricerca. Per informazioni sulla creazione e sull'utilizzo di dizionari personalizzati, vedere Creare un dizionario personalizzato (Office SharePoint Server 2007).

Modifica di un file del Thesaurus

Utilizzare la procedura seguente per modificare un file del Thesaurus.

Importante

Quando si modifica un file, è necessario utilizzare coppie corrispondenti di tag di apertura e di chiusura per ogni voce del file. Se i tag XML nel file del Thesaurus non corrispondono, verrà registrato un errore nel registro eventi dell'applicazione.

Modificare un file del Thesaurus

  1. Avviare Blocco note e quindi aprire un file del Thesaurus. Per informazioni sull'individuazione e sull'identificazione del file del Thesaurus appropriato, vedere la sezione "Informazioni sui file del Thesaurus".

  2. Se si apportano modifiche al file del Thesaurus per la prima volta, rimuovere la riga di commento <!-- Commented out, visualizzata nella parte iniziale del file, e la riga di commento -->, visualizzata nella parte finale del file.

  3. Apportare le modifiche desiderate al file del Thesaurus. Aggiungere, modificare o eliminare un set di sostituzioni o un set di espansioni.

  4. Salvare il file del Thesaurus e quindi chiudere Blocco note.

Elenco di file del Thesaurus in base alla lingua

Lingua Nome di file

Arabo

tsara.xml

Bengali

tsben.xml

Bulgaro

tsbul.xml

Catalano

tscat.xml

Cinese (semplificato)

tschs.xml

Cinese (tradizionale)

tscht.xml

Croato

tscro.xml

Olandese (Paesi Bassi)

tsnld.xml

Inglese (Regno Unito)

tseng.xml

Inglese (Stati Uniti)

tsenu.xml

Finlandese

tsfin.xml

Francese

tsfra.xml

Tedesco

tsdeu.xml

Gujarati

tsguj.xml

Ebraico

tsheb.xml

Hindi

tshin.xml

Islandese

tsice.xml

Indonesiano

tsind.xml

Italiano

tsita.xml

Giapponese

tsjpn.xml

Kannada

tskan.xml

Coreano

tskor.xml

Lettone

tslat.xml

Lituano

tslit.xml

Malese

tsmal.xml

Malayalam

tsmly.xml

Marathi

tsma.xml

Lingua neutra

tsneu.xml

Norvegese (Bokmal)

tsnor.xml

Polacco

tsplk.xml

Polacco

tspol.xml

Portoghese (Brasile)

tsptb.xml

Portoghese (Portogallo)

tspor.xml

Punjabi

tspun.xml

Rumeno

tsrom.xml

Russo

tsrus.xml

Serbo (alfabeto cirillico)

tssbc.xml

Serbo (alfabeto latino)

tssbl.xml

Slovacco

tssvk.xml

Sloveno

tsslo.xml

Spagnolo

tsesn.xml

Svedese

tssve.xml

Tamil

tstam.xml

Telugu

tstel.xml

Thai

tstha.xml

Turco

tstur.xml

Ucraino

tsukr.xml

Urdu (Pakistan)

tsurd.xml