Condividi tramite


Influenza di word breaker, stemmer e file di parole non significative sui risultati delle ricerche (Office SharePoint Server 2007)

Word breaker, stemmer e file delle parole non significative sono tutti componenti che fanno parte dei processi di indicizzazione ed elaborazione delle query.

Contenuto dell'articolo:

  • Word breaker 

  • Stemmer 

  • File delle parole non significative 

Word breaker

Un word breaker è un componente utilizzato per suddividere le stringhe di testo in singole parole durante i processi di indicizzazione ed esecuzione di query. Durante il processo di indicizzazione il testo viene estratto dagli elementi di contenuto come una stringa ininterrotta di caratteri. I word breaker ristabiliscono i punti di inizio e fine di ogni parola nella stringa di caratteri. Separano inoltre le parole composte, in modo che gli utenti ricevano un risultato di query su una parte della parola composta originale, nonché sui singoli termini da cui è costituita. Convertono infine in un formato standard i numeri e le date inclusi negli elementi di contenuto.

Per ogni lingua è disponibile un word breaker diverso. Il motore di indicizzazione determina quale utilizzare e, nel caso vengano rilevate più lingue, può utilizzare più di un word breaker per il testo proveniente da un unico documento. Se non è presente alcun word breaker per una determinata lingua, verrà utilizzato il word breaker indipendente dalla lingua.

I word breaker vengono inoltre utilizzati dal modulo di gestione query. Quando un utente invia una query, il word breaker viene utilizzato per suddividere le parole composte e le frasi. In questo modo aumenta la possibilità che i termini contenuti nella query corrispondano a quelli inclusi nell'indice del contenuto. Durante l'esecuzione di una query, la lingua del word breaker è determinata dalla lingua utilizzata dal Web browser dell'utente.

Per impostazione predefinita, Microsoft Office SharePoint Server 2007 installa i word breaker riportati nella tabella seguente in ogni server di una farm di SharePoint.

Arabo

Ungherese

Punjabi

Bengali

Islandese

Rumeno

Bulgaro

Indonesiano

Russo

Catalano

Italiano

Serbo (alfabeto cirillico)*

Croato

Giapponese

Serbo (alfabeto latino)*

Ceco

Kannada

Slovacco

Danese

Coreano

Sloveno

Olandese

Lettone

Spagnolo

Inglese

Lituano

Svedese

Finlandese

Malese

Tamil

Francese

Malayalam

Telugu

Tedesco

Marathi

Thai

Greco

Norvegese (Bokmaal)

Turco

Gujarati

Polacco

Ucraino

Ebraico

Portoghese

Urdu

Hindi

Portoghese (Brasile)

Vietnamita

Stemmer

Uno stemmer è un componente in grado di trovare la parola radice di un termine e di generare le varianti di tale termine. Ad esempio, in italiano, se in una query è contenuta la parola "acquistato", lo stemmer può aggiungere alla query il termine radice "acquistare", nonché generare altre forme di questo termine, tra cui "acquista" e "acquistando", sempre da aggiungere alla query.

Gli stemmer sono specifici della lingua e possono avere funzionalità diverse in base alla lingua che supportano. Alcuni stemmer individuano la parola radice ma non generano altre forme della parola. Per impostazione predefinita, in molte lingue lo stemming viene disattivato durante l'esecuzione delle query. È possibile attivare lo stemming per le query di ricerca nella web part Risultati di ricerca.

Nota

Ogni lingua che dispone di un word breaker dispone anche di uno stemmer se tale lingua supporta lo stemming. Gli stemmer di alcune lingue sono installati ma non attivati. Per attivarli, è necessario modificare il Registro di sistema. Per istruzioni su come attivare gli stemmer di queste lingue, vedere Come attivare word breaker e stemmer in SharePoint Server 2007 (https://go.microsoft.com/fwlink/?linkid=141180&clcid=0x410).

File delle parole non significative

Alcune parole di una lingua non sono utili quando si eseguono le ricerche. È questo ad esempio il caso degli articoli "il" e "un", perché tali parole saranno contenute praticamente in tutti i documenti scritti in italiano. Le parole di scarsa utilità ai fini delle ricerche sono definite parole non significative e durante il processo di indicizzazione vengono rimosse allo scopo di limitare le dimensioni degli indici e, di conseguenza, migliorare le prestazioni. Tali parole sono contenute in file di testo modificabili specifici della lingua. La rimozione o l'aggiunta di un termine a un file delle parole non significative comporta l'esecuzione di una ricerca per indicizzazione completa nel contenuto. Per ulteriori informazioni, vedere Modificare un file di parole non significative (Office SharePoint Server).

I file delle parole non significative sono cambiati in modo significativo rispetto alle versioni precedenti dei prodotti SharePoint. Molte parole non significative precedentemente contenute in tali file sono infatti state rimosse dai file delle parole non significative di Microsoft Office SharePoint Server 2007 e vengono incluse negli indici del contenuto. Per impostazione predefinita, gli utenti possono pertanto eseguire query relative a parole in passato escluse in quanto non significative. Queste query sono denominate query con parole non significative e tali ricerche possono essere disattivate nella web part Risultati di ricerca. Se inoltre una stringa inserita in una query include una parola non significativa, tale parola potrà essere sostituita da qualsiasi altro termine nei risultati della query. Se ad esempio in una query è presente la stringa "configurare un server", nei risultati della query verranno inclusi gli elementi di contenuto contenenti "configurare il server" e "configurare ogni server".

Importante

Non rimuovere tutte le parole incluse in un file delle parole non significative. I file di questo tipo devono contenere almeno una voce, anche se costituita semplicemente dal punto (.).

Vedere anche

Concetti

Gestire le impostazioni per migliorare i risultati delle ricerche (Office SharePoint Server)
Configurare le pagine rilevanti (Office SharePoint Server)
Aggiungere parole chiave con elementi di maggiore rilevanza (Office SharePoint Server)
Modificare un file di parole non significative (Office SharePoint Server)
Modificare un file del Thesaurus (Office SharePoint Server)
Creare un dizionario personalizzato (Office SharePoint Server 2007)