Eseguire la ricerca per indicizzazione del contenuto (Search Server 2008)

Aggiornato: 2008-09-11

Nota

Salvo quanto altrimenti previsto, le informazioni contenute in questo articolo si applicano al Server di ricerca 2008 Microsoft e al Server di ricerca 2008 Express Microsoft.

La ricerca per indicizzazione del contenuto rappresenta il processo mediante il quale il sistema accede e analizza il contenuto e le relative proprietà, dette anche metadati, per creare un indice di contenuto da cui possono essere gestite le query di ricerca.

Il risultato di un contenuto sottoposto a ricerca per indicizzazione consiste nel fatto che l'accesso ai singoli file o a parti del contenuto che si desidera rendere disponibili per le query di ricerca e la loro lettura vengono eseguiti dal crawler. Le parole chiave e i metadati per tali file vengono archiviati nell'indice del contenuto, detto anche indice. L'indice è costituito dalle parole chiave archiviate nel file system del server di indicizzazione e dai metadati archiviati nel database di ricerca. Il sistema gestisce un mapping tra le parole chiave, i metadati associati alle singole parti di contenuto e l'URL dell'origine da cui il contenuto è stato sottoposto a ricerca per indicizzazione.

Nota

I file nei server host non vengono modificati dal crawler. Tali file vengono invece aperti e letti e il testo e i metadati per tali file vengono inviati al server di indicizzazione per essere indicizzati. Poiché il contenuto viene letto dal crawler nel server host, alcuni server che ospitano origini di contenuto specifiche potrebbero tuttavia aggiornare l'ultima data di accesso ai file sottoposti a ricerca per indicizzazione.

Stabilire quando eseguire ricerche per indicizzazione del contenuto

Dopo che una server farm è stata distribuita ed è in esecuzione da un certo periodo di tempo, un amministratore dei servizi di ricerca deve in genere modificare la pianificazione della ricerca per indicizzazione per i motivi seguenti:

  • Per adeguare la distribuzione alle modifiche relative a tempi di inattività e fasce orarie di punta.

  • Per adeguare la distribuzione alle modifiche della frequenza di aggiornamento del contenuto nei server che ospitano il contenuto.

  • Per pianificare le ricerche per indicizzazione in base ai seguenti criteri:

    • Il contenuto ospitato nei server host più lenti viene sottoposto a ricerca per indicizzazione separatamente dal contenuto ospitato in server host più veloci.

    • Le nuove origini di contenuto vengono sottoposte a ricerca per indicizzazione.

    • Le ricerche per indicizzazione vengono eseguite ogni volta che viene aggiornato il contenuto di destinazione. Ad esempio, potrebbe essere appropriato eseguire ricerche per indicizzazione giornaliere sugli archivi che vengono aggiornati ogni giorno e ricerche meno frequenti sugli archivi che vengono aggiornati raramente.

Esecuzione delle ricerche per indicizzazione

In genere, è preferibile automatizzare la maggior parte delle ricerche per indicizzazione pianificandole. In alcuni casi, tuttavia, potrebbe essere necessario avviare manualmente una ricerca per indicizzazione. Ad esempio, è possibile avviare una ricerca per indicizzazione per applicare modifiche amministrative, quali regole di ricerca per indicizzazione per il contenuto sottoposto a ricerca per indicizzazione e indicizzazione, oppure per determinare se è stato risolto un errore nel registro della ricerca per indicizzazione.

Sia che una ricerca per indicizzazione venga avviata manualmente o in base a una pianificazione, potrebbe essere inoltre necessario interrompere o sospendere una o più ricerche per indicizzazione. Ad esempio, se si sta eseguendo la ricerca per indicizzazione di contenuto ospitato in un server, è possibile che l'amministratore di tale server segnali che la ricerca per indicizzazione sta caricando eccessivamente il server oppure è possibile che venga notificato che il server di cui si sta eseguendo la ricerca per indicizzazione è attualmente non in linea. In entrambi i casi è possibile che si desideri interrompere o sospendere la ricerca per indicizzazione.

È necessario tenere presente che una ricerca per indicizzazione completa richiede più tempo e più risorse del server rispetto a una ricerca per indicizzazione incrementale. Le ricerche per indicizzazione complete:

  • Utilizzano più memoria e più cicli di CPU nel server di indicizzazione rispetto alle ricerche per indicizzazione incrementali.

  • Utilizzano più memoria e più cicli di CPU nei server Web front-end quando viene eseguita la ricerca per indicizzazione del contenuto nella server farm. Ciò non si applica a contenuto esterno alla server farm.

  • Utilizzano più larghezza di banda di rete rispetto alle ricerche per indicizzazione incrementali.

ImportanteImportante:

Quando si interrompe una ricerca per indicizzazione di qualsiasi origine di contenuto, alla successiva ricerca per indicizzazione di tale origine di contenuto Server di ricerca 2008 Microsoft esegue automaticamente una ricerca per indicizzazione completa dell'origine di contenuto, anche se si tenta di eseguire una ricerca per indicizzazione incrementale. È pertanto necessario valutare attentamente se sia consigliabile sospendere la ricerca per indicizzazione invece di interromperla.

È inoltre necessario evitare di sospendere ricerche per indicizzazione di troppe origini di contenuto contemporaneamente, poiché ogni origine di contenuto sospesa utilizza memoria e risorse di CPU nel server di indicizzazione.

Per avviare una ricerca per indicizzazione completa o incrementale oppure interrompere, sospendere o riprendere una ricerca per indicizzazione, eseguire una delle procedure seguenti:

Pianificazione delle ricerche per indicizzazione

Nelle sezioni seguenti sono disponibili ulteriori informazioni sulle considerazioni relative alla ricerca per indicizzazione del contenuto eseguita in base a una pianificazione.

Tempi di inattività e periodi di utilizzo di punta

È necessario valutare i tempi di inattività e le fasce orarie di punta dei server che ospitano il contenuto per cui si desidera eseguire la ricerca per indicizzazione. Se ad esempio si esegue tale ricerca su contenuto ospitato su molti server esterni alla server farm, è probabile che il backup di questi server venga eseguito in base a pianificazioni diverse e che per ogni server vi siano fasce orarie di punta diverse. In genere non è possibile controllare l'amministrazione dei server esterni alla server farm. È quindi consigliabile coordinare l'esecuzione delle ricerche per indicizzazione con gli amministratori dei server che ospitano il contenuto su cui si desidera eseguire la ricerca per accertarsi che tale operazione non venga eseguita sui server durante tempi di inattività o fasce orarie di punta.

Nota

Poiché le fasce orarie di punta e i tempi di inattività per i server host possono cambiare, è consigliabile rivalutare periodicamente le pianificazioni delle ricerche per indicizzazione per tutte le origini di contenuto e non solo per quelle nuove.

Uno scenario comune riguarda il contenuto esterno al controllo dell'organizzazione correlato al contenuto nei siti di SharePoint. È possibile aggiungere gli indirizzi iniziali di tale contenuto a un'origine di contenuto esistente oppure creare una nuova origine per il contenuto esterno. La disponibilità dei siti esterni è soggetta a variazioni notevoli e pertanto sarà utile aggiungere origini di contenuto separate per un contenuto esterno diverso. In questo modo, le origini di contenuto per il contenuto esterno possono essere sottoposte a ricerca per indicizzazione in momenti diversi rispetto alle altre origini di contenuto. È possibile aggiornare il contenuto esterno utilizzando una pianificazione di ricerca per indicizzazione che tenga conto della disponibilità di ogni sito.

Contenuto aggiornato frequentemente

Quando si programmano le pianificazioni della ricerca per indicizzazione, è necessario valutare il fatto che alcune origini di contenuto vengono aggiornate più spesso di altre. Ad esempio, se è noto che il contenuto di alcune raccolte siti o origini esterne viene aggiornato solo di venerdì, è uno spreco di risorse eseguire ricerche per indicizzazione con una frequenza di più volte alla settimana. La server farm, tuttavia, potrebbe contenere altre raccolte siti che vengono aggiornate costantemente dal lunedì al venerdì, ma in genere non il sabato e la domenica. In questo caso, potrebbe essere appropriato eseguire la ricerca per indicizzazione di tali siti più volte durante la settimana e non durante i fine settimana.

Il modo in cui il contenuto viene archiviato nelle raccolte siti nell'ambiente in uso può portare a creare origini di contenuto aggiuntive per ogni raccolta siti in ogni applicazione Web. Se ad esempio in una raccolta siti si trovano solo informazioni archiviate, potrebbe non essere necessario eseguire ricerche per indicizzazione con la stessa frequenza con cui vengono eseguite in raccolte siti in cui è archiviato contenuto che viene aggiornato di frequente. In questo caso è possibile eseguire ricerche per indicizzazione in queste due raccolte siti utilizzando origini di contenuto diverse, in modo da poter eseguire le ricerche per indicizzazione in base a pianificazioni diverse.

Pianificazioni di ricerca per indicizzazione completa e incrementale

Gli amministratori dei servizi di ricerca possono configurare pianificazioni della ricerca per indicizzazione indipendenti per ogni origine di contenuto. Per ogni origine di contenuto è possibile specificare il momento in cui eseguire ricerche per indicizzazione complete e un diverso momento per eseguire ricerche per indicizzazione incrementali.

Nota

È necessario eseguire una ricerca per indicizzazione completa per un'origine di contenuto specifica prima di eseguire una ricerca per indicizzazione incrementale.

È consigliabile definire pianificazioni di ricerca per indicizzazione in base alle considerazioni di disponibilità, prestazioni e larghezza di banda dei server che eseguono il servizio di ricerca e dei server che ospitano il contenuto sottoposto a ricerca per indicizzazione.

Quando si definiscono pianificazioni di ricerca per indicizzazione, tenere presenti le procedure consigliate seguenti:

  • Raggruppare gli indirizzi iniziali nelle origini di contenuto in base a disponibilità simili e un utilizzo generale delle risorse accettabile per i server che ospitano il contenuto.

  • Pianificare ricerche per indicizzazione incrementali per ogni origine di contenuto nei periodi in cui i server che ospitano il contenuto sono disponibili e quando la richiesta delle risorse del server è limitata. È inoltre possibile aggiungere o modificare una o più regole di impatto del crawler per ridurre il carico per i server sottoposti a ricerca per indicizzazione. Per informazioni sulle regole di impatto dei crawler, vedere Gestire l'impatto del crawler (Search Server 2008).

  • Scaglionare le pianificazioni della ricerca per indicizzazione in modo da distribuire nel tempo il carico sui server della farm.

  • Pianificare ricerche per indicizzazione complete solo quando necessario per i motivi elencati nella sezione seguente. È consigliabile eseguire le ricerche per indicizzazione complete con una frequenza minore rispetto a quelle incrementali.

  • Pianificare di eseguire le modifiche amministrative che richiedono una ricerca per indicizzazione completa poco prima della pianificazione definita per le ricerche per indicizzazione complete. È ad esempio consigliabile tentare di pianificare la creazione della regola di ricerca per indicizzazione prima della successiva ricerca per indicizzazione completa, affinché non sia necessaria una ricerca per indicizzazione completa aggiuntiva.

  • Basare le ricerche per indicizzazione simultanee sulla capacità del server di indicizzazione di eseguirle. È consigliabile scaglionare le pianificazioni delle ricerche per indicizzazione in modo che il server di indicizzazione non esegua le ricerche per indicizzazione utilizzando più origini di contenuto contemporaneamente. Le prestazioni del server di indicizzazione e le prestazioni dei server che ospitano il contenuto determinano quanto è possibile sovrapporre le ricerche per indicizzazione. Nel tempo è possibile sviluppare una strategia per la pianificazione delle ricerche per indicizzazione, man mano che si acquisisce familiarità con la durata standard delle ricerche per indicizzazione per ogni origine di contenuto. È consigliabile registrare i dati di tendenza relativi alla durata delle ricerche per indicizzazione nell'ambiente in uso.

Motivi per eseguire una ricerca per indicizzazione completa

Tra i motivi per cui un amministratore dei servizi di ricerca esegue una ricerca per indicizzazione completa vi sono:

  • Sono stati installati uno o più aggiornamenti rapidi o Service Pack nei server della farm. Per ulteriori informazioni, vedere le istruzioni per l'aggiornamento rapido o il Service Pack.

  • Un amministratore dei servizi di ricerca ha aggiunto una nuova proprietà gestita.

  • Per reindicizzare pagine ASPX in siti di Microsoft Windows SharePoint Services 3.0.

    Nota

    Il crawler non è in grado di individuare modifiche alle pagine ASPX in siti di Microsoft Windows SharePoint Services 3.0. Per questo motivo le ricerche per indicizzazione incrementali non determinano la reindicizzazione di visualizzazioni o home page quando vengono eliminati singoli elementi di elenco. È consigliabile eseguire periodicamente ricerche per indicizzazione complete dei siti che contengono pagine ASPX per garantire che queste pagine vengano reindicizzate.

  • Per rilevare le modifiche di protezione eseguite sulla condivisione file dopo l'ultima ricerca per indicizzazione completa nella condivisione file.

  • Per risolvere errori consecutivi nelle ricerche per indicizzazione incrementali. Nei rari casi in cui in una ricerca per indicizzazione incrementale si verifica un errore per cento volte consecutive a qualsiasi livello di un archivio, il server di indicizzazione rimuove il contenuto interessato dall'indice.

  • Sono state aggiunte, eliminate o modificate regole di ricerca per indicizzazione.

  • Per ripristinare un indice danneggiato.

  • L'amministratore dei servizi di ricerca ha creato uno o più mapping di nomi server.

  • È stato modificato l'account assegnato all'account predefinito di accesso al contenuto o la regola di ricerca per indicizzazione.

Il sistema esegue una ricerca per indicizzazione completa anche quando è richiesta una ricerca per indicizzazione incrementale nelle circostanze seguenti:

  • Un amministratore dei servizi di ricerca ha interrotto la ricerca per indicizzazione precedente.

  • È stato ripristinato un database del contenuto.

    Nota

    Se si esegue l'Aggiornamento dell'infrastruttura per Microsoft Office Servers, sarà possibile utilizzare l'operazione restore dello strumento da riga di comando Stsadm per decidere se il ripristino di un database del contenuto determini o meno una ricerca per indicizzazione completa.

  • Un amministratore della farm ha scollegato e ricollegato un database del contenuto.

  • Non è mai stata eseguita una ricerca per indicizzazione completa del sito.

  • Il registro delle modifiche non contiene voci per gli indirizzi sottoposti a ricerca per indicizzazione. Senza tali voci non è possibile eseguire ricerche per indicizzazione incrementali.

  • È stato modificato l'account assegnato all'account predefinito di accesso al contenuto o la regola di ricerca per indicizzazione.

  • Per ripristinare un indice danneggiato.

    A seconda del livello di gravità, il sistema potrebbe tentare di eseguire una ricerca per indicizzazione completa se viene rilevato un danneggiamento nell'indice.

È possibile modificare le pianificazioni dopo la distribuzione iniziale in base alle prestazioni e alla capacità dei server nella farm e dei server che ospitano il contenuto.

Vedere anche

Come eseguire la ricerca per indicizzazione del contenuto (Search Server 2008)
Pianificare una ricerca per indicizzazione completa (Search Server 2008)
Pianificare una ricerca per indicizzazione incrementale (Search Server 2008)