Stimare i requisiti di capacità e prestazioni per gli ambienti di ricerca

Contenuto dell'articolo:

  • Caratteristiche chiave

  • Ambiente di testing

  • Suggerimenti

Questo scenario per la pianificazione di prestazioni e capacità include una singola farm di Microsoft Office SharePoint Server 2007, utilizzata per la ricerca e l'indicizzazione del contenuto di Office SharePoint Server in un ambiente aziendale.

Importante

Alcune delle informazioni aggiuntive contenute in questo articolo sono state aggiornate per Office SharePoint Server 2007 con SP1. Per un elenco completo degli aggiornamenti relativi a Office SharePoint Server 2007 con SP1, vedere Manuale scaricabile: Pianificazione e distribuzione del Service Pack 1 per Office SharePoint Server 2007 in un ambiente multiserver.

Caratteristiche chiave

Le caratteristiche chiave descrivono i fattori ambientali, le caratteristiche di utilizzo e altre considerazioni che è probabile trovare nelle distribuzioni basate su questo scenario.

Le caratteristiche chiave di questo scenario includono:

  • **Tempi di risposta utente   **I tempi di risposta utente per operazioni comuni, non comuni, di lunga durata e rare sono elencati nella tabella "Tempi di risposta utente" dell'articolo Pianificare i limiti del software (Office SharePoint Server). Alcune organizzazioni possono tollerare tempi di risposta utente più lunghi o richiedere tempi più brevi. Il tempo di risposta utente previsto è un fattore chiave che determina gli obiettivi globali per la velocità effettiva. La velocità effettiva è data dal numero di richieste che la server farm è in grado di elaborare in un secondo. Quando sono presenti più utenti, per ottenere lo stesso tempo di risposta utente è necessaria una velocità effettiva superiore.

  • **Concorrenza degli utenti   **Viene presupposta una percentuale di concorrenza del 10% e si suppone che l'1% degli utenti concorrenti effettui una richiesta nello stesso momento. Se ad esempio l'ambiente include 10.000 utenti, in un dato momento sono presenti 1.000 utenti che utilizzano attivamente la soluzione e 100 di essi stanno effettuando una richiesta proprio in quel momento.

  • **Attività asincrone di lunga durata   **Attività come la ricerca per indicizzazione nel contenuto e il backup dei database comportano un carico di lavoro notevole per la server farm. Le caratteristiche di prestazione generali delle topologie di esempio presuppongono che le attività di questo tipo vengano eseguite nelle fasce orarie non di punta, ad esempio di notte, e che pertanto non influiscano sui tempi di risposta utente.

Ambiente di testing

I test per questo scenario sono stati progettati per stimare la risposta di configurazioni di farm diverse alla modifica di un'ampia gamma di fattori, quali:

  • Numero di utenti concorrenti che utilizzano il sistema.

  • Tipi di operazioni utente eseguiti.

  • Numero di documenti inclusi nell'indice in cui viene eseguita la ricerca.

È importante notare che, sebbene i risultati dei test consentano di trarre alcune conclusioni, i valori effettivi di capacità e prestazioni riportati in questa sezione saranno senz'altro diversi da quelli ottenuti negli ambienti reali. Le cifre riportate in questo articolo hanno lo scopo di fornire un punto di partenza per la progettazione di un ambiente con dimensioni appropriate. Dopo aver completato il progetto iniziale del sistema è necessario testare la configurazione per determinare se il sistema è in grado di supportare i fattori che caratterizzano l'ambiente reale.

Nota

I test illustrati sono stati condotti in modo da simulare un ambiente aziendale con milioni di documenti e un'ampia base di utenti. Per l'ambiente di testing è stata utilizzata una configurazione hardware che comprende processori affidabili, grandi quantità di memoria e dischi con capacità elevate. Per informazioni sulla configurazione hardware che è consigliabile utilizzare come punto di partenza, vedere Suggerimenti relativi all'hardware nella sezione Suggerimenti di questo articolo.

Per ulteriori informazioni sul testing della distribuzione in uso, vedere Strumenti per la pianificazione delle prestazioni e della capacità (Office SharePoint Server).

Presupposti

  • **Architettura a 64 bit   **Nell'ambiente di testing sono stati utilizzati solo server a 64 bit. Sebbene sia possibile distribuire Microsoft Office SharePoint Server 2007 in server a 32 bit, per la distribuzione di Microsoft Office SharePoint Server 2007 in una server farm è consigliabile utilizzare server a 64 bit. Per ulteriori informazioni vedere la sezione "64 bit e 32 bit a confronto" dell'articolo Informazioni sulla pianificazione di prestazioni e capacità (Office SharePoint Server).

  • Memorizzazione nella cache basata su disco attivata   La memorizzazione nella cache basata su disco elimina la necessità di accedere continuamente al database per recuperare frammenti di codice o file binari di grandi dimensioni, ad esempio immagini, suoni e i file video. Attivando la memorizzazione nella cache basata su disco è possibile migliorare le prestazioni dell'intera distribuzione. Si noti che la memorizzazione nella cache basata su disco non è attivata per impostazione predefinita. Per informazioni sull'attivazione della memorizzazione nella cache basata su disco, vedere Memorizzazione di oggetti binari di grandi dimensioni nella cache basata su disco (informazioni in lingua inglese) (https://go.microsoft.com/fwlink/?linkid=82617&clcid=0x410) (informazioni in lingua inglese) .

Topologia dell'ambiente di lavoro

Per il testing sono state utilizzate numerose configurazioni di farm, che includevano da uno a otto server di query, un server di indicizzazione, un provider di servizi condivisi e un computer server database con il software di database Microsoft SQL Server 2005. Tutti i computer server eseguivano la configurazione predefinita di Microsoft Office SharePoint Server 2007 Enterprise Edition e il sistema operativo Microsoft Windows Server 2003 Enterprise Edition per x64 con Service Pack 1 (SP1).

Nella tabella seguente sono elencati gli specifici componenti hardware utilizzati per il testing.

Ruolo computer Hardware Capacità disco rigido

Server di query

4 processori dual core Intel Xeon da 2,66 GHz

32 GB di RAM

40 GB per il sistema operativo (RAID 5)

956 GB per l'indice di contenuto e il file di paging del sistema operativo (RAID 10)

Server di indicizzazione

4 processori dual core Intel Xeon da 2,66 GHz

32 GB di RAM

40 GB per il sistema operativo (RAID 5)

956 GB per l'indice di contenuto e il file di paging del sistema operativo (RAID 10)

Server database

4 processori dual core Intel Xeon da 2,66 GHz

32 GB di RAM

40 GB per il sistema operativo (RAID 5)

956 GB per il database SharedServices_Search_DB con controller SCSI (Small Computer System Interface) dedicato (RAID 10)

Il controller SCSI è stato utilizzato per i dischi seguenti:

273 GB per il database SharedServices_DB (RAID 10)

273 GB per il database TempDb (RAID 10)

273 GB per i file di registro (RAID 10)

136 GB per il database SharePoint_Config (RAID 10)

Nell'ambiente di testing è stata utilizzata una rete da un gigabit (un miliardo di bit al secondo). È consigliabile utilizzare una rete da un gigabit tra i server di una farm di Office SharePoint Serverper garantire una larghezza di banda adeguata.

Profilo di utilizzo

Nelle tabelle seguenti sono riportate le impostazioni del profilo di utilizzo dell'ambiente di testing utilizzato per le ricerche in Microsoft Office SharePoint Server 2007.

Nota

Per il testing di questo scenario, per determinare le prestazioni del sistema sono state utilizzate solo operazioni utente di query.

Durante il testing sono stati sottoposti a ricerca per indicizzazione circa 50 milioni di elementi. Nella tabella seguente sono riportati il tipo e il numero degli elementi sottoposti a ricerca per indicizzazione. Tali elementi avevano dimensioni variabili da 10 a 100 KB e includevano elementi di elenchi, pagine Web e vari tipi di documenti.

Tipo di elemento Numero di elementi

Contenuto dei siti di SharePoint

10 milioni di elementi, inclusi i seguenti:

  • 420 raccolte siti

  • 4.000 siti

  • 24.200 elenchi

  • 47.780 raccolte documenti

Contenuto delle condivisioni file

15 milioni di elementi

Contenuto HTTP

15 milioni di elementi

Profili utente

2,5 milioni

Stitch (strumento di testing in memoria che genera documenti in memoria)

7,5 milioni

Proprietà (metadati)

1 milioni

Nella tabella seguente è riportato l'utilizzo dello spazio su disco.

Tipo di utilizzo Volume

Dimensioni dell'indice sul server di query

100 GB*

Dimensioni dell'indice sul server di indicizzazione

100 GB*

Dimensioni del database di ricerca

600 GB

Nota

Per il testing è stato utilizzato un indice con dimensioni inferiori a quelle degli indici normalmente utilizzati in un ambiente di produzione. Nel corpo generato per il test era presente un numero limitato di parole univoche, con ripetizioni frequenti.

Per eseguire una ricerca per indicizzazione completa durante il testing sono stati necessari 35 giorni (circa 15 documenti al secondo). Si noti che questo risultato è stato ottenuto in un ambiente di produzione in cui la velocità della ricerca per indicizzazione era influenzata dalla latenza di rete e dalla velocità di risposta degli archivi in cui è stata eseguita la ricerca. La velocità di ricerca per indicizzazione misurata in termini di documenti al secondo può essere molto superiore in un ambiente utilizzato esclusivamente per il testing o in ambienti con maggiore larghezza di banda e archivi con velocità di risposta superiori.

In caso di modifica del 2% di un corpo di dimensioni uguali a quello utilizzato nell'ambiente di testing, l'esecuzione di una ricerca per indicizzazione incrementale per aggiornare i risultati in seguito alle modifiche richiede circa 8-12 ore, a seconda della latenza e della velocità di risposta dei siti sottoposti a ricerca per indicizzazione. Si noti che l'elaborazione delle modifiche apportate ai metadati e ai collegamenti a risorse esterne richiedere più tempo, rispetto alla modifica del contenuto dei documenti.

Suggerimenti

In questa sezione sono disponibili suggerimenti generali relativi a prestazioni e capacità, che aiutano a determinare le caratteristiche di prestazioni e capacità della topologia di partenza creata in Pianificare la ridondanza (Office SharePoint Server) e a stabilire se per tale tipologia venga realizzata una scalabilità orizzontale o verticale.

Nota

L'espressione *scalabilità orizzontale* indica la possibilità di aggiungere ulteriori server con un ruolo specifico, mentre *scalabilità verticale* indica la possibilità di aumentare le prestazioni o la capacità di un determinato server aggiungendo memoria oppure aumentando la capacità dei dischi rigidi o la velocità del processore.

Suggerimenti relativi all'hardware

Nella tabella seguente sono riportati i componenti hardware consigliati per i server Web, i server di indicizzazione e i server database.

Nota

I requisiti di memoria per i server database, di indicizzazione e Web dipendono dalle dimensioni della farm, dal numero di utenti simultanei e dalla complessità di caratteristiche e pagine presenti nella farm. I valori consigliati per la memoria indicati nella tabella seguente possono essere adeguati per una farm di piccole dimensioni o con un utilizzo limitato, tuttavia è consigliabile monitorare attentamente l'utilizzo della memoria per determinare se sia necessario aumentarla.

Ruolo del server Hardware consigliato

Server Web (query)

Processore doppio da 2,5 GHz o velocità superiore (velocità consigliata: 3 GHz o superiore)

Almeno 2 GB di RAM (memoria consigliata)

3 GB di spazio su disco disponibile

Unità DVD, locale o accessibile in rete

Server di indicizzazione

Processore doppio da 2,5 GHz o velocità superiore (velocità consigliata: 3 GHz o superiore)

Almeno 4 GB di RAM (memoria consigliata)

3 GB di spazio su disco disponibile

Unità DVD, locale o accessibile in rete

Server database

Processore doppio da 2,5 GHz o velocità superiore (velocità consigliata: 3 GHz o superiore)

Almeno 4 GB di RAM (memoria consigliata)

Lo spazio su disco rigido per il database del contenuto si basa su un rapporto di 1:1,2 tra la dimensione del contenuto e la capacità del database. Se si prevedono 100 GB di contenuto, ad esempio, saranno necessari almeno 120 GB di spazio libero su disco per il database del contenuto, più spazio aggiuntivo per i registri delle transazioni.

Lo spazio su disco rigido per il database di ricerca si basa su un rapporto di 1:4 tra la dimensione dell'indice e la capacità del database. Se ad esempio si prevede di utilizzare un indice di 100 GB, ad esempio, saranno necessari almeno 400 GB di spazio libero su disco per il database di ricerca, più spazio aggiuntivo per i registri delle transazioni.

Unità DVD, locale o accessibile in rete

Nota

La quantità di spazio su disco necessaria per i registri delle transazioni nel server database dipende dalle impostazioni di registrazione. Per ulteriori informazioni, vedere Gestione di log delle transazioni (https://go.microsoft.com/fwlink/?linkid=82925&clcid=0x410).

Per ulteriori informazioni sui requisiti di sistema minimi e consigliati, vedere Determine hardware and software requirements (Search Server 2008).

Topologie di partenza

Per stimare le prestazioni della topologia di partenza in uso, è possibile confrontare tale topologia con quelle illustrate in Pianificare la ridondanza (Office SharePoint Server). In tal modo è possibile determinare rapidamente se, per raggiungere gli obiettivi di capacità e prestazioni prefissati, è necessario realizzare una scalabilità orizzontale o verticale per la topologia di partenza.

Capacità e prestazioni di topologie con scalabilità orizzontale e verticale

Per aumentare la capacità e le prestazioni di una delle topologie di partenza, è possibile implementare la scalabilità verticale, utilizzando computer server con capacità superiore, o la scalabilità orizzontale, aggiungendo ulteriori server alla topologia. In questa sezione sono illustrate le caratteristiche di prestazioni generali di numerose topologie con scalabilità orizzontale e verticale. Le topologie di esempio utilizzate corrispondono ai seguenti modi comuni di implementare la scalabilità orizzontale o verticale in una topologia per un ambiente di ricerca:

  • Per supportare un maggiore carico utente, aggiungere ulteriori computer server di query. È inoltre possibile aggiungere server di indicizzazione e server di query dedicati per limitare il carico di elaborazione nei server Web.

  • Per supportare un maggiore carico di dati, aggiungere capacità al ruolo del server database aumentando la capacità di un singolo server (di cluster o con mirroring), eseguendo l'aggiornamento a un server a 64 bit oppure aggiungendo server di cluster o con mirroring.

  • Non superare il rapporto di otto computer server di query (di cluster o con mirroring) per ogni computer server database. In base ai risultati dei test eseguiti nell'ambiente di lavoro illustrato in questo articolo, il rapporto ottimale è 7x1x1, ovvero sette server di query, un server di indicizzazione e un server database.

Stima degli obiettivi di velocità effettiva

In questa sezione vengono presentati i dati del test che indicano la velocità effettiva della farm per un numero crescente di server di query e connessioni utente.

Poiché è possibile distribuire e configurare Microsoft Office SharePoint Server 2007 in molti modi diversi, non esiste un metodo semplice per stimare il numero massimo di utenti supportato da un determinato numero di server. Di conseguenza, prima di procedere alla distribuzione di Microsoft Office SharePoint Server 2007 in un ambiente di produzione è importante eseguire un testing in un ambiente di lavoro.

La velocità effettiva può essere influenzata da numerosi fattori, tra cui il numero di utenti, la complessità e la frequenza delle operazioni utente, la memorizzazione nella cache e la personalizzazione di pagine e web part. Ognuno di questi fattori può avere un effetto determinante sulla velocità effettiva della farm. Durante la pianificazione della distribuzione è pertanto consigliabile valutare attentamente l'effetto di ogni fattore.

Per ulteriori informazioni sulla memorizzazione nella cache in Microsoft Office SharePoint Server 2007, vedere le risorse seguenti:

Se nell'organizzazione esiste già una soluzione di ricerca, sarà possibile visualizzare i registri di Internet Information Services (IIS) per individuare le tendenze e i modelli di utilizzo dell'ambiente corrente. Per ulteriori informazioni sull'analisi dei registri di IIS, vedere Analisi dei file di registro (IIS 6.0) (informazioni in lingua inglese) (https://go.microsoft.com/fwlink/?linkid=78825&clcid=0x410) (informazioni in lingua inglese) .

Se si prevede di distribuire una nuova soluzione di ricerca nell'organizzazione, per determinare i modelli di utilizzo è possibile utilizzare le informazioni disponibili nella sezione successiva.

Risultati dei test: velocità effettiva per configurazione di farm

Nella tabella disponibile in questa sezione sono riportati i risultati dei test per un'ampia gamma di profili di operazioni utente eseguite utilizzando l'hardware e il profilo di utilizzo illustrati nella sezione Ambiente di testing di questo articolo. Si noti che per il testing sono state utilizzate configurazioni di farm che includevano da uno a otto server di query utilizzati insieme a un server di indicizzazione e a un server database. Una configurazione di farm 3x1x1, ad esempio, include tre server di query, un server di indicizzazione e un server database. Non sono stati eseguiti test su farm contenenti più server di indicizzazione o server database.

Nella tabella seguente sono riportati i risultati dei test per le operazioni utente correlate alla ricerca.

Dimensioni della farm Richieste al secondo Percentuale di utilizzo della CPU del server di query Percentuale di utilizzo della CPU del server di indicizzazione Percentuale di utilizzo della CPU del server database Media scritture su disco al secondo nel server database

1x1x1

24,01

99,49

1,98

7,23

6,11

2x1x1

48,04

96,98

3,95

13,02

2,66

3x1x1

71,07

94,73

5,61

20,56

2,29

4x1x1

93,11

91,77

8,81

29,21

2,41

5x1x1

114,95

90,50

10,27

39,38

2,45

6x1x1

133,34

87,29

11,91

52,94

2,83

7x1x1

148,52

80,20

15,24

63,72

3,14

8x1x1

146,94

65,65

15,15

69,15

2,87

Nel grafico seguente è illustrata la variazione della velocità effettiva delle operazioni di ricerca in funzione del numero di server di query.

Richieste al secondo e server di query

Stimare la finestra di ricerca per indicizzazione

In un ambiente di ricerca basato su Microsoft Office SharePoint Server 2007 la ricerca per indicizzazione nel contenuto è in genere la più lunga operazione non avviata dagli utenti. È necessario eseguire alcuni test nel proprio ambiente per determinare la quantità di tempo necessaria per sottoporre a ricerca per indicizzazione il contenuto di un'origine specifica e stabilire se la velocità effettiva rilevata per la ricerca per indicizzazione in tale contenuto consenta di ottenere i tempi di risposta utente previsti. È in genere necessario verificare che la ricerca per indicizzazione in una determinata origine di contenuto possa essere completata entro 12 ore di elaborazione notturna.

Stimare i requisiti di spazio su disco

Utilizzare le informazioni seguenti per pianificare i requisiti di spazio su disco per i server di indicizzazione, i server di query e i server database nel proprio ambiente.

Requisiti di spazio si disco per i server di indicizzazione e di query

Utilizzare le informazioni seguenti per pianificare i requisiti di spazio su disco per i server di indicizzazione e di query nella server farm.

Nota

Le dimensioni dell'indice di contenuto sono in genere minori di quelle del corpo, perché prima dell'indicizzazione del contenuto vengono rimosse tutte le parole non significative.

Nota

Se il ruolo di server di query è attivato in un server diverso dal server di indicizzazione, l'indice verrà automaticamente propagato a tale server di query. Per archiviare una copia dell'indice del contenuto nel file system di un server di query, è necessario che in ogni server di query sia disponibile la stessa quantità di spazio su disco utilizzata dal server di indicizzazione per l'indice del contenuto. Per ulteriori informazioni, vedere Pianificare la ridondanza (Office SharePoint Server).

Per stimare i requisiti di spazio per il disco rigido in cui si trova l'indice del contenuto:

  1. Stimare la quantità di contenuto che si prevede di sottoporre a ricerca per indicizzazione e le dimensioni medie di ogni file. Se non si conoscono le dimensioni medie dei file del corpo, per iniziare utilizzare 10 KB per documento.

    Per calcolare la quantità di spazio su disco necessaria per archiviare l'indice del contenuto, utilizzare la formula seguente:

    Quantità di spazio su disco necessaria (in GB) = dimensione_totale_corpo (in GB) x modificatore_dimensione_file x 2,85

    dove modificatore_dimensione_file è un numero compreso nell'intervallo seguente, a seconda della dimensione media dei file nel corpo:

    • 1,0 se il corpo contiene file di dimensioni molto piccole (dimensioni medie dei file = 1 KB).

    • 0,12 se il corpo contiene file di dimensioni intermedie (dimensioni medie dei file = 10 KB).

    • 0,05 se il corpo contiene file di grandi dimensioni (dimensioni medie dei file = 100 KB o più).

Nota

La formula precedente consente di ottenere solo una stima iniziale. I risultati reali possono essere molto diversi, in base alle dimensioni e ai tipi dei documenti indicizzati e alla quantità di metadati indicizzata durante un'operazione di ricerca per indicizzazione.

Nella formula il prodotto dimensione_totale_corpo (in GB) x modificatore_dimensione_file consente di ottenere le dimensioni stimate del file di indice. Il risultato viene quindi moltiplicato per 2,85, per tenere conto del sovraccarico dovuto alle unioni master eseguite quando i dati da sottoporre a ricerca per indicizzazione vengono uniti all'indice. Il risultato finale indica i requisiti stimati di spazio su disco.

Se ad esempio il corpo ha dimensioni pari a 1 GB e contiene principalmente file con dimensioni medie di 10 KB, per calcolare le dimensioni stimate del file di indice sarà necessario utilizzare i valori seguenti:

1 GB x 0,12 = 0,12 GB

In base a tale calcolo, il file di indice ha dimensioni stimate di 120 MB.

Ora è necessario moltiplicare le dimensioni stimate del file di indice per 2,85:

120 MB x 2,85 = 342 MB

Lo spazio su disco necessario per il file di indice e per l'esecuzione delle operazioni di indicizzazione è pertanto pari a 342 MB, ovvero 0,342 GB.

Nota

Il volume dei dati sottoposti a ricerca per indicizzazione può variare in base al tipo di contenuto. Un'origine di contenuto è un insieme di opzioni che è possibile impostare per specificare il protocollo da utilizzare durante la ricerca per indicizzazione, gli URL da cui iniziare la ricerca per indicizzazione, il numero dei livelli inferiori da esaminare e il momento in cui eseguire la ricerca per indicizzazione.

  1. Se, in base alle stime effettuate, sui dischi dei server di indicizzazione e di query è disponibile spazio sufficiente per l'indice del contenuto, continuare con il passaggio 3, altrimenti aggiungere spazio su disco o ripetere il passaggio 1 prima di continuare con il passaggio 3.

  2. Eseguire una ricerca per indicizzazione su parte del contenuto.

  3. Valutare le dimensioni dell'indice del contenuto e il numero dei file sottoposti a ricerca per indicizzazione, quindi utilizzare tali informazioni per ripetere il calcolo indicato nel passaggio 1, in modo da ottenere un risultato più preciso.

  4. Se lo spazio rimanente sul disco rigido è sufficiente, sottoporre a ricerca per indicizzazione una maggiore quantità di contenuto, altrimenti aggiungere lo spazio su disco necessario o ricalcolare la quantità di contenuto da sottoporre a ricerca per indicizzazione.

  5. Ripetere i passaggi da 3 a 5 fino a eseguire la ricerca per indicizzazione su tutto il contenuto.

    Dopo avere eseguito la ricerca per indicizzazione su tutto il corpo, è consigliabile mantenere una registrazione delle dimensioni dell'indice del contenuto e del database di ricerca per ogni ricerca per indicizzazione, in modo da poter calcolare il tasso medio di crescita. Poiché le dimensioni del corpo tendono ad aumentare nel tempo, man mano che viene aggiunto nuovo contenuto alla farm è consigliabile monitorare lo spazio su disco rimanente per garantire che sia sempre disponibile una capacità adeguata per le operazioni di indicizzazione.

Requisiti di spazio su disco per il database di ricerca

Per il database di ricerca, in cui vengono archiviati i metadati e le informazioni della cronologia del crawler per il sistema di ricerca, è in genere necessaria una quantità di spazio su disco maggiore rispetto all'indice. Ciò vale sopratutto se le ricerche per indicizzazione vengono eseguite principalmente in siti di SharePoint, che contengono molti metadati.

Nota

In tale database sono archiviati sia i metadati di tutto il contenuto indicizzato che la cronologia del crawler. Per tale motivo, per il database di ricerca è necessaria una quantità di spazio su disco maggiore rispetto all'indice del contenuto.

Per calcolare la quantità di spazio su disco necessaria per il database di ricerca, utilizzare la formula seguente:

Quantità di spazio su disco necessaria (in GB) = dimensione_totale_corpo (in GB) x modificatore_dimensione_file x 4

dove modificatore_dimensione_file è un numero compreso nell'intervallo seguente, a seconda della dimensione media dei file nel corpo:

  • 1,0 se il corpo contiene file di dimensioni molto piccole (dimensioni medie dei file = 1 KB).

  • 0,12 se il corpo contiene file di dimensioni intermedie (dimensioni medie dei file = 10 KB).

  • 0,05 se il corpo contiene file di grandi dimensioni (dimensioni medie dei file = 100 KB o più).

Se ad esempio il corpo ha dimensioni pari a 1 GB e contiene principalmente file con dimensioni medie di 10 KB, per calcolare le dimensioni stimate del file di indice sarà necessario sostituire i valori seguenti nella formula:

1 GB x 0,12 = 0,12 GB, ovvero 120 MB

È quindi necessario moltiplicare per 4 le dimensioni stimate del file di indice:

120 MB x 4 = 480 MB

Lo spazio su disco necessario per il database di ricerca è pertanto di 480 MB ovvero 0,48 GB.

Determinazione delle specifiche per i server di indicizzazione, query e database

In Microsoft Office SharePoint Server 2007 la ricerca è un servizio condiviso disponibile a livello di provider di servizi condivisi. Il sistema di ricerca di Microsoft Office SharePoint Server 2007 è composto da due ruoli server principali, ovvero il server di indicizzazione e il server di query.

La ricerca per indicizzazione e l'indicizzazione sono operazioni che comportano un utilizzo intensivo delle risorse. La ricerca per indicizzazione nel contenuto è un processo durante il quale il sistema accede al contenuto e alle relative proprietà e li analizza, per generare un indice di contenuto da utilizzare per l'esecuzione delle query di ricerca. Durante la ricerca per indicizzazione vengono utilizzate risorse di memoria ed elaborazione nel server di indicizzazione, nei server di query che eseguono le operazioni di ricerca per indicizzazione, nei server che ospitano l'archivio contenuti in cui viene eseguita la ricerca per indicizzazione e nel server database utilizzato dalla farm di Microsoft Office SharePoint Server 2007.

La ricerca per indicizzazione influisce sulle prestazioni generali del sistema, sui tempi di risposta utente e sulle prestazioni degli altri servizi condivisi nella farm, nonché sulle prestazioni del servizio Web sul server di query che esegue le operazioni di ricerca per indicizzazione. Per ridurre il carico sugli altri server della farm, per le operazioni di ricerca per indicizzazione è possibile utilizzare un server di query dedicato.

Anche l'indicizzazione del contenuto sottoposto a ricerca per indicizzazione può influire sulle prestazioni generali del sistema, se per tali operazioni non viene utilizzato un server di query dedicato. Se le operazioni correlate alla ricerca costituiscono una porzione significativa delle operazioni della farm, è consigliabile distribuire un server di query dedicato. Per ulteriori informazioni, vedere la sezione Server di query dedicato per la ricerca per indicizzazione in questo articolo.

Determinazione delle specifiche per i server di indicizzazione

Utilizzare le informazioni contenute in questa sezione per specificare i requisiti dei server di indicizzazione della farm di Microsoft Office SharePoint Server 2007.

CPU dei server di indicizzazione

La velocità del processore del server di indicizzazione determina la velocità della ricerca per indicizzazione e il numero di thread di ricerca per indicizzazione di cui è possibile creare un'istanza. Sebbene non esista un tipo o un numero di processori consigliato, per determinare i requisiti dei server di indicizzazione è necessario considerare la quantità di contenuto che verrà sottoposta a ricerca per indicizzazione. In un ambiente aziendale il server di indicizzazione dovrebbe avere più processori, per gestire un carico di indicizzazione molto elevato.

Nella tabella seguente è possibile osservare come aumenta la velocità della ricerca per indicizzazione all'aumentare del numero di processori nel server di indicizzazione.

Numero di processori Percentuale di miglioramento della velocità della ricerca per indicizzazione

1

0,00

2

10,89

4

19,77

8

30,77

Memoria dei server di indicizzazione

Sul server di indicizzazione i documenti vengono caricati in alcuni buffer per consentirne l'elaborazione da parte del motore del crawler. In una farm con un corpo di un milione documenti circa, il server di indicizzazione richiede approssimativamente 1,5 GB di memoria. Dopo l'elaborazione in memoria ogni documento viene scritto sul disco. Maggiore è la capacità di memoria, maggiore sarà anche il numero dei documenti che il crawler è in grado di elaborare in parallelo, con un conseguente aumento della velocità della ricerca per indicizzazione.

Per eseguire una ricerca per indicizzazione in un corpo con oltre un milione di documenti, è consigliabile utilizzare un server di indicizzazione con almeno 4 GB di RAM.

Velocità del disco dei server di indicizzazione

È consigliabile specificare RAID 10 con tempi di accesso di 2 millisecondi (ms) e velocità di scrittura maggiore di 150 MB al secondo, per garantire operazioni di scrittura su disco veloci.

Utilizzo di un singolo indice e pertinenza

In SharePoint Portal Server 2003 è possibile suddividere l'indice del contenuto tra più server, in modo da creare sottoinsiemi di contenuto indicizzato e rispondere in modo più efficace all'aumento delle dimensioni dei dati. Anche se Microsoft Office SharePoint Server 2007 supporta l'utilizzo di più server di indicizzazione per garantire la scalabilità orizzontale, per ogni server di indicizzazione è necessario un provider di servizi condivisi distinto e non è in alcun modo possibile combinare indici separati.

Numero di server di indicizzazione

Se si desidera garantire il completo isolamento tra i provider di servizi condivisi o la scalabilità orizzontale del sistema, è possibile distribuire più server di indicizzazione in una stessa farm. Sebbene non esista un limite prestabilito per il numero di server di indicizzazione in una farm, non sono stati eseguiti test con più di quattro server di indicizzazione in una stessa farm.

Il numero dei server di indicizzazione utilizzati in una farm dipende dagli obiettivi del sistema di ricerca. Se si desidera che la ricerca per indicizzazione nel contenuto generi un singolo set di risultati, sarà necessario distribuire un solo provider di servizi condivisi e un singolo server di indicizzazione. Nella maggior parte delle organizzazioni è necessario avere la possibilità di eseguire ricerche in tutto il contenuto sottoposto a ricerca per indicizzazione e non sono pertanto necessari più ambiti di ricerca.

Se è possibile definire ambiti di ricerca diversi, in modo da generare set di risultati separati per archivi contenuti diversi, sarà possibile utilizzare più provider di servizi condivisi e server di indicizzazione. Può essere necessario specificare ambiti di ricerca diversi ad esempio in una società che include una divisione che gestisce documenti riservati in cui può eseguire ricerche solo un gruppo di utenti specifico.

A seconda dei requisiti di scalabilità e protezione, è possibile associare tutti i provider di servizi condivisi a un singolo server di indicizzazione o associare ogni provider di servizi condivisi a un server di indicizzazione diverso.

Nota

In Microsoft Office SharePoint Server 2007 non è supportata l'esecuzione di query su più provider di servizi condivisi per ottenere un singolo set di risultati pertinenti.

Un singolo server di indicizzazione dotato di una configurazione hardware affidabile può supportare fino a 50 milioni di documenti. Se si desidera generare un singolo indice di queste dimensioni, è consigliabile evitare di utilizzare più server di indicizzazione in una stessa farm, perché l'indice viene propagato a tutti i server di query della farm. Se viene aggiunto un secondo server di indicizzazione, anche gli indici del secondo server di indicizzazione verranno propagati a tutti i server di query della farm, aumentandone il carico.

Per aumentare la capacità di ricerca aggiungendo ulteriori provider di servizi condivisi, è necessario implementare la scalabilità orizzontale. Come minimo, è necessario aggiungere un server di indicizzazione, un server database e un server Web dedicati. Se l'hardware in uso supporta attualmente l'indicizzazione di 10 milioni di documenti in un singolo provider di servizi condivisi, sarà possibile implementare la scalabilità verticale ospitando fino a 20 provider di servizi condivisi nella stessa configurazione hardware.

Nota

In Microsoft Office SharePoint Server 2007 for Search è possibile utilizzare un solo provider di servizi condivisi.

In questo modo è possibile indicizzare circa 2 milioni di documenti per provider di servizi condivisi, per un totale di circa 40 milioni di documenti.

Nota

Un provider di servizi condivisi è sempre associato a un solo server di indicizzazione, ma un server di indicizzazione può gestire più provider di servizi condivisi.

Server di query dedicato per la ricerca per indicizzazione

È consigliabile utilizzare un server di query dedicato per le operazioni di ricerca per indicizzazione.

In una farm che include un sistema di ricerca tutti i server di query eseguono operazioni di ricerca per indicizzazione per impostazione predefinita. Quando inizia un'operazione di ricerca per indicizzazione il server di indicizzazione invia una richiesta ai server di query, che a loro volta recuperano il contenuto da sottoporre a ricerca per indicizzazione e lo inviano al server di indicizzazione. Quando il carico utente è elevato, un'operazione di ricerca per indicizzazione può ridurre notevolmente la velocità con cui il sistema risponde alle richieste degli utenti.

Per limitare l'impatto delle operazioni di ricerca per indicizzazione sulle prestazioni della farm, è possibile configurare un server di query dedicato per la ricerca per indicizzazione. Quando si utilizza un server di query dedicato per la ricerca per indicizzazione, tutte le operazioni di ricerca per indicizzazione devono essere necessariamente eseguite tramite tale server, mentre tutti gli altri server di query nella farm continuano a soddisfare le richieste degli utenti. Questa configurazione è particolarmente utile negli ambienti in cui non è possibile imporre l'esecuzione delle operazioni di ricerca per indicizzazione durante le ore notturne oppure negli ambienti geograficamente distribuiti, in cui gli utenti possono effettuare richieste e qualsiasi ora.

Per ulteriori informazioni su come configurare un server di query dedicato per la ricerca per indicizzazione, vedere Configurare un server Web front-end dedicato per la ricerca per indicizzazione (Office SharePoint Server 2007).

Nota

La configurazione di un server di query dedicato per la ricerca per indicizzazione può influire anche sugli altri servizi in esecuzione nel server. I server di query utilizzati per questo scopo non possono essere sottoposti a bilanciamento del carico, né utilizzati per soddisfare le richieste degli utenti finali.

Ottimizzazione delle prestazioni del server di indicizzazione

Le operazioni di indicizzazione aumentano il carico sul server database e possono ridurre la velocità di risposta della farm. Possono inoltre influire sugli altri servizi condivisi nel server applicazioni che esegue il servizio di indicizzazione della ricerca. Per ogni server di indicizzazione è possibile regolare il livello delle prestazioni di indicizzazione su uno dei tre valori seguenti:

  • Ridotte

  • Parzialmente ridotte

  • Massime

L'impostazione predefinita è Ridotte. Tale impostazione può essere configurata solo per un server di indicizzazione specifico, non a livello di provider di servizi condivisi.

La ricerca per indicizzazione influisce sulle prestazioni del server database, perché il servizio di ricerca di Office SharePoint Server scrive in tabelle di database tutti i metadati raccolti dai documenti sottoposti a ricerca per indicizzazione. È possibile che i server di indicizzazione generino dati a una velocità tale da sovraccaricare il server database.

È consigliabile condurre un testing nel proprio ambiente per bilanciare velocità di ricerca per indicizzazione, latenza di rete, carico del database e carico degli archivi contenuti sottoposti a ricerca per indicizzazione.

Nella tabella seguente è illustrata la relazione tra l'impostazione relativa al livello di prestazioni e l'utilizzo della CPU per i server di indicizzazione e database, in base ai risultati del testing.

Impostazione relativa al livello di prestazioni Percentuale di utilizzo della CPU del server di indicizzazione Percentuale di utilizzo della CPU del server database

Ridotte

20

20

Parzialmente ridotte

24

24

Massime

25

26

Per l'impostazione relativa al livello di prestazioni, vedere gli scenari e i consigli elencati di seguito:

  • Se il server di indicizzazione e i server database vengono utilizzati solo per il servizio di ricerca di Office SharePoint Server, è possibile impostare il livello su Massime. L'aumento massimo dell'utilizzo della CPU nel server database non deve tuttavia superare il 30%. Se, quando il livello di prestazioni è impostato su Massime, l'aumento dell'utilizzo della CPU nel server database supera il 30%, è consigliabile passare al livello di prestazioni inferiore.

  • Se sono presenti più servizi condivisi che effettuano ricerche nel server applicazioni e nel server database, ad esempio il servizio di ricerca di Office SharePoint Server e Servizi di calcolo Excel, è consigliabile selezionare un livello di prestazioni inferiore. La riduzione della massima attività di indicizzazione consentita comporta tuttavia una riduzione della velocità con cui vengono indicizzati gli elementi e potrebbe pertanto determinare la visualizzazione di risultati di ricerca non aggiornati. Per determinare il livello di prestazioni appropriato per il server di indicizzazione, monitorare le prestazioni del server locale.

Per specificare l'impostazione relativa al livello di prestazioni del server di indicizzazione, utilizzare la procedura seguente.

Modificare il livello di prestazioni del server di indicizzazione

  1. Fare clic sul pulsante Start, scegliere Tutti i programmi, Microsoft Office Server e quindi fare clic su Amministrazione centrale SharePoint 3.0.

  2. Nella home page Amministrazione centrale fare clic su Operazioni.

  3. Nella sezione Topologia e servizi della pagina Operazioni fare clic su Servizi nel server.

  4. Nella pagina Servizi nel server scegliere dal menu Server il server di indicizzazione che si desidera gestire.

  5. Nella sezione Avviare i servizi indicati nella tabella seguente fare clic su Servizio di ricerca di Office SharePoint Server.

  6. Nella sezione Prestazioni indicizzatore della pagina Configurazione impostazioni servizio di ricerca di Office SharePoint Server selezionare il livello di prestazioni da applicare.

  7. Fare clic su OK per salvare le modifiche.

Regole di impatto del crawler

Le regole di impatto del crawler sono impostazioni di configurazione della ricerca a livello di farm che specificano il numero di richieste simultanee generate dal servizio di ricerca di Office SharePoint Server quando esegue la ricerca per indicizzazione utilizzando un'origine di contenuto specificata. Maggiore è il numero delle richieste simultanee, più veloce sarà la ricerca per indicizzazione. Si noti che la frequenza delle richieste specificata in una regola di impatto del crawler influisce direttamente sul carico del server database e su quello del server che ospita il contenuto sottoposto a ricerca per indicizzazione. Se si aumenta la frequenza delle richieste per un sito specifico, è consigliabile monitorare attentamente i server sottoposti a ricerca per indicizzazione per stabilire se l'aumento del carico è accettabile.

Il valore predefinito è il numero di processi nel server di indicizzazione. Per un computer con quattro processori, il valore predefinito sarà pertanto 8. È consigliabile modificare tale valore e misurare il carico sul server di destinazione per determinare il numero ottimale di richieste simultanee, che può essere uno dei valori seguenti: 1, 2, 4, 8, 16, 32, 64.

È inoltre possibile creare una regola per richiedere un documento alla volta e attendere un numero di secondi specificato tra le richieste. Tale regola può essere utile per eseguire ricerche per indicizzazione in un sito con un carico utente costante.

Nella tabella seguente è illustrata la relazione tra il numero di richieste simultanee e l'utilizzo della CPU nei server di indicizzazione e nei server database.

Numero di thread di ricerca per indicizzazione Percentuale di utilizzo della CPU del server di indicizzazione Percentuale di utilizzo della CPU del server database

4

35

12

8

40

15

12

45

15

16

60

20

Per creare una regola di impatto del crawler, è possibile utilizzare la procedura seguente.

Creare una regola di impatto del crawler

  1. Fare clic sul pulsante Start, scegliere Tutti i programmi, Microsoft Office Server e quindi fare clic su Amministrazione centrale SharePoint 3.0.

  2. Nella home page Amministrazione centrale fare clic su Gestione applicazioni.

  3. Nella sezione Ricerca della pagina Gestione applicazioni fare clic su Gestisci servizio di ricerca.

  4. Nella pagina Gestisci servizio di ricerca, dalla sezione Impostazioni di ricerca a livello di farm, fare clic su Regole impatto crawler.

  5. Nella pagina Regole impatto crawler fare clic su Aggiungi regola.

  6. Nella sezione Sito della pagina Aggiungi regola impatto crawler digitare il nome del sito per cui si desidera creare una regola, senza includere il protocollo (ad esempio, non includere http://).

  7. Nella sezione Frequenza richieste specificare la modalità con cui il crawler richiederà i documenti al sito specificato.

    1. Per richiedere più documenti contemporaneamente, selezionare Richiedi il numero massimo di documenti specificato per una singola operazione senza attesa tra richieste successive e quindi selezionare il valore desiderato nell'elenco Richieste contemporanee.

    2. Per richiedere un documento alla volta, selezionare Richiedi un documento alla volta e attendi il periodo di tempo specificato tra le richieste e quindi digitare nella casella Tempo di attesa (in secondi) il numero di secondi di attesa tra le richieste.

  8. Fare clic su OK per creare la regola.

Determinazione delle specifiche per i server di query

Utilizzare le informazioni contenute in questa sezione per determinare le specifiche per i server di query nella farm di Microsoft Office SharePoint Server 2007.

Memoria del server di query

Maggiore è la quantità di memoria disponibile, minore sarà il numero di accessi al disco rigido che dovranno essere effettuati dal servizio di ricerca di Office SharePoint Server per eseguire una determinata query. Una quantità di memoria adeguata consente inoltre di memorizzare dati nella cache in modo più efficiente. Se possibile, nei server di query dovrebbe essere installata una quantità di memoria sufficiente a contenere l'intero indice.

Nella figura seguente è illustrata la relazione tra le dimensioni dell'indice nei server di query e il tempo di risposta utente per query.

Prestazioni e analisi delle capacità per la ricerca

Velocità del disco del server di query

È consigliabile utilizzare RAID 10 per operazioni di scrittura su disco veloci.

Numero di server di query

È possibile distribuire più server di query nella farm per garantire ridondanza e bilanciamento del carico. Il numero di server di query da utilizzare dipende dal numero di utenti presente nella farm e dal carico previsto per le ore di punta. Per il testing sono stati utilizzati fino a otto server di query per farm.

La figura seguente illustra come variano la velocità effettiva delle query, la percentuale di utilizzo della CPU del server database utilizzato per il database di ricerca e la percentuale di utilizzo della CPU per il server di query, a mano a mano che vengono aggiunti nuovi server di query alla farm. Per il test che ha consentito di generare i dati riportati nella figura è stato utilizzato un server database condiviso tra database del contenuto e database dei servizi.

Grafico delle prestazioni del server di ricerca

Latenza del server remoto

La latenza del server è uno dei fattori che influiscono maggiormente sulle prestazioni della ricerca per indicizzazione. Le prestazioni dei server della farm devono essere bilanciate in modo da consentire di raggiungere globalmente le prestazioni di ricerca per indicizzazione potenziali. Un server di indicizzazione potente può ad esempio funzionare al 25% della sua capacità, se il server database in cui viene eseguita la ricerca per indicizzazione non è in grado di rispondere in modo sufficientemente rapido. In questo caso, è possibile aumentare la scalabilità verticale del server database, in modo da incrementare la velocità della ricerca per indicizzazione nell'intera farm.

È consigliabile condurre un testing autonomo per valutare i tempi di risposta dei server nel proprio ambiente. Quando le prestazioni della ricerca per indicizzazione sono scarse, il collo di bottiglia è spesso costituito dal server database utilizzato nella farm di destinazione. Per migliorare le prestazioni della ricerca per indicizzazione è possibile:

  • Aumentare la scalabilità verticale dell'hardware del server database, aggiungendo o aggiornando i processori, aggiungendo memoria e sostituendo i dischi rigidi con dischi con velocità di ricerca e scrittura superiori.

  • Aumentare la memoria nei server di query della farm

  • Eseguire le ricerche per indicizzazione nelle ore non di punta, in modo che il server database utilizzato possa gestire il traffico generato dagli utenti durante il giorno e rispondere alle richieste di ricerca per indicizzazione durante le ore di minor traffico.

Determinazione delle specifiche per i server database

Il sistema di ricerca di Microsoft Office SharePoint Server 2007 esegue la ricerca per indicizzazione sia sui dati di testo che sui metadati associati al contenuto. In Office SharePoint Portal Server 2003 tutti i metadati raccolti dal sistema di indicizzazione sono memorizzati in un archivio di proprietà costituito da un database JET. In Microsoft Office SharePoint Server 2007 l'indice full-text per la ricerca inversa è memorizzato sul server di indicizzazione, mentre i metadati sono memorizzati nel database di ricerca. Il server di indicizzazione scrive i metadati nel database e i server di query leggono tali dati per elaborare le query basate sulle proprietà immesse dagli utenti.

Utilizzare le informazioni in questa sezione per determinare le specifiche per i server database nella farm di Microsoft Office SharePoint Server 2007.

Velocità effettiva del database

L'archivio dei metadati del database è condiviso tra il server di indicizzazione e tutti i server di query della farm. Il server di indicizzazione scrive tutti i metadati e i server di query leggono tali dati per elaborare le richieste di ricerca. La velocità effettiva delle query dipende in modo determinante dalla velocità di risposta dell'archivio dei metadati.

Man mano che il numero dei server di query nella farm aumenta, aumenta anche il carico sul server database e ciò influisce sulla velocità effettiva delle query in generale. Quando si aggiungono server di indicizzazione o di query alla farm è consigliabile monitorare attentamente il server database, per verificare che il database mantenga un livello di prestazioni adeguato.

Distribuzione dei dischi rigidi nel server database

Poiché durante le ricerche per indicizzazione il sevizio di ricerca di Office SharePoint Server scrive grandi quantità di dati nel database di ricerca, è consigliabile utilizzare dischi montati su assi diversi per i database SharedServices_Search_Db, SharedServices_Db e TempDb, per migliorare le prestazioni negli scenari in cui l'indice contiene più di 5 milioni di elementi.

Velocità del disco del server database

È consigliabile utilizzare RAID 10 per operazioni di scrittura su disco veloci.

Scaricare il manuale

Questo argomento è incluso nel manuale seguente, che può essere scaricato per una lettura e una stampa più agevoli:

Per un elenco completo dei manuali disponibili che è possibile scaricare per Office SharePoint Server 2007, vedere Downloadable content for Office SharePoint Server 2007 (informazioni in lingua inglese).

Vedere anche

Concetti

Configurare un server Web front-end dedicato per la ricerca per indicizzazione (Office SharePoint Server 2007)