Comportamento del ripristino del cluster a copia singola

 

Si applica a: Exchange Server 2007 SP3, Exchange Server 2007 SP2, Exchange Server 2007 SP1, Exchange Server 2007

Ultima modifica dell'argomento: 2007-10-26

I cluster a copia singola (SCC, Single Copy Cluster) offrono la ridondanza per i servizi che forniscono l'accesso ai dati. La ridondanza del servizio consente di eseguire rapidamente il ripristino, senza perdita di dati, quando si verifica un errore nel nodo ospite. Poiché un SCC passa l'archiviazione che contiene i database al nuovo nodo come parte di un servizio di failover, sarà necessario ripristinare il servizio senza perdita di dati.

Tuttavia, in un ambiente SCC il sottosistema di archiviazione è un singolo punto di errore. Un errore completo del sottosistema di archiviazione di solito produce un'interruzione di un giorno e una perdita media di dati di 12 ore. Ciò presuppone che i backup completi vengano eseguiti giornalmente. Inoltre, la configurazione di archiviazione per una soluzione SCC generalmente più complessa da installare e utilizzare di quanto richiesto dalla replica continua cluster (CCR, Cluster Continuous Replication), che è l'altro tipo di soluzione cluster di Exchange. Per ulteriori informazioni sulla replica continua cluster, vedere Replica continua cluster.

La procedura di ripristino di un cluster a copia singola può essere suddivisa in due tipi di interruzioni:

  • Interruzioni pianificate   Le interruzioni pianificate sono avviate dall'amministratore. È possibile utilizzare un'interruzione pianificata per eseguire il ripristino a causa di un errore rilevato dal sistema di monitoraggio o per eseguire attività amministrative, come la manutenzione hardware o l'installazione di prodotti software o degli aggiornamenti dei programmi software.

  • Interruzioni non pianificate   Le interruzioni non pianificate sono avviate dal sistema come azioni di ripristino per un errore rilevato. Queste interruzioni vengono rilevate e il loro ripristino è attivato dal Servizio cluster di Windows.

Nella seguente tabella vengono descritte le azioni di ripristino previste per diversi tipi di errore. Alcuni errori richiedono che l'amministratore avvii il ripristino mentre altri vengono automaticamente gestiti dal Servizio cluster di Windows.

Le interruzioni pianificate e non pianificate, anche se avviate in modo diverso, determinano l'attivazione di un nodo passivo e il montaggio dei database, se i dischi condivisi sono stati correttamente trasferiti. Se i dischi condivisi non sono stati trasferiti correttamente, magari a causa di un errore di configurazione, il comportamento è lo stesso. I database coinvolti non vengono montati.

Nota

Su un nodo passivo è possibile attivare un solo server di cassette postali in cluster alla volta. Se un nodo ospita già un server di cassette postali in cluster attivo, non può mettere un altro server in linea.

Nota

A differenza di versioni precedenti di Exchange, Microsoft Exchange Server 2007 non avvia interruzioni non pianificate automatiche del cluster a copia singola (failover) come risultato di un errore di database.

Azioni di ripristino da errore

Descrizione dell'errore Azione Commenti

Errore di arresto del sistema operativo, il sistema operativo non risponde più, interruzione completa dell'alimentazione di un nodo, errore irreversibile nel chip del processore, della scheda madre, della piastra base o interruzione completa della comunicazione per un nodo

Failover automatico nel nodo passivo, se disponibile. I database vengono montati quando il relativo archivio viene messo in linea.

Affinché il nodo passivo sia disponibile, deve essere possibile stabilire un quorum dopo il malfunzionamento. Ciò vuol dire che il nodo restante deve essere in grado di accedere al quorum.

Errore di archiviazione totale sul nodo attivo

Errori di archiviazione segnalati tramite il sistema di monitoraggio. L'amministratore può ripristinare l'archivio oppure deve utilizzare i backup per il ripristino.

Failover automatico nel nodo passivo, se disponibile. I database vengono montati quando il relativo archivio viene messo in linea.

Affinché il nodo passivo sia disponibile, deve essere possibile stabilire un quorum dopo il malfunzionamento. Ciò vuol dire che il nodo restante deve essere in grado di accedere al quorum.

Errore di archiviazione totale

Errori di archiviazione segnalati tramite il sistema di monitoraggio. L'amministratore può ripristinare l'archivio oppure deve utilizzare i backup per il ripristino.

Questo errore viene segnalato come errore del cluster (e di tutte le relative risorse) poiché il quorum e i database non sono accessibili.

Errore del centro dati

Failover automatico non supportato senza una soluzione di replica di terze parti.

La replica deve essere sincrona se viene eseguita dai dati in linea.

Errore nell'unità del sistema operativo

Nessuna azione di ripristino automatico. Non rilevato da Exchange a meno che non si verifichi un errore del sistema operativo. Rilevato in base all'evidenza degli errori e non in base alla causa principale.

L'errore dell'unità del sistema operativo viene segnalato dai servizi di monitoraggio del sistema operativo e può causare un errore del sistema operativo.

Spazio insufficiente sull'unità del sistema operativo

Failover automatico nel nodo passivo, se disponibile. I database vengono montati quando il relativo archivio viene messo in linea.

Questo errore viene segnalato tramite i servizi di monitoraggio. Se il failover automatico non viene eseguito o non può essere eseguito, l'azione di ripristino per questo scenario è determinata dall'amministratore.

Errore della rete pubblica del cluster nel nodo attivo

Stessa azione di ripristino dello scenario di interruzione completa dell'alimentazione.

Non vi è alcun rilevamento dell'integrità della rete pubblica oltre l'hardware e il software utilizzati per la comunicazione tra i nodi attivo e passivo. La verifica di una connessione client effettiva non viene fornita da Exchange 2007.

Errore grave nella rete pubblica del cluster

Nessuna azione di ripristino automatico.

Se la rete pubblica viene perduta, lo stato delle risorse indirizzo IP diventa Non riuscito. Dopo che è stato risolto il problema della rete pubblica, è possibile riportare in linea le risorse.

Perdita di quorum del cluster

Server di cassette postali in cluster e quorum del cluster non in linea.

Questo scenario determinerà la mancanza di servizi se non è possibile costituire un quorum.

Errore dell'Archivio informazioni

Riavvio automatico della risorsa Archivio informazioni.

Dopo ripetuti errori, l'amministratore può tentare di spostare manualmente in un nodo passivo il server di cassette postali in cluster, nel tentativo di riportarlo in linea.

Errore nell'unità dell'applicazione (file binari)

Nessuna azione di ripristino automatico.

In genere questo scenario darà luogo ad altri errori che vengono segnalati tramite i servizi di monitoraggio e vengono avviati dall'amministratore. L'azione di ripristino per questo scenario è determinata dall'amministratore.

Spazio insufficiente sull'unità dell'applicazione (file binari)

Nessuna azione di ripristino automatico.

I servizi di monitoraggio segnalano questa condizione. L'azione di ripristino per questo scenario è determinata dall'amministratore.

Perdita completa del database o del gruppo di archiviazione o errore grave del database

Tentativo automatico di rimontare i database interessati. Se il tentativo non riesce, lo stato del database rimane Non riuscito ma non si verifica alcun failover dei server di cassette postali in cluster.

Il gruppo di archiviazione o il database vengono smontati a causa di un errore o di un danneggiamento software oppure il problema è dovuto a un errore dell'hardware. Ad esempio, un gruppo di archiviazione esegue uno smontaggio forzato di tutti i database quando la directory dei registri non è disponibile. L'amministratore determina l'azione correttiva. Il ripristino può essere un'interruzione pianificata per attivare il nodo passivo.

Errore parziale del gruppo di archiviazione o del database, non disponibilità di alcuni dati o errore iniziale di montaggio del database

Nessuna azione di ripristino automatico.

Errore parziale significa che è stato rilevato un danneggiamento, tuttavia la gravità non è tale da imporre lo smontaggio del gruppo di archiviazione o del database. Se un database non viene montato all'avvio, non verrà intrapresa alcuna azione e l'errore viene segnalato dal servizio di monitoraggio. Il server Cassette postali genera gli eventi quando viene eseguito il rilevamento e tali eventi possono essere segnalati dai servizi di monitoraggio. Il monitoraggio, inoltre, rileverà e segnalerà i database smontati.

Danneggiamento del registro rilevato per il gruppo di archiviazione

Nessuna azione di ripristino automatico.

I servizi di monitoraggio segnalano questa condizione.

Spazio insufficiente sull'unità dei database o del registro delle transazioni

Nessuna azione di ripristino automatico. I database del gruppo di archiviazione verranno smontati.

La mancanza di spazio libero sull'unità viene segnalata tramite il sistema di monitoraggio. L'amministratore determina l'azione correttiva.