Monitorando mensagens na Microsoft

Resumo das soluções técnicas

Publicado em: Julho de 2003

Dd569867.ImgItShowCase(pt-br,TechNet.10).gif

A Microsoft usa o Microsoft Operations Manager 2000 (MOM) para monitorar as operações dos servidores de caixa de correio do Exchange e aplicativos relacionados a mensagens. O OTG (Operations and Technology Group) estabeleceu as melhores práticas para usar o novo pacote de gerenciamento MOM para o Exchange Server 2003.

Dd569867.Clara(pt-br,TechNet.10).gif Situação

Ao planejar a implantação do novo pacote de gerenciamento MOM do Exchange Server 2003, o OTG necessitava:

  • Reduzir os custos de monitoramento de mensagens.
  • Reduzir os custos operacionais por meio da consolidação do servidor, sem comprometer a qualidade do serviço.
  • Melhorar a precisão das estimativas de custo de hardware de novos servidores e serviços. 

Dd569867.Clara(pt-br,TechNet.10).gif Solução

Usando o MOM Management Pack para o Exchange Server 2003, informações mais convenientes, mais rápidas e mais precisas agilizam a detecção e resolução de problemas e melhoram a qualidade das informações de planejamento de longo prazo.

Dd569867.Clara(pt-br,TechNet.10).gif Vantagens

  • Informações de qualidade superior sobre monitoramento de serviços de ponta a ponta ajudam a gerenciar o risco da consolidação de uma quantidade bem maior de usuários por servidor.
  • O OTG conseguiu verificar a disponibilidade e o desempenho do cliente de mensagem após a consolidação dos servidores de caixa de correio.
  • O monitoramento de desempenho de implantações piloto como prova de conceito ajuda a evitar que a arquitetura do servidor seja superestimada.

Este resumo técnico destina-se a tomadores de decisões técnicas do setor corporativo e ao pessoal de operações de mensagem que planejam implantar o Exchange Server 2003. As recomendações e lições das práticas recomendadas neste documento baseiam-se na experiência do OTG como o primeiro a adotar o Exchange Server 2003 e o MOM.

Dd569867.Clara(pt-br,TechNet.10).gif Informações importantes

O OTG garante que os 50.000 funcionários, 5.000 prestadores de serviços e 17.000 fornecedores, aproximadamente, distribuídos por mais de 400 escritórios da Microsoft ao redor do mundo, podem acessar a rede da corporação 24 horas por dia, 7 dias por semana. Os serviços oferecidos pelo OTG vão desde o suporte ao usuário final e gerenciamento de telecomunicações a operações de servidor e de rede.

Além de dirigir internamente o serviço global de TI, o OTG é responsável por testar produtos corporativos da Microsoft em fase de produção, antes de serem lançados aos clientes, a fim de garantir que eles sejam dimensionados para atender aos desafios comerciais de outras grandes empresas. Esse processo é conhecido internamente por “comer sua própria ração”. A missão do serviço ao cliente, prestado pelo OTG, ganha espaço para que esse grupo compartilhe suas experiências como primeiro adepto, suas melhores práticas e as lições aprendidas por meio de documentos como este. Assim como o presente documento, o OTG está supervisionando a implantação interna do Exchange Server 2003, Microsoft Windows Server™ 2003 e do MOM Management Pack para o Exchange Server 2003 na Microsoft.

A iniciativa do OTG de modelar as melhores práticas é conhecida internamente por Modelo Empresa. Essa iniciativa foi iniciada no ano fiscal de 2003 com uma avaliação do Microsoft Operations Framework, conduzida por uma empresa externa, que realizou entrevistas centradas primeiramente no gerenciamento de alterações e no gerenciamento de versão. A freqüência com que essas funções de gerenciamento de serviços são conduzidas no OTG é bem maior do que em empresas de porte comparável por causa das exigências do abrangente teste de produção interno conhecido por “dogfooding” (“comer sua própria ração”).

Como outras organizações de TI corporativa, as metas operacionais do OTG concentram-se em descobrir o equilíbrio ideal entre disponibilidade, desempenho, flexibilidade e custo. O comprometimento do OTG em usar sempre que possível as soluções da Microsoft, em geral antes de serem lançadas ao público, é incomparável.

Para atingir essas metas, a estratégia do Modelo Empresa tem por base:

  • Maximizar o número de tarefas de gerenciamento desempenhadas centralmente (remotamente, a partir do dispositivo).
  • Reduzir o número de centros de dados e a quantidade de servidores de infra-estrutura e de aplicativos.
  • Padronizar a infra-estrutura e os dispositivos no mundo inteiro.

O OTG é responsável por manter mais de 150.000 computadores ao redor do mundo. No momento da redação deste documento, 190 servidores, executando o Exchange Server 2003 no Windows Server 2003 Enterprise Edition, distribuídos em mais de 75 lugares ao redor do mundo, recebiam o suporte do OTG. Desse total, 118 são servidores de caixa de correio que hospedam mais de 82.000 caixas.

A infra-estrutura de email corporativo na Microsoft, até Julho de 2003, é compreendida de:

  • Um fluxo global de 6 milhões de mensagens de email por dia, em média, e 2,5 milhões de mensagens de email por dia pela Internet, em média.
  • Vinte bancos de dados por servidor, com bancos de dados de no máximo 50 gigabytes (GB) em novas implantações em cluster, com um limite de caixa de correio de 200 MB por usuário.
  • Disponibilidade global de serviço de 99,9%, com a meta de atingir 99,99% em arquiteturas em cluster.
  • Entrega global de emails em menos de 90 segundos, em 95% do tempo.
  • Operações de backup e recuperação SLA em menos de 1 hora por banco de dados.

A estratégia do OTG é implantar servidores de infra-estrutura como servidores de mensagens em funções dedicadas, visando a uma administração eficaz. A Tabela 1 mostra como os servidores Exchange estão dispostos, até o momento em que este documento foi escrito.

Tabela 1 Disposição das funções de um servidor de mensagens

Função do servidor Número de servidores Exchange Server 2003
Caixa de correio 118
Pasta pública 20
Hub de mensagens 18
Gateway de Internet 20
Fax de saída 3

Correio de voz

2

Livre/Ocupado 6
Comunicação em tempo real 5
Outlook Web Access 7
Vírus 9

O monitoramento é um fator fundamental do gerenciamento de servidores de infra-estrutura e aplicativos, especialmente em uma empresa de grande porte como a Microsoft.

Dd569867.Clara(pt-br,TechNet.10).gif Ambiente de TI

Os três principais centros de dados corporativos da Microsoft estão localizados em Redmond, Washington; Dublin, na Irlanda; e Chofu, no Japão. Além disso, existem 16 centros de dados regionais e aproximadamente 400 escritórios espalhados pelo mundo. O grupo de operações do centro de dados (OPS) oferece três níveis de serviço aos proprietários de servidores gerenciados em um centro de dados da Microsoft. A Tabela 2 descreve os níveis de serviço.

Tabela 2 Níveis de serviço oferecidos

Nível de serviço Servidores Descrição
Um ~700 Derivações de energia, refrigeração e rede.
Dois ~2,000 Derivações de energia, refrigeração e rede.

Suporte a backup de dados.

Suporte reativo — o proprietário do servidor chama o suporte técnico quando o servidor não está funcionando apropriadamente e o OPS, ao ser notificado, toma providências.

Três (totalmente gerenciado)

Negócios críticos

~6,000 Derivações de energia, refrigeração e rede.

Suporte a backup de dados.

Suporte proativo ao hardware do servidor e ao sistema operacional, incluindo um monitoramento pró-ativo integral da conformidade dos patches.

O gerenciamento integral é fundamental para a eficácia das operações cotidianas da infra-estrutura básica, como servidores de arquivo e impressão; servidores proxy; servidores de acesso remoto; e servidores que executam o Active Directory, DNS e WINS. O segundo nível de serviço em geral é escolhido para servidores de laboratórios. Independentemente do nível de serviço escolhido, cada proprietário de servidor é responsável por gerenciar e manter os servidores no que se refere a aplicativos e outros fatores mais importantes. Por exemplo, os proprietários de servidor são responsáveis por gerenciar os direitos de usuário.

Na Microsoft, os proprietários de servidor devem usar versões aprovadas do software do servidor e os patches mais recentes. Além disso, eles devem usar hardware fabricado por fornecedores aprovados, de acordo com as especificações padrão da corporação. A padronização permite que o OPS controle os custos gerenciando esses servidores centralmente.

Dd569867.Clara(pt-br,TechNet.10).gif **  Hierarquia de escalonamento**

Na Microsoft, quando se identifica um problema em um servidor totalmente gerenciado, esse problema é escalonado da seguida forma:

Nível 1, Suporte técnico. A maioria dos problemas de caixa de correio é detectada no Nível 2. Entretanto, se o proprietário do servidor ou um usuário de aplicativo identifica o problema, ele entra em contato com o suporte técnico. Os servidores de caixa de correio regionais de menor porte são monitorados centralmente, ao passo que os sistemas operacionais e os componentes de serviço do Exchange são gerenciados centralmente. Os problemas de hardware dos servidores de caixa de correio regionais são tratados localmente. Os técnicos de suporte executam qualquer operação prática de servidor e oferecem suporte de primeira linha à comunidade de usuários usando o idioma nativo desses usuários.

Nível 2, Operações do centro de dados (OPS). O OPS usa alertas do MOM para monitorar proativamente problemas nos servidores, de modo que a assistência técnica está rodeada de problemas. Contudo, se o proprietário do servidor identificar o problema e entrar em contato com o suporte técnico, o suporte entrará em contato com o OPS do centro de dados ou com as equipes de operações de mensagem para tomar outras medidas. Assim que é alertado, o OPS responsabiliza-se pela resposta inicial ao problema, despendendo um tempo determinado para isso, como 15 minutos, e usando um guia de solução de problemas desenvolvido internamente. Além disso, o OPS introduz o incidente informado no sistema de ticket da Microsoft, também desenvolvido internamente. Esse sistema integra o aplicativo de controle de tickets com inúmeras funções de gerenciamento de conhecimento, como a base de conhecimento do grupo de produtos, os guias de solução de problemas e outros recursos internos. O sistema de tickets é usado para gerenciar o ciclo de vida do incidente, desde sua detecção à resolução.

Os guias de solução de problemas são criados quando o problema é comum e a solução é conhecida e facilmente implementada. Quando o OPS não consegue solucioná-lo, ele é escalonado de acordo com instruções em cada guia de solução para que sua causa seja investigada e solucionada. Os guias de solução estão vinculados a alertas no aplicativo de tickets personalizado.

Observação Para obter mais informações, consulte o informe oficial “Monitoring Enterprise Servers at Microsoft” em https://www.microsoft.com/technet/itsolutions/msit/deploy/entserv.mspx (site em inglês).

Nível 3, Equipes de Suporte a infra-estrutura (IS) e Diagnóstico e depuração avançados (ADD). Dependendo da natureza do problema, o OPS pode entrar em contato com as equipes de IS ou ADD. A primeira oferece avaliação e gerenciamento de ponta a ponta de serviços básicos de infra-estrutura. A equipe de ADD é especializada na depuração de problemas do sistema operacional Windows e comunica-se diretamente com os grupos de desenvolvimento de produtos.

Nível 4, Engenharia. A equipe de IS entra em contato com a engenharia de infra-estrutura se a solução do incidente exigir a modificação da arquitetura de TI e de padrões de hardware ou software.

Dd569867.Clara(pt-br,TechNet.10).gif Infra-estrutura "multi-homed"

A infra-estrutura do MOM para monitoramento do Exchange Server 2003 na Microsoft é “multi-homed”. Esse tipo de infra-estrutura permite que diferentes equipes usem os dados para diferentes propósitos. Por exemplo, a equipe de operações de mensagens interessa-se por eventos específicos do Exchange, dados de desempenho e alertas de limite como latência média de RPC alto. A equipe OPS está interessada em informações diferentes: possíveis problemas de hardware, sistema operacional ou subsistema de discos.

Cada equipe tem um conjunto de funções e um grupo de configuração particular. Se ocorrer um problema gerenciado, é gerado um evento e o MOM envia um alerta, que automaticamente informa a equipe pertinente.

Os alertas do hardware e sistema operacional são reunidos e encaminhados ao grupo OPS. Os dados de alerta e desempenho do Exchange são reunidos e encaminhados ao grupo de operações de mensagens. Uma tarefa personalizada do DTS (serviço de transformação de dados) é executada diariamente para arquivar os principais dados de desempenho do Exchange para uma análise de tendência de longo prazo. Por exemplo, todos os dados amostrados são mantidos durante oito dias antes de serem arquivados. Os eventos também são mantidos durante oito dias. Os alertas solucionados são mantidos durante quatro dias. Os dados sobre disponibilidade do servidor Exchange são mantidos durante seis meses em um banco de dados SQL Server 2000 para uma análise de tendência de longo prazo. Essa arquitetura “multi-homed” é mostrada na Figura 1.

Dd569867.MNITSB01(pt-br,TechNet.10).gif

Figura 1 Arquitetura de monitoramento do Exchange Server 2003

Nos 190 servidores Exchange do OTG, o MOM emite, em média, 200 alertas por dia, filtrados de aproximadamente 42 mil eventos e 6 milhões de amostras de dados de desempenho. Esses 200 alertas, em média, geram em torno de 66 trouble tickets (registros de problemas). A proporção de alerta a tickets diminuiu de 35:1 para 3:1 desde a padronização da infra-estrutura do MOM.

Dd569867.Clara(pt-br,TechNet.10).gif Situação

Durante o estágio de planejamento, o OTG identificou quatro principais necessidades empresariais na primeira implantação do Management Pack para o Exchange Server 2003:

  1. Garantir uma rápida efetivação dos benefícios. Monitoramento e gerenciamento são os maiores componentes de custo de um serviço de mensagens. Portanto, facilitar essas tarefas pode reduzir significativamente os custos operacionais.
  2. Reduzir os riscos de consolidação de servidores de caixa de correio. Durante a implantação do Exchange Server 2003, o OTG deu início a um amplo projeto para consolidar os servidores de caixa de correio. O principal risco da consolidação é que uma quantidade maior de usuários pode ser afetada pelo tempo de inatividade do servidor. O monitoramento precisa e oportuna é fundamental para minimizar o impacto do tempo de inatividade e reduzir o tempo necessário para restaurar o serviço na ocorrência de algum incidente.
  3. Manter a experiência do cliente Microsoft Outlook® 2003 após a consolidação do servidor de caixa de correio. O objetivo do OTG era garantir que a disponibilidade e o desempenho do cliente Outlook 2003 não diminuíssem após a consolidação do servidor de caixa de correio.
  4. Melhorar o planejamento de longo prazo de tendências e capacidade. O monitoramento completo melhora a disponibilidade do servidor a curto prazo e oferece dados valiosos para aperfeiçoar os níveis de serviço a longo prazo.

Dd569867.Clara(pt-br,TechNet.10).gif Solução

O Exchange Server 2003 conta com um novo pacote de gerenciamento (MP, management pack) do MOM que habilita ainda mais o MOM a oferecer monitoramento de servidores de ponta a ponta. O MP do Exchange Server 2003 oferece em torno de 200 novas regras automáticas e um Knowledge Base interno da Microsoft para monitorar e enviar alertas preemptivamente sobre desempenho, disponibilidade e segurança do Exchange Server 2003. Informações mais precisas agilizam a detecção de erros, reduzem o tempo de solução dessas falhas e diminuem a complexidade do gerenciamento. O MP também oferece suporte à monitoramento de antivírus e serviços de mobilidade, como o Exchange ActiveSync e Outlook Mobile Access, e habilita o OTG, de maneira notável, a monitorar a experiência do cliente Outlook 2003 além do desempenho do servidor.

Dd569867.Clara(pt-br,TechNet.10).gif Regras automáticas

Uma regra automática útil é o script de envelhecimento do log de transações denominado Exchange 2003 – Verificar se arquivos de log estão sendo truncados. Essa regra detecta arquivos de log com mais de 24 horas de existência, indicando que um servidor não está concluindo adequadamente seu backup diário. Ela envia um alerta ao grupo de operações de mensagens, que pode então orientar a equipe de TI em um local regional do servidor a investigar e fazer backup do servidor, se necessário.

Outra regra útil para o OTG é Verificar espaço livre no disco local, que agora oferece suporte a pontos de montagem de discos em cluster. O suporte ao ponto de montagem é novo no Windows Server 2003 e essencial para que o OTG dimensione o número de servidores virtuais por cluster nos servidores em cluster de grande porte (16 mil caixas de correio).

As regras no MP também monitoram a latência dos discos no sistema. Se um subsistema de discos não consegue processar eficazmente a entrada/saída (E/S) necessária ao sistema, é emitido um alerta com base no limite de latência do disco.

Dd569867.Clara(pt-br,TechNet.10).gif Regras padronizadas

Uma regra comum de processamento do MOM envia um alerta se um log de transações tiver mais de 24 horas de existência, o que indica uma possível falha de backup. Contudo, para atender à necessidades de alta disponibilidade e continuidade nos negócios, os operadores do OTG executam uma regra de processamento padronizada que verifica os logs de eventos do aplicativo toda noite, entre 20h00 e 20h10, no horário do Pacífico (quando os backups estão programados), para identificar eventos ausentes que indicam que os backups programados já foram iniciados. Se o evento não estiver presente, isso significa que os backups provavelmente não foram iniciados. Sendo assim, os operadores são imediatamente alertados. Além disso, o OTG tem uma regra de consolidação padronizada para detectar uma quantidade bem-sucedida de backups durante um determinado período. Se essa quantidade for inferior à esperada, é emitido um alerta ao operador.  

Dd569867.Clara(pt-br,TechNet.10).gif Relatórios padronizados

Os relatórios padronizados complementam os relatórios automáticos do MP. Por exemplo, o OTG monitora sistemas métricos tendenciosos baseando-se em um banco de dados de planejamento de longo prazo que contém dados como disponibilidade do servidor, cálculos de espaço em branco e quantidade total de mensagens enviadas e recebidas. A Figura 2 é um exemplo de relatório padronizado que o OTG obtém de uma consulta ao banco de dados.

Dd569867.MNITSB02(pt-br,TechNet.10).gif

Figura 2 Exemplo de relatório padronizado

O relatório nesse exemplo mostra três contadores de desempenho coletados pelo OTG para todos os servidores de caixa de correio na Microsoft:

  • Total de mensagens enviadas. Total de mensagens enviadas por meio de um dos protocolos de transporte, SMTP (Simple Mail Transfer Protocol), desde a inicialização.
  • Mensagens entregues. Mensagens que foram entregues com êxito ao armazenamento de informações.
  • Total de mensagens recebidas. Mensagens recebidas pelo servidor ou armazenamento, mas ainda não entregues.

A tabela dinâmica do Excel 2003 permite que o OTG exiba o número de mensagens enviadas, entregues e recebidas por data, semana fiscal e mês fiscal, bem como por servidor. O exemplo mostra mensagens enviadas, entregues e recebidas na semana fiscal de 26 de abril a 2 de maio de 2003.

Dd569867.Clara(pt-br,TechNet.10).gif Vantagens

O monitoramento é um fator essencial das operações cotidianas. O OTG usa o MOM para gerenciar toda a infra-estrutura interna de TI. O MOM e o MP para o Exchange Server 2003 oferecem:

  • Fácil personalização de regras. As regras do MP oferecem monitoramento automático completo. Você pode transformar facilmente essas regras em regras padronizadas, adaptadas à função do servidor, para solução de problemas ou planejamento de longo prazo. O grau de personalização depende da extensão e dos padrões de tráfego de sua infra-estrutura. Por exemplo, você pode usar modos de visualização de emails em fila para monitor flutuações na fila durante um grande período e definir limites ligeiramente acima dessas flutuações. Além de melhorar a eficácia do serviço, esse método pode ajudar a oferecer alertas antecipados a possíveis problemas de segurança quando o fluxo de emails for “anormal”.
  • Melhor previsão orçamentária. Ao tentar estabelecer um orçamento para um projeto que requer a alteração da infra-estrutura de computação, qualquer organização deve estimar a quantidade necessária de hardware. Usar o MOM para monitorar o desempenho da implantação piloto pode melhorar sua capacidade de comprar a quantidade ideal de hardware e evitar custos suplementares. Por exemplo, as novas regras do MP ajudaram a dimensionar apropriadamente os servidores de caixa de correio durante a atualização do Exchange 2000 Server para o Exchange Server 2003, efetuada pelo OTG.
  • Níveis de serviço de maior qualidade. Esse benefício é uma conseqüência da utilização de sistemas métricos mais precisos de disponibilidade. Por exemplo, antigamente, o OTG tinha apenas informações sobre o servidor, e não informações aprofundadas sobre as caixas de correio ou mesmo sobre a entrega de emails. Com o MP do Exchange Server 2003, o OTG pode ver quando um armazenamento na caixa de correio em um servidor fica inoperante durante um determinado número de minutos. Calculando o número de pessoas que estão no armazenamento, na caixa de correio, o OTG consegue determinar a quantidade de “minutos por usuário” afetada e, em seguida, priorizar melhor sua resposta. Mostrar 1 minuto de tempo de inatividade para 1.000 caixas de correio como 1.000 minutos de tempo de inatividade ajuda o OTG a priorizar a resposta com base nas necessidades da empresa.
  • Gerenciamento vigoroso de configuração. O pacote de gerenciamento conta com verificações de configuração predefinidas (as principais configurações do Registro, configurações de arquivo de log, logs de controle de mensagens etc.) e oferece um recurso para adicionar configurações personalizadas. As alterações de configuração são rápidas. Por exemplo, quando o OTG altera o limite do espaço livre em disco, a alteração dessa configuração é propagada de maneira global, em todos os servidores Exchange escolhidos, em aproximadamente cinco minutos.
  • Modelo flexível de relatório. É muito fácil gravar páginas da Web para criar relatórios padronizados por meio de um banco de dados SQL Server. O OTG consegue coletar dados facilmente para análises de tendências e relatórios como:
    • Análise de log de controle de mensagens (toda mensagem enviada — quem está enviando para que lugar, quem está enviando para quem)
    • Análise de fluxo de emails (latência de enviado para/recebido de)
    • Tamanho do banco de dados e espaço em branco (espaço em branco é a quantidade de espaço não utilizado em seu banco de dados)
    • Configuração do servidor

Dd569867.Clara(pt-br,TechNet.10).gif Práticas recomendadas para o monitoramento do Exchange

As seções a seguir apresentam dicas para usar o MP do MOM para monitorar os serviços do Exchange Server 2003 com base na experiência do OTG como primeiro adepto.

Dd569867.Clara(pt-br,TechNet.10).gif Email principal

As definições de limite fornecidas no pacote de gerenciamento correspondem a servidores de todos os portes. Pelo fato de o OTG usar servidores com funções de serviço exclusivo, o nível do fluxo de email é sensivelmente diferente para cada servidor. Você deveria considerar os servidores de gateway de Internet — que podem gerenciar milhares de mensagens de email por hora — como uma entidade distinta para o gerenciamento de fila. Ajuste as regras de limite de acordo com as necessidades de sua empresa.

Por exemplo, o OTG tem um servidor de gateway que gerencia tráfego de não-entrega. O OTG especificou um conjunto precisamente ajustado de regras de limite associadas a esse servidor. Definições de limite inferiores são configuradas nos servidores de gateway que não gerenciam tráfego de não entrega e nos servidores de caixa de correio. Por exemplo, o OTG estabeleceu regras de limite nos servidores de gateway de Internet no intervalo de 10 mil a 15 mil mensagens, mas para servidores de caixa de correio estabeleceu uma regra de limite de apenas 500 mensagens.

Se você for modificar as regras automáticas, deve primeiramente desativar a regra, em seguida copiá-la para um grupo de regras de processamento padronizado e, por fim, ajustar a definição de limite no grupo de regras padronizado. Desse modo, manterá as regras originais intactas e poderá gerenciar atualizações com maior eficiência.

Além disso, você deveria estabelecer características de tendências de desempenho de longo prazo para seus servidores (por exemplo, utilização do processador, E/S do disco e latências e RPC) e, em seguida, estabelecer limites que indicam uma situação anormal em seu ambiente. Depois que ajustar esses limites, prepare-se para acompanhar e investigar possíveis alterações em seu ambiente. Por exemplo, se normalmente a proporção de utilização do processador for de 40% e esse valor disparar para 80% durante um período contínuo, é provável que existe algum problema.

Dd569867.Clara(pt-br,TechNet.10).gif Servidores de grande porte de caixa de correio

Os alertas nos contadores RPC do Exchange — como a latência média de RPC e solicitações RPC — indicam situações que afetam negativamente a experiência do usuário. A provável causa do problema é um gargalo na rede, na CPU, no disco ou na memória. De acordo com a experiência do OTG, o gargalo em geral está no subsistema de discos.

Você deveria monitorar a latência em discos individuais examinando os contadores de discos físicos; o número total de transferências de disco por segundo nos dispositivos de dados; e o nível de atividade de E/S de qualquer unidade que oferece suporte a um banco de dados. Determine quão eficientemente as solicitações de leitura e gravação associadas com um disco estão sendo processadas permitindo que as solicitações ocorram dentro de um período específico. Por exemplo, com base na análise de longo prazo de operações de E/S do disco, em servidores de caixa de correio, o OTG exige latências médias de leitura inferiores a 15 milissegundos e latências médias de gravação inferiores a 10 milissegundos. Toda organização deveria determinar limites de recursos particulares, com base exclusivamente em seu ambiente.

Você deve desativar a replicação de log de eventos dentro de uma configuração em cluster na qual o número de nós determina o número de eventos e alertas. Por exemplo, em um cluster de dois nós, toda vez que é gerado um evento que tem uma regra de processamento de alerta correspondente, dois alertas são enviados ao console. A desativação da replicação de log de eventos ajuda a reduzir o ruído dos alertas. Informações adicionais podem ser encontradas no artigo 224969 do Microsoft Knowledge Base: COMO: Configurar a replicação de log de eventos no Windows 2000 Cluster Servers.

Dd569867.Clara(pt-br,TechNet.10).gif Antivírus

Os servidores antivírus do OTG são servidores de gateway no perímetro da rede. Eles filtram os emails antes que cheguem ao armazenamento. Use o MOM para verificar a disponibilidade de seu serviço antivírus. Por exemplo, o OTG executa um script de verificação de serviço entre intervalos de poucos minutos em todos os servidores de antivírus para confirmar se o serviço de antivírus está funcionando. Se esse serviço não estiver funcionando, o MOM emite um alerta.

Ajuste as regras de definição de limite examinando o número de vírus que estão sendo removidos das mensagens. Por exemplo, entre intervalos de alguns minutos, o OTG recolhe uma amostra do contador do número de vírus que estão sendo removidos. Se a fila de vírus ultrapassar 100 no decorrer de cinco períodos de amostragem, é emitido um alerta. A avaliação das regras ajuda o OTG a detectar a tendência, no ambiente, de mensagens de entrada infectadas, de mensagens de saída e de vírus na saída, bem como o total de mensagens infectadas em processamento. Como um mecanismo de alerta antecipado, isso ajuda o servidor no caso de terminados tipos de ataque de negação de serviço.

Dd569867.Clara(pt-br,TechNet.10).gif Cliente

Esse tipo de monitoramento é novo no MP e útil para o planejamento ou solução de problemas de acordos de nível de serviço. Por padrão, os clientes Outlook 2003 informam o status e a condição da conexão aos servidores Exchange 2003, incluindo solicitações RPC que falharam e latência de RPC. O Exchange Server 2003 agrega esses dados como eventos de log de aplicativo e dados PerfMon (do monitor de desempenho). Esses dados podem ser exibidos no WMI (Windows Management Interface) e no Exchange System Manager. Você pode controlar que dados de desempenho do cliente são coletados com base na largura de banda do cliente informada pelo valor do registro do servidor Exchange ClientMonitoringMaxLowBandwidth (DWORD). Esses dados ajudaram o OTG a confirmar que a experiência do cliente não perdeu qualidade durante um grande projeto de servidor de caixa de correio e consolidação de local.

Dd569867.Clara(pt-br,TechNet.10).gif Implantação do MOM

Instale o MOM Reporting em um servidor separado do servidor de banco de dados do MOM e dos servidores DCAM. Essa configuração faz com que os horários de geração de relatórios aumentem em decorrência da latência de rede, mas isso evita efeitos adversos sobre o desempenho do banco de dados do MOM e dos DCAMs. Para evitar possíveis problemas de desempenho, não execute o MOM Reporting em conjunto com o seu banco de dados MOM de produção em horários de pico.

Mantenha pelo menos 40% de espaço livre no banco de dados do MOM para que a indexação e as tarefas do banco de dados sejam concluídas com êxito. Colete dados de desempenho sobre os agentes do MOM em etapas, para evitar que o banco de dados do MOM não seja sobrecarregado com dados de desempenho.

Crie dois bancos de dados adicionais — um banco de dados de armazenamento de longo prazo e um depósito de dados para análises de tendências históricas. Em seguida, você pode manter dados históricos importantes do MOM e, ao mesmo tempo, manter o banco de dados do MOM em níveis ideais para operações cotidianas.

Limpe bem o seu banco de dados, mas com sabedoria. Por exemplo, por causa do grande volume de dados gerados no dinâmico processo de monitoramento, no período noturno o OTG executa de hora em hora tarefas de limpeza. Configure a freqüência de tarefas de limpeza de acordo com o tamanho de sua organização. Você precisa ter tempo suficiente entre as tarefas de limpeza para levar em conta o crescimento e o excesso de eventos, mas também deve manter no mínimo 40% de espaço livre em disco no banco de dados do MOM. Se necessário, execute as tarefas de limpeza em horários específicos (por exemplo, 10 minutos após hora e 10 minutos após meia hora) para evitar conflito com outros processos. Defina uma regra de alerta com notificação automática para falhas de tarefas de limpeza. Use a tabela de histórico de limpeza para obter estatísticas úteis para monitorar e ajustar a limpeza.

Dd569867.Clara(pt-br,TechNet.10).gif O que se aprendeu

Entre as lições aprendidas pelo OTG de sua primeira implantação do pacote de gerenciamento do Exchange Server 2003 na Microsoft encontram-se as seguintes:

  • Use o MOM para monitorar os servidores de caixa de correio do Exchange Server 2003, servidores de gateway de antivírus e rede de área de armazenamento (SAN). O sistema métrico deduzido pelo MOM facilitou a atualização do Exchange e a consolidação do servidor porque ajudou a dimensionar apropriadamente o momento e o tamanho das atualizações do servidor e as mudanças dos usuários. O gerenciamento global de todas as alterações de configuração do servidor de caixa de correio é mais fácil se realizado por meio de um único console.
  • Use o MOM para validar suposições do planejamento para a migração do Exchange 2000 Server para o Exchange Server 2003. No passado, um departamento de TI só podia ter certeza de que as suposições do planejamento eram imprecisas quando algum problema vinha à tona. Por meio de um monitoramento de desempenho mais eficiente no MOM, você pode executar uma implantação piloto, medir os indicadores-chave de desempenho e, então, ajustar projetos de produção e programas de implantação com base em informações precisas.
  • Tire proveito do Microsoft Operations Framework (MOF). O banco de dados do MOM contém informações sobre desempenhos atuais e passados. As melhores práticas do MOF recomendam o uso dessas informações para fazer previsões mais exatas sobre as necessidades futuras e aprimorar as funções de gerenciamento de serviço do MOF, como planejamento de capacidade ou gerenciamento de incidentes.

Dd569867.Clara(pt-br,TechNet.10).gif Conclusão

Em conjunto, a implantação do primeiro adepto do Exchange Server 2003, bem como a implantação do pacote de gerenciamento do MOM e a adoção das práticas recomendadas do MOF para apoiar a iniciativa Modelo Empresa, melhoraram substancialmente o gerenciamento de mensagens na Microsoft. Informações mais convenientes, mais rápidas e mais precisas agilizam a detecção e resolução de problemas a curto prazo. A longo prazo, o pacote de gerenciamento do Exchange Server 2003 está oferecendo as seguintes soluções às necessidades empresariais do OTG:

  • **Garantir uma rápida efetivação dos benefícios.**Assim que implantado, o pacote de gerenciamento facilita o monitoramento e o gerenciamento dos servidores Exchange.
  • **Reduzir o risco de consolidação de servidores de caixa de correio.**O pacote de gerenciamento oferece um monitoramento precisa e oportuna para minimizar o tempo de inatividade. Durante a implantação do Exchange Server 2003, o OTG deu início a um amplo projeto para consolidar os servidores de caixa de correio. O principal risco da consolidação é que um número maior de usuários em um determinado servidor significa maior probabilidade de custos de tempo de inatividade do servidor. Informações mais precisas sobre o serviços de ponta a ponta ajudam a gerenciar esse risco.
  • **Verificar a experiência do cliente Outlook 2003 após a consolidação do servidor de caixa de correio.**Com o Exchange Server 2003 e Outlook 2003, a experiência do cliente — avaliada por meio de erros RPC e latências de ciclos completos — oferece informações detalhadas sobre a comunicação entre o cliente e o Exchange. Usando o MOM para monitorar essa quantidade de perspectivas de cliente, o OTG conseguiu determinar a disponibilidade e o desempenho do cliente após a consolidação dos servidores de caixa de correio.
  • Melhorar o planejamento de longo prazo de tendências e capacidade. O monitoramento completa melhora a disponibilidade do servidor a curto prazo e oferece dados valiosos para aperfeiçoar a infra-estrutura a longo prazo.

Para obter mais informações

Informe oficial MOF Process for Operations (Modelo de processo do MOF para operações) https://www.microsoft.com/technet/itsolutions/tandp/opex/mofrl/MOFPM.https://www.microsoft.com/technet/itsolutions/msit/deploy/msgbrtcs.mspx (site em inglês). (site em inglês).

Backup e restauração de mensagens no estudo de caso da Microsoft

https://www.microsoft.com/technet/itsolutions/msit/deploy/msgbrtcs.mspx (site em inglês).

Informe oficial Monitoring Enterprise Servers at Microsoft (Monitorando servidores empresariais na Microsoft)

https://www.microsoft.com/technet/itsolutions/msit/deploy/entserv.mspx (site em inglês).

Artigo 224969 do Microsoft Knowledge Base: COMO: Configurar a replicação de log de eventos no Windows 2000 Cluster Servers

https://support.microsoft.com/default.aspx?scid=kb;en-us;224969&sd=tech(site em inglês).

Para obter mais informações sobre os produtos e serviços da Microsoft, acesse:

https://www.microsoft.com/brasil/atendimento

https://www.microsoft.com/technet/itsolutions/msit/default.smpx (site em inglês)

Para tirar dúvidas, fazer comentários e sugestões sobre este documento ou para obter informações adicionais sobre Apresentações de TI da Microsoft, envie um e-mail para:

showcase@microsoft.com

© 2003 Microsoft Corporation. Todos os direitos reservados.

Este resumo é fornecido apenas para fins informativos. A MICROSOFT NÃO OFERECE NENHUMA GARANTIA, EXPLÍCITA OU IMPLÍCITA, NESTE RESUMO. Microsoft, Outlook e Windows são marcas registradas ou comerciais da Microsoft Corporation nos Estados Unidos e/ou em outros países. Os nomes de empresas e produtos reais aqui mencionados podem ser marcas comerciais de seus respectivos proprietários.