監視及疑難排解 Microsoft.com

技術案例研究

發佈日期: 2006 年 10 月 23 日

MS_ITShowcase_logo_190x89


Microsoft.com 是網際網路上最繁忙,也是可用性最高的網站之一。積極預防式及消極反應式監視同時並用是網站能夠將可用性及延展力發揮到極致的重要因素。

本页内容

簡介
現況
解決方案
未來的監視及報告
疑難排解
最佳作法
益處
結論

簡介

Microsoft.com 是網際網路上最繁忙的網際網路資訊服務 (IIS) 架構網站之一,其中包含數以千計的支援伺服器和應用程式。負責 Microsoft.com 網站的作業小組必須能夠迅速識別、疑難排解並修正網站上任何可用性及效能問題。作業小組也必須預測並規劃網站的容量增長。

為了要完成上述這些工作,Microsoft.com 的作業小組與很多其他 Microsoft 組織建立了夥伴關係,例如應用程式開發、測試及發行管理等小組。作業小組也必須與 Microsoft 內部各種不同的產品小組協同作業、與服務提供者 (例如管理伺服器的資料中心) 互動,並與內容提供網路 (CDN) 夥伴 Akamai Technologies, Inc. 及 SAVVIS Communications 互動,執行全球負載平衡與內容快取。疑難排解與 Microsoft.com 相關的效能或可用性問題經常需要與上述一個或多個夥伴組織互動。監視網站整體效能也牽涉到從各種不同來源收集資料並讓資料相關聯。

本案例研究旨在提供 Microsoft.com 作業小組所設計及開發監視解決方案的高層次概觀,並示範目前 Microsoft 關於高可用性及高效能網站的產品價值。本案例研究扼述解決方案的消極反應式及積極預防式監視元件、監視及疑難排解的最佳作法,以及 Microsoft.com 從這樣的解決方案中獲得的一些益處。

本案例研究假設讀者是技術決策者,而且已經熟悉 Microsoft® Windows Server™ 2003 網頁伺服器技術,包括 IIS 6.0 版和效能監視器,也已熟悉相關聯的技術,例如 Microsoft Operations Manager (MOM) 2005、Active Directory® 目錄服務、Microsoft Identity Integration Server (MIIS) 2003,以及 Microsoft SQL Server™ Reporting Services。任何組織都可以應用本案例研究所描述的原則和技巧來規劃網路監視系統,而監視高可用性網路伺服器基礎結構的設計考量也可以應用在幾乎任何企業規模的 IT 環境中。但是,本案例研究是根據 Microsoft.com 作業小組的經驗及建議的研究。並不是要提供做為程序指導。由於每個企業環境各有特色,每個企業都應該根據本身的需求選擇性採納本案例中內容。

現況

Microsoft.com 網站光是龐大規模就已經在監視及疑難排解方面形成極大挑戰。跨越三個資料中心,而且包含數以千計的伺服器和應用程式,平均每天為 1 千 3 百萬各不相同的使用者服務,Microsoft.com 是網際網路上最龐大、最繁忙、最複雜的網站之一。來自數百個組織 (其中有許多來自 Microsoft 外部) 超過 600 位以上開發人員,從全世界各地提交程式碼和內容。所提交的內容和應用程式更新之中有許多 (例如 ASP.NET 網頁、XML 檔案和 VBScript) 是直接交到各相屬的虛擬目錄中,使用各公司自行發行的管理程序,成熟度參差不齊。

Microsoft.com 經常遭受來自全球各地不同地區的攻擊。由於這種攻擊行動及複雜度,監視所有組成 Microsoft.com 的各個元件再加上整個網站,簡直就是浩翰無涯的工作量。

監視原則

Microsoft.com 作業小組抱持的原則是:監視解決方案應該提供迅速及精準地找出錯誤來源的能力,以便進行分離、調查研究,最後加以解決。監視解決方案應該是具備智慧,協助將多個不同來源的事件相關聯,並發出可以因應解決的警示。

一般監視系統是保持預設設定,多半都會產生超大量警示,對系統管理員來說,簡直就等於垃圾郵件。尤其是大系統,組織一定要謹慎小心地定義應該監視的情況,以及應該要引起作業人員注意的事件或事件組合。組織也必須準備從所收集的資料中學習。與警示規劃一樣,在解決方案中這方面也是很重要的任務。需要建立資料保留和彙總原則,而且要結合所有資料並建立其關聯放入資料倉庫中,系統管理員可以從中產生預先定義的及臨時的報告。

回應智慧型警示或記錄資料分析所採取的行動應該要能改善下列三大類別項目之一:

  • 應用程式

  • 網路

  • 作業優異表現

在大部份情況下,應用程式的效能問題都是因應用程式的設計或程式編寫方式的問題而產生。問題來源可以從錯誤到記憶體遺漏,一直到資料庫查詢效率低。應用程式問題是監視及識別的最大挑戰,但能夠改善的機會與空間最大。

網路問題很少發生,但偶而也可能而且真的會發生。各層級的元件冗餘系統可將網路中斷的風險機率減到最低,然而一旦發生中斷,則是重大情況而且必須立即因應解決。

作業優異表現類所包含的項目,就是很多組織所謂的人為疏失。可能失職的人員一般是網路、伺服器、存放區域網路 (SAN) 或應用程式的系統管理員。Microsoft.com 作業小組利用作業優異表現一詞來強調生產系統應該設置控制項、程序和步驟,以便將潛在人為疏失發生機率及衝擊減到最低。

解決方案

監視 Microsoft.com 網站包含隨時掌握瞭解各個網站和伺服器元件及各個應用程式的狀況,此外還必須瞭解整體可用性、效能和網站的容量。沒有任何一項技術能夠監視上述所有狀況,更沒有任何一項產品開箱啟用,就能夠在這麼複雜的環境中進行智慧型的監視。基於上述種種原因,作業小組開發了建立在 Microsoft 產品和一些協力廠商產品基礎上的監視解決方案。

為 Microsoft.com 實作的監視解決方案是從作業工作台開始。作業小組建立的作業工作台是彙總各式鬆散結合之解決方案元件而成的最佳作法架構。此架構是自訂撰寫、可延伸的 Microsoft .NET Framework 應用程式,一般是透過網路服務,與監視解決方案其他方面溝通並進行協調的應用程式。下列技術組成監視解決方案的其他主要元件:

  • Active Directory 是企業目錄服務,隨附在 Windows Server 2003 之中,管理所有依特定屬性組織單位 (OU) 排列之伺服器的安全性物件。

  • Active Directory Application Mode (ADAM) 是 Active Directory 的版本之一,特別設計用來做為應用程式專屬的資料存放區。其中存放有關組成 Microsoft.com 之資產與物件的詳細資訊。

  • MIIS 2003 是中繼目錄與同步處理引擎,將 Active Directory 與作業工作台所使用 ADAM 架構資料存放區之間的更新自動化。

  • Windows Management Instrumentation (WMI) 指令碼查詢伺服器,供查詢加入 ADAM 架構資料存放區的詳細設定資訊。

  • MOM 2005 是企業級事件和效能監視基礎結構,提供解決方案中大部份事件和效能的收集功能。

  • Microsoft SQL Server 2000 和 SQL Server 2005 提供企業級資料存放、簡報、報告及關聯功能。

  • Mercury SiteScope 是協力廠商的監視產品,提供資料中心內應用程式專屬的端對端交易測試。

  • 根據 Microsoft Windows® 2000 Server Resource Kit 中隨附的版本,經過高度自訂的 Cluster Sentinel 版本。提供資料中心內的伺服器監視,以及自動化叢集成員管理。

  • Keynote Global 35 是協力廠商服務,監視 Microsoft.com 網站整體的可用性,並從全世界各地 35 個地區進行應用程式專屬交易測試。

  • IIS 記錄監視器是收集 IIS 記錄的自訂應用程式。記錄剖析器剖析數量驚人的 IIS 記錄。

整個系統每天處理超過 60,000 個以上的警示,進行大約 1150 萬次的可用性測試,剖析 1.7 兆位元組的 IIS 記錄資料,而且每天以 45 秒的取樣速率收集 18500 萬的效能計數器。但是,要達到如此複雜精密的監視程度需要極長的過程,更需要投注極大心力,還需要有跨組織的協調合作。在每一步都是奠定在前一步基礎上的四步發展之後,才進行解決方案的開發:

  1. 資產管理

  2. 消極反應式監視

  3. 積極預防式測試及監視

  4. 報告及分析

資產管理

建立作業工作枱台構之後,建立監視解決方案的下一步就是取得資產管理的控制。任何作業小組在能夠精準而完全地監視組成一個系統的所有伺服器之前,必須知道部署了什麼伺服器、伺服器的位置、伺服器的使用方式,以及其擁有者或擁有單位。小組也必須知道如何判斷伺服器何時達到最大容量或達到使用週期盡頭。

在資產管理方面,Microsoft.com 使用 Active Directory,將所有伺服器按屬性類型和網路連線能力組織成 OU。只有 Microsoft.com 系統管理員和特定資料中心人員才有權限管理這些 OU 中的伺服器。然後 MIIS 管理代理程式會定期搜尋 Active Directory,尋找更新,以便利用更詳細的 ADAM 架構資產存放區同步處理資訊。作業小組選擇 ADAM 做為資產存放區,而不用關聯式資料庫的原因在於:小組要將資料組織成階層式架構,而 ADAM 就是特別為此而設計的。

ADAM 中的資料從 Active Directory 更新之後,WMI 指令碼即會查詢各個伺服器,以收集詳細的特性。ADAM 存放區就會反映新資料和更新。

消極反應式監視

在作業小組定期精準地識別伺服器使用人口並找出特性之後,小組就實作即時監視系統,以便在問題發生之後立即盡快反應。小組運用從其他幾個來源轉送來的各種 MOM 管理套件和事件的設定子集,使用 MOM 2005 進行事件及效能資料收集。

作業小組為 Microsoft.com 實作兩大主要類型的反應式監視。一種監視類型是設計來量測伺服器和應用程式效能及可用性。另外一種,而且也許是更重要、更具挑戰性的類型,就是監視客戶觀點的效能及可用性。

伺服器和應用程式效能

Microsoft.com 作業小組運用多層式手法,監視環境的整體健康狀況。這種手法包括監視伺服器硬體和基本的伺服器網路連線能力、各個伺服器的重要作業系統元件、NLB 伺服器叢集整體可用性,以及應用程式特定功能的回應。小組也共同監視網路異常情況偵測及安全防護裝置。

為了取得應用程式狀況的全球觀點,並提供冗餘系統自動化容錯移轉,作業小組與 Akamai 和 SAVVIS 結成夥伴,利用它們的全球負載平衡服務。這些服務是設定為不停地監視分散式非 Microsoft 網路之伺服器的每一個 NLB 叢集,而且一旦叢集失敗會自動將它們拉出輪替作業外。這些服務是小組的高可用性模型及業務持續設計中關鍵的一環。

伺服器監視是從硬體代理程式開始,此程式由企業級伺服器廠商提供,它監視伺服器實體元件的各方面,例如電源供應和冷卻風扇、CPU 溫度和硬碟機功能。在某些情況下,硬體代理程式能夠根據資料取樣的趨勢,預測特定元件即將發生失敗。此外,要提供高度元件可靠性及冗餘,部署企業級伺服器以建立重要生產系統可能會在與大部份監視架構密切整合之外產生附加益處。在 Microsoft.com 的情況下,硬體代理程式會將事件和警示通知轉送給 MOM 2005 基礎結構。

如前所述,作業小組已高度自訂 Cluster Sentinel,以監視磁碟空間,並提供監視以判斷伺服器是否回應簡單網路要求 (也稱為活動訊號監視)。此外,Cluster Sentinel 也搭配使用自訂 ASP 和 ASP.NET 檔案,根據應用程式開發人員定義的特定應用程式狀況準則,提供應用程式的端對端測試。這項 Cluster Sentinel 實作可以在測試失敗之後,自動將伺服器自叢集移除。為了更深入瞭解應用程式監視,作業小組特別使用 SiteScope 進行需要互動的交易測試,以判斷交易是否順利完成。最後,IIS 記錄監視器是收集 IIS 記錄的自動應用程式,之後記錄剖析器再剖析所有由應用程式產生的 IIS 錯誤。

對於 SQL Server 資料庫伺服器,則同時使用 MOM 2005 代理程式,以監視服務狀態。Cluster Sentinel 定期執行 <SP_Who> 查詢,以測試 SQL Server 服務是否適時回應。

效能計數器則以 45 秒的間隔,定期在所有伺服器上收集。事先設定了 42 個計數器的標準集,收集之後轉送給 MOM 2005 基礎結構。這些計數器代表硬體物件 (CPU、記憶體使用、磁碟使用) 和軟體物件 (IIS、SQL、TCP) 的交集,更進一步深入瞭解系統的整體健康狀況。如需 Microsoft.com 作業小組所收集之效能計數器的詳細資訊,請參閱 Troubleshooting and Debugging Web Applications 網路廣播 (英文),網址為:http://msevents.microsoft.com/CUI/EventDetail.aspx?EventID=1032283908&Culture=en-US

Microsoft.com 使用 Cisco Guard 裝置,以偵測可能表示拒絕服務或其他攻擊的流量異常狀況。這些裝置會將截獲的簡易網路管理通訊協定 (Simple Network Management Protocol,SNMP) 轉送給 SQL Server 資料庫,提供作業工作枱中流量模式和特定事件檢視。Cisco Guard 裝置及其餘網路裝置主要是由管理 Microsoft.com 伺服器的資料中心各相對應作業小組監視或管理。

客戶觀察到的效能

Microsoft.com 與協力廠商 Keynote Systems 建立夥伴關係,不停地量測及報告全世界 35 個地區所體驗到的整體網站及特定應用程式可用性及效能。

Keynote Global 35 服務在伺服器上有代理程式,透過嘗試載入 Microsoft.com 首頁,大約每分鐘執行一次測試。如果有任何項目無法載入,例如,.gif 檔案、文字字串,或者任何組成首頁而被呼叫的元件 (即使是看不見),測試就會產生錯誤。作業小組編寫了網路服務,一產生 Keynote 指標就轉送給 Microsoft.com 監視系統。每天結束時,Keynote 也提供可用性摘要報告。

除了與 SAVVIS 一起快取多個全球位置中內容以外,CDN 夥伴 Akamai 也從資料中心之外監視特定伺服器,而且能夠自叢集移除不回應的特定伺服器。

積極預防式測試及監視

實作及標準化資產管理和消極反應式監視系統之後,作業小組將焦點轉移到應用程式的積極預防式測試,以及定義積極預防式監視事件。廣泛的端對端應用程式交易測試和應用程式壓力測試 (Stress Testing),協助揭露在將應用程式進入生產之前的許多潛在問題。測試過程也有助於判斷哪些事件有意義,以及發生這些事件時應該採取的適當修正動作。從交易及壓力測試取得的所有資訊都詳實地記載,做為 Microsoft Solutions Framework (MSF) 發行管理程序的一部分,供許多開發小組使用。

提供事件需要立即反應處理的警示的同一個系統,也用來提供預防性質的警示,指出某種情況是否可能會發展成問題。經過一段時間徹底測試過應用程式,並觀察整體系統元件的作業模式以後,結合問題解決方案作業的結果,就有可能識別促成某些應用程式錯誤的癥狀或原因。經過一段時間的定義及不斷修訂預防式事件在在說明了監視系統的演化特質,強調不停地從資料中學習,以及實際應用習得的知識是非常重要的。

報告及分析

Microsoft.com 作業小組開發了自訂的網路服務,以即時合併所有來源的資料,提供涵蓋整體的概觀。每天晚上,自動化程序都會將資料彙總至資料倉庫中,以供進行長期分析。資料經過正規化成為一般結構描述,並與不同來源同時並用提供相關資料。資料類型包括 Keynote Global 35 資料及所有其他監視資料。詳細的效能資料會彙總成時平均值或日平均值,與取樣個數、標準差、最小值、最大值和標準錯誤一起保留,以供進行詳細的趨勢分析。

資產設定存放區的快照也是每天建立。保留在此資產存放區中的伺服器專屬資訊包括下列資料:

  • 詳細的資產資訊 (例如,伺服器擁有者、伺服器系統管理員,以及伺服器模型)

  • 保固到期

  • 效能趨勢

  • 變更要求記錄

  • 磁碟空間使用

  • IIS 錯誤趨勢

然後,作業小組就使用 SQL Server Reporting Services 產生標準的每日、30 天、90 天,以及到今天為止一年的報告,其中包括下列資訊;

  • 資產及物件

  • 效能趨勢

  • 可用性 (內部及外部)

  • IIS 記錄錯誤

  • 迴歸分析報告

  • 磁碟空間使用

  • 服務等級協定 (SLA) 效能

偵錯小組及其他組織需要存取資料庫中的資料,以進行更深入的分析。作業小組並沒有授予資料倉庫的存取權,而是使用 SQL Server Data Transformation Services (DTS),提供資料餵送給自訂及重複發生的需求。透過限制資料倉庫的存取權,作業小組避免了未受管理而對資料倉庫可能會產生不良衝擊的一次查詢活動的風險。

未來的監視及報告

作業小組計劃成為採納 Microsoft System Center Reporting Manager 2006 新技術的先鋒,取代目前作業工作台中的自訂功能。小組也在作業工作台中投入相當多的心力,根據定義標準設定的 XML 資訊清單,開發設定管理加強功能。將同時建立平台專屬與應用程式專屬的設定資訊清單,以作為開發週期進入生產前的一部分。

另外也進行其他努力,將應用程式測試設備標準化。數以百計的開發人員提供程式碼給 Microsoft.com,全都使用不同的方法來測試程式碼,以各種不同的細節層級測試事件記錄。作業小組想要建立通用的事件及記錄類別,根據 Microsoft 模式及實踐 (Patterns and Practices) 小組提供的建議,深入追蹤應用程式。如需 Microsoft Patterns and Practices 的詳細資訊,請至 http://msdn.microsoft.com/practices/ (英文)

問題管理是另一個焦點。作業小組想要將資料來源相關聯並標註其關聯,盡量從數量龐大的資料中多加學習。資料倉庫最主要的益處在於從資料中學習。作業小組想要使用含起源演算法的人工智慧引擎,以學習正規模式,遍搜資料,尋找統計異常情況。接著將這些演算法套用在實際資料上,早在問題呈現跡象以前進行預測。

Microsoft.com 跟許多其他組織一樣,都期盼做到「資料中心自動化」,系統管理幾乎不需要親自到場,而所有伺服器都進行遠端自動化管理,幾乎完全不必動手。例如,內嵌於伺服器中的遠端控制板可以透過程式設計指示,在使用量低時關閉,而在需要時重新開啟運作。「自動化策略」目的在於讓系統工程師專心將時間投入最重要的活動,例如更深層介入所支援的開發小組,並專注於新技術及開發最佳作法。

疑難排解

Microsoft.com 網站的效能問題一般可以分成三大類別:

  • 應用程式

  • 網路

  • 作業優異表現

監視系統的設計只在呈現事件,提示支援人員採取行動。但是,作業小組想要記錄應用程式期間發生的所有事件,而能讓大部分事件動作有相關聯的修正動作,可以在第一層支援就加以執行。有些事件需要升高到更上一層的支援。Microsoft.com 作業小組也跟大多數大型組織一樣,有好幾層事件支援,或稱為票證擴大規模。

第 1 層

第 1 層提供每天 24 小時、每週七天的支援,並提供票證的初始辨識、路由、解決 (可能的話)。第 1 層人員使用監視資訊及疑難排解指引,這是透過作業工作台動態地與資產或屬性相關聯,以執行初始研究,並協助解決事件。如果事件無法由第 1 層支援人員解決,就指派並傳送到第 2 層支援。

第 2 層

第 2 層提供伺服器硬體問題的基礎結構支援,以及特定應用程式支援,由深入瞭解應用程式的人員負責。第 2 層人員也使用監視資訊及疑難排解指引,透過使用作業工作台協助解決事件。如果事件無法由第 2 層支援人員解決,就指派並傳送到第 3 層支援。如果事件已經在這一層解決,疑難排解指引就會以任何新發現的資訊更新,以便在將來協助解決問題。

第 3 層

第 3 層執行更深入的分析,而由指定給特定網路屬性的系統工程師和資料庫管理員,以及特定應用程式的產品經理和開發人員組成。第 3 層人員使用監視資訊,開發疑難排解指引,而身為系統管理員,他們也可以在伺服器上執行其他疑難排解作業。如果事件無法由第 3 層支援人員解決,就指派並傳送到第 4 層支援,又稱為偵錯小組。如果事件已經在這一層解決,疑難排解指引就會以任何新發現的資訊更新,以便在將來協助解決問題。

第 4 層

第 4 層由偵錯小組執行應用程式及核心偵錯作業。一般來說,這類侵犯性疑難排解需要在測試期間,從生產環境移除伺服器。第 3 層人員檢閱疑難排解記錄,以清楚識別事件並重現問題的步驟。偵錯小組的目標在找出問題的根本原因,以便將詳盡的資訊傳送給適當應用程式開發小組,實作更新。如果事件已經在這一層解決,疑難排解指引就會以任何新發現的資訊更新,以便在將來協助解決問題。

附註: 如需 Microsoft.com 作業小組通常使用之偵錯步驟的詳細資訊,請參閱標題為 Troubleshooting & Debugging Web Applications 的網路廣播 (英文),網址為:http://blogs.technet.com/mscom/。

最佳作法

監視的最佳作法包括如下:

  • 盡可能集中化。設計盡可能將有意義的資訊彙總到中央位置的解決方案,以協助管理事件及問題。MOM 2005 基礎結構能夠收集大量監視解決方案的關鍵事件和資料。處理及疑難排解指引也應該集中化並標準化,以便讓所有小組成員以類似手法處理問題,而且能夠存取相同的資訊,並能在適當時機更新文件記錄。

  • 管理資產。瞭解所使用的資產、其用途,及其擁有者,並使用自動化程序保持為最新資訊。階層式結構提供記錄及檢視資產間關係的能力,而且也可能記錄及檢視作業人員與文件之間的關係。

  • 判斷重要資料。大部分監視產品會依預設產生極其大量的資料和事件。識別並只啟用有幫助且可因應的有意義資料和事件極其重要。

  • 同時實作消極反應式和積極預防式測試及監視。在設置好消極反應式監視系統之後,集中專注於積極預防式應用程式測試。試著識別可預測的事件。

  • 從資料中學習。彙總、關聯並標註不同來源的資料,以找出模式。考慮使用起源演算法,進行資料採礦,以決定基準並找出異常情況。

疑難排解的最佳作法包括如下:

  • 壓力測試應用程式。除了端對端交易測試以外,應用程式也應該進行壓力測試,以查看在負載沉重下的執行情形。將從測試過程中習得的警示定義及相關聯修正動作納入發行管理程序之中。這項作業可以協助識別積極預防式監視事件,而且可以在進入生產之前,揭露出特定應用程式的延展力問題。

  • 讓所有事件都可以因應處理。盡量提供第 1 層與第 2 層支援小組相關內容,讓他們能夠解決已知問題,而不必擴大規模。使疑難排解指引容易取得,讓他們能夠從問題解決過程中學習,汲取寶貴的經驗教訓。

  • 進行檢閱。最嚴重的問題通常都是因缺乏作業優異表現而造成。對這些情況舉行徹底的檢閱,可協助識別需要改進的程序。

益處

Microsoft.com 作業小組的主要目標是在網際網路上達成最高可用性。要達成此可用性,只能透過使用全面監視解決方案,納入消極反應式和積極預防式測試與監視、可因應處理的警示,以及隨時準備存取智慧型疑難排解資訊,才有希望完成。Microsoft.com 實作這樣的解決方案,已經在過去三年達到 99.83% 可用性 (由 Keynote Global 35 進行量測)。在這三年中,Microsoft.com 在可用性一項,跟其他業界所有主要網站相比,排名第一。

在要求最高數量下實作,能夠迅速並精準地識別 Microsoft 產品中的潛在問題,使得作業小組能夠協助推動 Microsoft 產品的改進。作業小組身為採納許多 Microsoft 新技術的先鋒,經常在產品發行供客戶使用之前,提供有關可能會對產品延展力與可靠性產生不良影響之潛在問題的資訊。可延展及可靠的產品提供高可用性及高數量服務的堅實基礎。

全面監視解決方案的另一項大益處是:寶貴的工程師可以集中精力,專注於工程方面,而不是耗費時間因應解決目前的問題。當架構設計師與工程師能夠把時間放在設計及測試未來系統及更新上,所產生的系統會在部署前更可能有良好的架構設計和測試。

Microsoft.com 作業小組目前正計劃透過加入伺服器與應用程式的資訊清單式設定管理系統,加強作業工作台的功能。這項功能加強將提供額外的好處,可確保所有系統完全取得一致性。目前,用來啟動安裝及更新伺服器和應用程式的自動化指令碼,確保這兩項作業的一致性,但目前卻沒有任何方法,在這兩項作業之外偵測設定變更。將來,定期、全面的設定掃描將可偵測出任何異常狀況。

結論

監視世界上最繁忙的網站之一 Microsoft.com,需要隨時瞭解各個硬體元件和各個應用程式的狀況,此外,還要從全世界各地瞭解整個網站的整體可用性、效能和容量。

沒有任何一項技術能夠監視所有各方面,更沒有任何一項產品開箱啟用,就能夠在這麼複雜的環境中進行智慧型的監視。因此,作業小組開發建立在多項 Microsoft 產品和一些協力廠商產品及外部監視服務之基礎上的監視解決方案。

全面監視解決方案包括消極反應式監視,以及積極預防式測試和監視,以便在問題狀況發生之前進行偵測並避免。Microsoft.com 解決方案的基礎是可擴充式架構,其中彙總鬆散結合的系統元件和資產及物件管理系統,可追蹤組成系統的所有物件。設置有力的發行管理程序,以確保應用程式在進入生產之前,經過適當測試並加以記錄。重要事件及如何加以因應的記錄,可以在系統進入生產之後,提供精簡的事件管理及疑難排解。

Microsoft.com 作業小組開發的解決方案包含資產管理、消極反應式監視、積極預防式測試及監視、報告及分析,以及智慧型疑難排解支援等各方面。解決方案的設計及實作花費了相當長的時間、精力,以及一些組織的協調合作,才完成徹底實作,但得到的益處很明顯,表現出達成業界最高網站可用性的能力。

更多信息

如需 Microsoft 產品或服務的詳細資訊,請洽 Microsoft Sales Information Center,電話 (800) 426-9400。加拿大地區請洽 Microsoft Canada information Centre,電話 (800) 563-9048。美國 50 州及加拿大以外的地區,請連絡當地的 Microsoft 分公司。若想透過網際網路取得更多資訊,歡迎至:

http://www.microsoft.com (英文)

http://www.microsoft.com/taiwan/technet/itsolutions/msit/default.mspx

現況

Microsoft.com 是網際網路上最繁忙的 IIS 架構網站之一,其中包含數以千計的支援伺服器和應用程式。這個網站的作業小組必須能夠迅速識別、疑難排解並修正網站上任何可用性及效能問題。

解決方案

Microsoft.com 作業小組使用各種不同的 Microsoft 技術配合全球協力廠商獨立的監視服務,實作了系統和程序,準確地判斷所擁有的伺服器資產、伺服器的設定,以及伺服器在資料中心內的執行效能。系統也提供有關整體網站效能的資訊,從全球各地 35 個不同地區的使用者觀點來看效能。

益處
  • Microsoft.com 是 Keynote 所量測可用性最高的網站 (連續執行三年達 99.83%)。

  • 作業小組透過迅速而精準地識別在最大需求量下可能產生的問題,藉以協助推動 Microsoft 產品的改良。由於作業小組是採納新技術的先鋒,經常是在產品尚未發行上市供客戶使用之前就已提出意見反應。

  • 員工的寶貴時間是用來專心投注於設計未來系統,而不是解決目前系統問題的。

產品和技術
  • Microsoft Windows Server 2003

  • Internet Information Services 6.0

  • Microsoft Operations Manager 2005

  • Microsoft SQL Server 2005

  • Microsoft Identity Integration Server 2003

  • Active Directory and Active Directory Application Mode

  • 效能監視器

  • SQL Server Reporting Services


下载

技術案例研究
297 KB
Microsoft Word 文件

顯示: