Microsoft Windows SharePoint Services 監視設計與實作

Microsoft Corporation

發行日期:2003 年 12 月

作者:Microsoft Office Internet Platform and Operations Windows SharePoint Services 小組

摘要

本案例研究旨在說明 Microsoft Office Internet Platform and Operations 小組如何設定 Microsoft Operations Manager 2000 SP1,以便能夠監視裝載 15,000 個外部客戶網站的 Windows SharePoint Services (Beta 版本) 陣列,並且提供小組的經驗,協助企業設計出適用的監視和測試設備機制 (instrumentation mechanism)。共有四份白皮書描述這個部署的過程,本文件是其中的第四份。

本頁內容

簡介
部署目標
伺服器陣列設定
監視類別
基礎系統、應用程式及伺服器監視
Windows SharePoint Services 特定的服務監視
HTML 檢視及 HTML 轉換伺服器
URL 及管理連接埠監視
其他系統監視器計數器監視
摘要
相關連結

簡介

本份白皮書說明 Microsoft® Office 小組所屬的 Internet Platform and Operations 小組如何設計及實作 Microsoft Windows® SharePoint™ Services (Beta 版本) 部署的監視機制。這個小組使用 Microsoft Operations Manager (MOM) 2000 SP1 中的各種監視規則及系統監視器計數器,監視 Windows SharePoint Services 伺服器陣列中伺服器和服務的狀態。在描述 Windows SharePoint Services 裝載經驗的四份白皮書中,這是第四份。

部署目標

本份白皮書中描述的監視實作目標包括:

  • 測試及提供 Windows SharePoint Services 伺服器陣列的增強且整合式監視功能。

  • 為 15,000 外部客戶提供高度的 Windows SharePoint Services 伺服器陣列可用性,並且允許系統管理員及操作工程師能夠在發生服務問題或系統故障時立即且積極採取行動。

這兩項目標皆已達成。去年度的 Windows SharePoint Services 伺服器陣列可用性已超過百分之 99,這對於 Beta 版本程式碼而言是極好的記錄。雖然曾經發生應用程式、伺服器及磁碟機問題,但是收到 MOM 通知電子郵件訊息的小組能夠在服務中斷之前及時解決問題。

基於下列原因,已選用 Microsoft Operations Manager (MOM) 和 Hewlett-Packard Compaq Insight Manager (CIM) 當做監視工具:

  • Hewlett-Packard 硬體組成伺服器陣列,所以 CIM 監視伺服器狀態的運作狀況極佳。MOM 已與 CIM 監視工具完全整合在一起。

  • 本份白皮書中支援的許多必要監視功能視為 MOM 提供的功能。Window SharePoint Services 監視及測試設備僅需要極少量的部署及自訂工作。

  • 當 Windows SharePoint Services 伺服器陣列發生服務問題或系統故障時,MOM 會自動通知相對應的群組。

  • MOM 提供預設的效能監視報告,有助於識別流量模式及系統狀態。

  • 不久後,Windows SharePoint Services 計劃附上 MOM 管理套件。如需更新檔案,請造訪 MOM Management Pack 網站:http://go.microsoft.com/fwlink/?LinkId=20493&clcid=0x409

  • Microsoft 承諾要讓 MOM 成為一項適合企業使用的長期監視方案。

任何人都能夠運用本份白皮書中描述的設定及最佳方式來部署 Windows SharePoint Services。如需 Microsoft Operations Manager 的詳細說明及設定步驟,請參閱 MOM 網站中提供的多種格式 Microsoft Operations Manager 2000 文件,網址為:http://go.microsoft.com/fwlink/?LinkId=20494&clcid=0x409

伺服器陣列設定

圖 1 伺服器陣列設定

圖 1 伺服器陣列設定

  1. 公用 DNS 伺服器

  2. 網際網路

  3. 路由器 (Cisco Systems)

  4. 平衡負載器 (F5 網路 BIG-IP)

  5. 平衡負載器 (F5 網路 BIG-IP)

  6. 前端 Web 伺服器陣列 (六部伺服器)

  7. SMTP 及 DNS 伺服器

  8. 終端機服務、偵錯及系統管理伺服器

  9. SQL Server 伺服器 1

  10. SQL Server 伺服器 2

  11. SQL Server 伺服器 3

  12. SQL Server 伺服器 4

  13. SAN 裝置 (Hewlett Packard)

  14. Active Directory 網域控制站 1

  15. Active Directory 網域控制站 2

  16. MOM 伺服器

  17. 備份伺服器 (Veritas Software)

  18. 備份磁帶裝置

  19. HTML 轉換伺服器

  20. 影像處理及安裝伺服器 (Altiris Deployment Server)

  21. 路由器 (Cisco Systems)

  22. 邊緣網路

圖 1 描繪出 Internet Platform and Operations 小組安裝的伺服器陣列及網路。下列幾節將詳細討論監視 Windows SharePoint Services 伺服器陣列的實作。

監視類別

安排所有實作的監視規則和計數器的優先順序,並且分成下列五種類別:

  • 基礎系統、應用程式及伺服器監視 — 屬於關鍵的監視規則,並且系統或伺服器等級必須提供這項監視規則。

  • Windows SharePoint Services 特定的服務監視 — 屬於 Windows SharePoint Services 及其元件 (包括網頁組件) 特定的追蹤功能事件。

  • Windows SharePoint Services HTML 轉換和 HTML 轉換伺服器服務 — 屬於 HTML 轉換伺服器監視事件,HTML 轉換伺服器是 Windows SharePoint Services 伺服器陣列的選擇性元件。

  • Windows SharePoint Services URL 監視 — 這項類別提供的 URL 測試有助於識別每個前端 Web 伺服器上的 Windows SharePoint Services 網站及系統管理功能是否正常運作。

  • 其他系統監視器計數器監視 — 這些系統監視器計數器可以協助系統管理員瞭解系統負載及服務使用方式等資訊。日後可以進一步參照收集的資料,以便持續進行容量的規畫。

基礎系統、應用程式及伺服器監視

這項類別中的規則及功能極為重要,並且必須追蹤以確保積極攔截硬體及應用程式錯誤,並且及時解決問題以避免服務中斷。

硬體監視

Internet Platform and Operations 小組部署的 Windows SharePoint Services 使用 Hewlett-Packard CIM 軟體來監視伺服器狀態。MOM 整併裝置 (MOM consolidator) 中已安裝 CIM 管理套件,並且會使用 MOM 當做中心監視和通知機制。當任何伺服器或儲存區域網路 (SAN) 發生嚴重警示時,CIM 軟體會透過 MOM 伺服器將電子郵件訊息傳送至 Windows SharePoint Services 管理小組及負責管理實驗室實體伺服器的小組。

基礎應用程式監視

這項類別中的 MOM 規則監視基礎 Microsoft® Windows Server™ 2003 事件及系統監視器計數器。會利用電子郵件將通知傳送至一或多個下列小組:

  • Windows SharePoint Services 屬於 Internet Platform and Operations 小組中負責管理 Windows SharePoint Services 設定的小組成員。

  • Lab 負責管理實驗室實體伺服器的小組成員。

  • Active Directory 負責管理 Microsoft Active Directory® 目錄服務之部署的小組成員。

  • SQL Server 負責管理 Microsoft SQL Server™ 設定及執行 SQL Server 之伺服器的小組成員。

可以將應用程式監視分割成兩部分,一部分使用 MOM 規則,而另一部分使用系統監視器計數器。表 1 列出 MOM 規則,包括規則所追蹤的伺服器、追蹤的事件及屬於警示通知對象的群組。

表 1 MOM 規則

伺服器類型

事件

通知群組

前端 Internet Information Services (IIS) 伺服器

IIS 停止和啟動 (時間)

Windows SharePoint Services

前端 IIS 伺服器

NetLogon 停止和啟動 (時間)

Windows SharePoint Services

前端 IIS 伺服器

Windows SharePoint Services 停止和啟動 (時間)

Windows SharePoint Services

Active Directory 伺服器

Active Directory 目錄服務管理套件模組提供的標準規則

Active Directory

執行 SQL Server 的伺服器

SQL Server 2000 管理套件模組提供的標準規則

SQL Server

所有伺服器

伺服器登入成功和失敗

Windows SharePoint Services 和 Lab

所有伺服器

Hewlett-Packard CIM 監視

Windows SharePoint Services 和 Lab

Hewlett-Packard SAN HSG80 資料儲存機制

SAN 錯誤通知

Windows SharePoint Services 和 Lab

表 2 列出系統監視器計數器、通知所傳送的值以及接收到通知的群組。

表 2 系統監視器計數器

系統監視器計數器

臨界值

通知群組

記憶體: % 認可位元組使用中

大於 80%

Windows SharePoint Services

記憶體:可用千位元組數

小於 50 MB

Windows SharePoint Services

Web 服務:每秒連線嘗試次數

每秒嘗試次數大於 500

Windows SharePoint Services

處理器:% 處理器時間: _Total (CPU 使用率)

大於 80%

Windows SharePoint Services

目前連線 - 警告

1000 個連線

Windows SharePoint Services

目前連線 - 錯誤

2000 個連線

Windows SharePoint Services

磁碟使用量

小於 10%

Windows SharePoint Services

系統:處理器佇列長度

大於 10 個執行緒

Windows SharePoint Services

記憶體分頁/每秒

每秒大於 220 頁

Windows SharePoint Services

Windows SharePoint Services 特定的服務監視

本份白皮書中的監視規則或功能有助於作業小組瞭解 Windows SharePoint Services 的相關服務狀態,並且有助於作業小組解決問題。這些警示的通知電子郵件訊息有助於提早發現潛在問題。這一節將討論四組事件群組及前端 Web 伺服器的系統監視器計數器。

Windows SharePoint Services 和 SQL Server

下列警示必須配合 Windows SharePoint Services 及 SQL Server 來處理問題。將通知傳送至 Windows SharePoint Services 和 SQL Server 通知群組。

  • 無法連線至資料庫:

    事件類型:錯誤

    事件來源:Windows SharePoint Services 2.0

    事件類別:無

    事件識別碼:1000

    描述中包含子字串 '#50070'

    範例:#50070: Unable to connect to the database STS_Config on Server_Name. Check the database connection information and make sure that the database server is running. ( #50070:無法連線至 Server_Name 伺服器的資料庫 STS_Config。請檢查資料庫連線資訊,並且確認資料庫伺服器正在執行中)

    這項事件需要立即採取行動。當無法連線至 Windows SharePoint Services 的 SQL Server 資料庫時,就會中斷前端 Web 伺服器上的 Windows SharePoint Services。

  • 到達資料庫容量:

    事件類型:錯誤

    事件來源:Windows SharePoint Services 2.0

    事件類別:無

    事件識別碼:1000

    描述中包含子字串 '#50068'

    範例:#50068:The content databases in this cluster are full. You cannot add more Web sites until you change the content database Web site capacity settings or add more content databases. (#50068:這個叢集中的內容資料庫已滿。您無法新增更多網站,除非您變更內容資料庫網站容量設定或增加內容資料庫的數量)

    收到此警示訊息後,系統管理員應該增加資料庫的容量,或增加內容資料庫的數量。

  • 到達資料庫容量警告

    事件類型:警告

    事件來源:Windows SharePoint Services 2.0

    事件類別:無

    事件識別碼:1000

    描述中包含子字串 '#50069'

    範例:#50069:The content databases in this cluster have exceeded the warning Web site count. Either change the content database Web site capacity settings or add more content databases. (#50069:這個叢集中的內容資料庫已超過警告網站計數。請變更內容資料庫網站容量設定或增加內容資料庫的數量)

    收到此警示訊息後,系統管理員應該增加資料庫的容量,或增加內容資料庫的數量。

Windows SharePoint Services 元件

當 Web 組件、SharePoint 計時器服務或其他 Windows SharePoint Services 元件產生錯誤時,會將下列事件傳送至 Windows SharePoint Services 通知群組。當發生這些事件時,仍然可以使用 Windows SharePoint Services,但是伺服器上的某些元件無法正常運作。

  • DDS Web 組件轉譯錯誤

    提供者名稱:應用程式

    提供者類型:Windows NT 事件記錄

    事件類型:錯誤

    來源名稱:Windows SharePoint Services 2.0

    描述中包含子字串 'VerifySafeControls failed for guid'

    產生警示:重大錯誤

    通知群組:Windows SharePoint Services

  • DDS Web 組件不安全控制偵測規則 2

    提供者名稱:應用程式

    提供者類型:Windows NT 事件記錄

    事件編號:1000

    事件類型:錯誤

    來源名稱:Windows SharePoint Services 2.0

    描述中包含子字串 'Unsafecontrol exception (GetTypeFromGuid)'

    產生警示:重大錯誤

    通知群組:Windows SharePoint Services

  • OWSTimer 及 STSWel 錯誤

    提供者名稱:應用程式

    提供者類型:Windows NT 事件記錄

    事件編號:1000

    事件類型:錯誤

    來源名稱:Windows SharePoint Services 2.0

    描述中包含子字串 'eowstimer.exe'

    產生警示:警告

    通知群組:Windows SharePoint Services

  • W3WP WSS 錯誤

    提供者名稱:應用程式

    提供者類型:Windows NT 事件記錄

    事件編號:1000

    事件類型:錯誤

    來源名稱:Windows SharePoint Services 2.0

    描述中包含子字串 'ew3wp.exe'

    產生警示:警告

    通知群組:Windows SharePoint Services

Windows SharePoint Services 病毒掃描程式

如果前端 Web 伺服器已經安裝 McAfee PortalShield 或其他病毒掃描程式,則可能會記錄下列事件。

  • 病毒檢查,正在載入病毒掃描程式:

    事件類型:資訊

    事件來源:Windows SharePoint Services 2.0

    事件類別:無

    事件識別碼:1000

    範例:#96000f: Loading antivirus scanner...(#96000f:正在載入防毒掃描程式...)

  • 病毒檢查,無法載入病毒掃描程式:

    事件類型:資訊

    事件來源:Windows SharePoint Services 2.0

    事件類別:無

    事件識別碼:1000

    範例:#960010:Finished loading antivirus scanner. No scanner installed. (#960010:已完成載入防毒掃描程式。未安裝掃描程式)

Windows SharePoint Services Active Directory

下列三項事件與 Active Directory 目錄服務帳戶建立、刪除及更新相關。當接收到錯誤時,應立即採取行動。

  • 無法新增使用者至 Active Directory

    事件類型:資訊

    事件來源:Windows SharePoint Services 2.0

    事件類別:無

    事件識別碼:1000

    範例:#1966150:Adding user <username> to OU <active directory OU> in domain <domain name> FAILED with HRESULT <error code from AD handler> (#1966150:以 HRESULT <error code from AD handler> 新增使用者 <username> 至網域 <domain name> 中的 OU <active directory OU> 失敗)

  • 無法從 Active Directory 刪除使用者

    事件類型:資訊

    事件來源:Windows SharePoint Services 2.0

    事件類別:無

    事件識別碼:1000

    範例:#1966151:Deleting user %user% from OU %OU% in domain %DOMAIN% FAILED with HRESULT %HR% (#1966151:以 HRESULT %HR% 從 %DOMAIN% 網域中的 OU %OU% 刪除使用者失敗)

  • 無法更新 Active Directory 中的使用者

    事件類型:資訊

    事件來源:Windows SharePoint Services 2.0

    事件類別:無

    事件識別碼:1000

    範例:#1966152:Updating user %user% from OU %OU% in domain %DOMAIN% FAILED with HRESULT %HR% ( #1966152:以 HRESULT %HR% 從 %DOMAIN% 網域中的 OU %OU% 更新使用者失敗)

HTML 檢視及 HTML 轉換伺服器

HTML 轉換伺服器是 Windows SharePoint Services 伺服器陣列的選擇性元件。HTML 轉換伺服器執行 HTML 檢視器服務,所以即使使用者的電腦上未安裝建立文件時使用的程式,使用者仍然可以使用 HTML 格式來查看文件。如果有設定 HTML 轉換伺服器,則應設定及監視這項類別中的事件。適用於 Microsoft Office 文件的 HTML 檢視器服務是 Microsoft® Office 2003 HTML 檢視器服務。

當啟動或停止 HTML 檢視器服務時,或當 Office HTML 檢視器服務使用 90% 以上資源時,就應將事件傳送至 HTML Transformation Service Operators 通知事件。

  • 已啟動 HTML 啟動程式

    提供者名稱:應用程式

    提供者類型:Windows NT 事件記錄

    來自來源:Microsoft.Office.HtmlTrans.Launcher

    描述中包含子字串 'start'

    產生警示:資訊

    通知群組:HTML Transformation Service Operators

  • 已停止 HTML Load Balancer

    提供者名稱:應用程式

    提供者類型:Windows NT 事件記錄

    事件編號:0

    來源名稱:Microsoft.Office.HtmlTrans.LoadBalancer

    描述中包含子字串 'stop'

    產生警示:重大錯誤

    通知群組:HTML Transformation Service Operators

  • 已停止 HTML Launcher1

    提供者名稱:應用程式

    提供者類型:Windows NT 事件記錄

    來自來源:Microsoft.Office.HtmlTrans.Launcher

    事件編號:0

    描述中包含子字串 'stop'

    產生警示:重大錯誤

    通知群組:HTML Transformation Service Operators

  • 已啟動 HTML Load Balancer 1

    提供者名稱:應用程式

    提供者類型:Windows NT 事件記錄

    事件編號:0

    來源名稱:Microsoft.Office.HtmlTrans.LoadBalancer

    描述中包含子字串 'start'

    產生警示:資訊

    通知群組:HTML Transformation Service Operators

  • HTML Transformation Server CPU 使用率 >90%

    提供者名稱:Processor–% Processor Time–_Total-3.0-minutes

    提供者類型:Windows NT 效能計數器

    臨界值大於 90

    產生警示:重大錯誤

    通知群組:HTML Transformation Service Operators

URL 及管理連接埠監視

MOM 指令碼提供 Windows SharePoint Services 網站的 URL 及管理連接埠之監視功能。實作一般的 URL 監視通知規則,報告關於每個前端 Web 伺服器之各種 URL 要求的錯誤。

  • 通知規則 - 指令檔產生的資料

    準則 - 事件識別碼:2002

    產生警示:重大錯誤

    通知群組:Windows SharePoint Services Service Operators

由於 Internet Platform and Operations 小組已經實作這項規則,所以會每隔兩分鐘將 Ping 要求 (ping request) 傳送至每個前端 Web 伺服器。在每項測試期間,指令碼發出 Ping 要求至每個伺服器最多三次。如果三次要求皆失敗,則會產生及報告嚴重錯誤。

注意 應依據流量分析及預期的伺服器可用性來調整重試頻率及次數。整併伺服器 (Consolidator server) 上的 MOM 帳戶應該具有受測試之 URL 的存取權,或匿名使用者應該具有網站存取權。

  • Ping FE1 http://site_URL (請依狀況變更網站的 URL)

    資料提供者:排程為每 2 分鐘執行一次。

    提供者類型:時間事件

    回應:指令碼名稱:HTTP Ping - 集中在整併電腦 (Consolidator computer) 上。

    AttemptedInterval:1

    Attempts:3

    LogSuccessEvent:False

    URL: http://site_URL (請依狀況變更網站的 URL)

  • Ping FE1 Windows SharePoint Services 管理連接埠 (假設 8080 是管理連接埠)。

    資料提供者:排程為每 2 分鐘執行一次。

    提供者類型:時間事件

    回應:指令碼名稱:HTTP Ping - 集中在整併電腦上。

    AttemptedInterval:1

    Attempts:3

    LogSuccessEvent:False

    URL:http://Server:8080/

針對每個前端 Web 伺服器重複最後兩項規則,確認所有前端 Web 伺服器都會適當回應這些基本要求。

其他系統監視器計數器監視

監視這些系統監視器計數器可以協助系統管理員瞭解系統負載及服務使用資訊。日後可以進一步參照收集的資料,以便持續進行容量的規劃。因此 Windows SharePoint Services 擁有自己的 ISAPI 篩選器並且使用 Microsoft .NET Framework,所以值得監視下列前端和後端系統監視器計數器及事件。

前端伺服器的其他監視規則

  • Process(w3wp)\% Processor Time

    Process(w3wp)\Private Bytes

  • Process(w3wp)\Working Set

    Process(w3wp)\Handle Count

  • .NET CLR Memory\# Bytes in All Heaps

  • .NET CLR Memory\Large Object Heap Size

  • .NET CLR Memory\% Time in GC

  • ASP.NET\Worker Process Restarts

後端伺服器的其他監視規則

  • Process(sqlservr)\% Processor Time

  • Process(sqlservr)\Working Set

  • SQLServer:General Statistics\User Connections

  • SQLServer:Locks\Number of Deadlocks/sec

  • SQLServer:Locks\Lock Waits/sec

  • SQLServer:Locks\Lock Wait Time (ms)

  • SQLServer:SQL Statistics\Batch Requests/sec

摘要

需要部署 Windows SharePoint Services 以裝載客戶網站的系統管理員,可以參考 Microsoft Internet Platform and Operations 小組類似的 Windows SharePoint Services (Beta 版本) 部署及 Microsoft Operations Manager 設定經驗。從選擇伺服器到監視、設置客戶網站等工作,因為有前例可循,系統管理員可以放心為之。如需有關 Windows SharePoint Services (Beta 版本) 裝載部署之整體環境的詳細資訊,請參閱本系列的其他白皮書。

相關連結

如需進一步資訊,請參閱下列資源:

如需有關 Windows Server 2003 的最新資訊,請參閱 Windows Server 2003 網站,網址為 http://www.microsoft.com/taiwan/windowsserver2003/default.mspx。

這是一份初始版本的文件,可能會於本軟體產品正式發行之前依實況進行必要的修訂。

本文件中所包含的資訊代表 Microsoft Corporation 於發行日前針對該問題的觀點。由於 Microsoft 必須反應市場條件的變更,因此不應解釋為 Microsoft 的承諾。在發行日之後,Microsoft 不保證文件中任何資訊的正確性。

本文件僅供參考使用。MICROSOFT 對於本文件中各項資訊,不作任何明示或默示的保證。

使用者必須遵守所有適用的版權法律規定。即使沒有版權限制,在未取得 Microsoft Corporation 書面許可的情況下,不得任意複製本文件任一部分、將文件存放或導入擷取系統,或者透過任何方式或手段 (電子、機械、影印、記錄等等) 傳輸本文件。

Microsoft 可能擁有本文件所提及內容中所含之專利權、專利優先權、商標、著作權,或其他智慧財產權。除非取得 Microsoft 明確書面授權聲明,否則本文件並未授與這些專利、商標、版權或其他智慧財產的授權。

本文範例中描述的公司、組織、產品、人員和事件皆為虛構的。並未意圖影射任何實際公司、組織、產品、人員或事件的關聯性。

© 2003 Microsoft Corporation.All rights reserved.

Microsoft、Windows、Windows Server、Active Directory 和 SharePoint 是 Microsoft Corporation 在美國和/或其他國家 (地區) 的註冊商標或商標。

本文中所提到的真實公司和產品名稱,可能係其專屬公司的商標。

顯示: