Table of contents
TOC
摺疊目錄
展開目錄

Windows Server 2016 中的健全狀況服務

Cosmos Darwin|上次更新日期: 2016/12/6
|
1 投稿人

適用於 Windows Server 2016

健康情況服務是 Windows Server 2016,可改善每日監視和叢集執行儲存空間直接操作經驗的新功能。

先決條件

根據預設,「健全狀況服務」會隨「儲存空間直接存取」一起啟用。 不需要其他動作來設定或啟動它。 若要深入了解直接儲存空間,請參閱 存放空間直接在 Windows Server 2016

衡量標準

健康情況服務可減少從存放區空格直接叢集取得即時的效能和容量資訊所需的工作。 一個新的 cmdlet 提供基本的衡量標準,可有效率地收集並彙總動態不同的內建的邏輯,以偵測叢集成員資格的節點規劃的清單。 所有的值都是即時且為該時間點的值。

涵蓋範圍

在 Windows Server 2016 健康服務會提供下列衡量標準︰

  • IOPS (讀取、 寫入總)
  • IO 輸送量 (讀取、 寫入總)
  • IO 延遲 (讀取、 寫入)
  • 實際容量 (總,其餘)
  • 集區容量 (總,其餘)
  • 磁碟區容量 (總,其餘)
  • CPU 使用率 %, 、 所有的電腦上平均
  • 記憶體, ,所有的電腦 (總,可以使用)

使用量

使用下列的 PowerShell cmdlet,以取得完整的儲存空間直接叢集衡量標準︰

Get-StorageSubSystem Cluster* | Get-StorageHealthReport

選擇性 計數 參數指示多少組傳回一秒間隔值。

Get-StorageSubSystem Cluster* | Get-StorageHealthReport -Count <Count>  

您也可以取得的衡量標準的一個特定的音量或使用下列 cmdlet 的節點︰

Get-Volume -FileSystemLabel <Label> | Get-StorageHealthReport -Count <Count>  

Get-StorageNode -Name <Name> | Get-StorageHealthReport -Count <Count>
注意事項

在每個案例中傳回的衡量標準會合適的對象該範圍的子集。

容量︰ 總結

「儲存空間」中可用容量的概念是有細微差別的。 為了協助您有效率的方式規劃,健康服務會提供容量六個不同的衡量標準。 下列是每個計量代表的意義:

  • 實體容量總︰ 所有受叢集的實體存放裝置的原始容量的總和。
  • 實體容量可用︰ 這不是任何非 primordial 存放集區中的實際容量。
  • 集區容量總︰ 原始容量儲存空間集區中的金額。
  • 集區容量可用︰ 集區容量的未配置給磁碟區的磁碟使用量。
  • 磁碟區容量總︰ 可用 (「 走進 」) 的現有的磁碟區的容量總計。
  • 可用的磁碟區容量︰ 可以儲存在現有的磁碟區中的其他資料量。

下圖說明這些數量之間的關聯性。

容量的衡量標準的分析

錯誤

「健全狀況服務」會持續監視您的「儲存空間直接存取」叢集,以偵測問題並產生「錯誤」。 有一個新的 Cmdlet 可顯示任何目前的錯誤,讓您能輕鬆驗證部署的健康狀況,而不需要輪流查看每個項目或功能。 「錯誤」是以精確、容易理解,及可採取動作為設計目標。

每個「錯誤」都包含五個重要欄位︰

  • 嚴重性
  • 問題描述
  • 解決此問題的下一個建議步驟
  • 錯誤實體的識別資訊
  • 它的實體位置 (若可用)

例如,以下是一個典型的錯誤︰

Severity: MINOR                                         
Reason: Connectivity has been lost to the physical disk.                           
Recommendation: Check that the physical disk is working and properly connected.    
Part: Manufacturer Contoso, Model XYZ9000, Serial 123456789                        
Location: Seattle DC, Rack B07, Node 4, Slot 11
注意事項

實體位置是衍伸自您的容錯網域組態。 如需有關硬性錯誤網域的詳細資訊,請參閱 硬性錯誤網域在 Windows Server 2016。 如果您未提供這項資訊,則位置欄位的實用性會較低 - 例如,它可能只會顯示插槽編號。

涵蓋範圍

在 Windows Server 2016 健康服務會提供下列硬性錯誤涵蓋範圍︰

  • 基本叢集硬體:

    • 節點關閉、隔離或獨立
    • 節點網路介面卡故障、停用或連線中斷
    • 節點遺失一或多個叢集網路
    • 節點溫度感應器
  • 必要的存放裝置硬體:

    • 實體磁碟媒體故障、失去連線,或沒有回應
    • 存放裝置機箱失去連線
    • 存放裝置機箱的風扇故障或電源供應器故障
    • 已觸發存放裝置機箱的電流、電壓或溫度感應器
  • 儲存空間軟體堆疊:

    • 儲存集區無法辨識中繼資料
    • 資料未完全復原或中斷連結
    • 磁碟區容量不足1
  • 存放裝置服務品質 (存放裝置 QoS)

    • 存放裝置 QoS 格式錯誤原則
    • 違反存放裝置 QoS 原則2
  • 儲存體複本

    • 同步、寫入、啟動,或停止複寫失敗
    • 目標或來源複寫群組失敗或遺失通訊
    • 無法符合設定的復原點目標
    • 記錄檔或中繼資料損毀
  • 健全狀況服務

    • 任何自動化的相關問題會在稍後的章節中說明
    • 隔離的實體磁碟裝置

1 表示磁碟區使用量已達到 80% (次要嚴重性) 或 90% (重大嚴重性)。
2 表示磁碟區上的某些 .vhd 在 24 小時的循環時間間隔內,有 10% (次要)、30% (重大)、或 50% (嚴重) 以上的時間未達其 IOPS 最小值。

注意事項

存放裝置機箱組件 (如風扇、電源供應器和感應器) 的健康情況是衍生自 SCSI 機箱服務 (SES)。 如果您的廠商沒有提供這項資訊,「健全狀況服務」就無法顯示它。

使用方式

若要查看任何目前的「錯誤」,請在 PowerShell 中執行以下 Cmdlet:

Get-StorageSubSystem Cluster* | Debug-StorageSubSystem  

這會傳回任何影響整體「儲存空間直接存取」叢集的「錯誤」。 在大多數情況下,這些錯誤是與硬體或組態有關。 如果沒有「錯誤」,這個 Cmdlet 就不會傳回任何項目。

注意事項

您可以在非生產環境中,自行透過觸發「錯誤」來實驗這項功能 (您必須自行承擔風險) - 例如,移除實體磁碟或關閉一個節點。 出現「錯誤」之後,重新插入實體磁碟或重新啟動該節點,「錯誤」就會再次消失。

您也可以使用以下 Cmdlet 檢視只影響特定磁碟區或檔案共用的「錯誤」:

Get-Volume -FileSystemLabel <Label> | Debug-Volume  

Get-FileShare -Name <Name> | Debug-FileShare  

這會傳回錯誤會影響只有特定的磁碟區或檔案共用資源。 在大多數情況下,這些「錯誤」是與資料復原能力,或存放裝置 QoS、儲存體複本之類的功能有關。

注意事項

在 Windows Server 2016,可能需要 30 分鐘某些顯示的錯誤。 後續推出的版本將會包含相關改進。

根本原因分析

健康情況服務可以評定之間發生錯誤來識別和結合硬性錯誤是相同的基礎問題的後果的實體可能的原因。 藉由辨識相關聯的影響,可以讓報告較為簡潔。 就目前而言,這項功能僅限於失去連線情況下的節點、機箱及實體磁碟。

例如,如果某個機箱已經失去連線,該機箱內的實體磁碟也都會失去連線。 因此,只會針對根本原因引發一個「錯誤」- 在此案例為該機箱。

[動作]

下一節會說明由「健全狀況服務」自動執行的工作流程。 為了確認確實自動採取動作 (或為了追蹤其進度或結果),「健全狀況服務」會產生「動作」。 不同於記錄檔,「動作」完成之後很快就會消失,且主要目的是針對可能會影響效能或容量的進行中活動 (例如還原復原能力或重新平衡資料) 提供深入見解。

使用方式

有一個新的 PowerShell 指令程式會顯示所有「動作」︰

Get-StorageHealthAction  

涵蓋範圍

在 Windows Server 2016 Get StorageHealthAction cmdlet 可以傳回任何下列資訊︰

  • 淘汰失敗、失去連線,或實體磁碟沒有回應

  • 正在切換儲存集區以使用取代用實體磁碟

  • 正在還原資料的完整復原能力

  • 正在重新平衡儲存集區

自動化

本節說明「健全狀況服務」在磁碟生命週期內自動執行的工作流程。

磁碟生命週期

「健全狀況服務」會自動執行實體磁碟生命週期的大部分階段。 假設您部署的初始階段健康情況都良好,也就表示說所有實體磁碟都正常運作。

淘汰

當實體磁碟已無法再使用時,系統便會將它們淘汰,並且會引發相對應的「錯誤」。 有幾種情況:

  • 媒體故障:實體磁碟確實已故障或損壞,因此必須更換。

  • 遺失通訊:實體磁碟已經超過 15 分鐘失去連線。

  • 沒有回應:實體磁碟在一小時內發生三次以上超過 5.0 秒的延遲。

注意事項

如果連線不會遺失到多個實體磁碟一次,或健康服務會在整個節點或存放裝置機殼, 淘汰這些磁碟,因為它們都應該不是根目錄的問題。

如果被淘汰的磁碟曾作為其他多個實體磁碟的快取,且有其他可用的快取磁碟,系統將會自動重新指派一個給它們。 使用者不需要採取特別的動作。

還原復原能力

實體磁碟一旦被淘汰,「健全狀況服務」會立即開始將其資料複製到其餘的實體磁碟,以還原完整復原能力。 一旦完成,資料便完全安全,容錯也重新開始。

注意事項

此立即還原需要其餘的實體磁碟有足夠的可用空間。

讓指示燈閃爍

可能的話,「健全狀況服務」會讓已淘汰的實體磁碟或其插槽上的指示燈開始閃爍。 指示燈會無限期持續閃爍,直到更換淘汰的磁碟。

注意事項

某些情況下,磁碟故障的方式可能使其指示燈也無法運作 - 例如,完全失去電源。

實體磁碟更換

若情況允許,您應該更換淘汰的實體磁碟。 在多數情況下,這包含熱交換 - 也就是, 不需要關閉節點或存放裝置機箱的電源。 請參閱「錯誤」以取得很有用的位置和組件資訊。

驗證

當插入取代磁碟時,會驗證針對支援元件文件 (請參閱下一節)。

加入集區

若情況允許,取代用磁碟會自動取代到其前身的集區中以開始使用。 此時,系統會回到其良好健康情況的初始狀態,然後「錯誤」會消失。

支援的元件文件

健康情況服務提供一個強制執行必要的機制來限制所儲存空間直接使用這些系統管理員或方案廠商所提供的支援元件文件的元件。 這可以防止您或其他人誤用不支援的硬體,這有助於符合保固或支援合約的規定。 這項功能僅限於目前部實體磁碟的裝置,包括 Ssd,Hdd,而且 NVMe 磁碟機。 支援元件文件可限制 (選擇性) 的模型、 製造商 (選擇性),以及韌體版本上。

使用量

支援元件文件使用了 XML 啟發的語法。 我們建議使用您最喜愛的文字編輯器,例如 Visual Studio 程式碼 (可免費 以下) 或 [記事本] 中建立 XML 文件儲存,並重複使用。

區段

文件中有兩個獨立的區段︰ 磁碟快取

如果 磁碟 提供區段,可列出的磁碟機可加入集區。 任何未列出的磁碟機將無法從加入集區,可有效地使其在生產環境中的使用。 如果本節空白的您就會允許任何磁碟機加入集區。

如果 快取 提供區段,可列出的磁碟機將用於快取。 如果空白的這一節,直接儲存空間會嘗試猜得到根據媒體類型和匯流排類型。 例如,如果您的部署使用固態硬碟 (SSD) 及硬碟 (HDD),前者是自動選擇的快取;不過,如果您的部署使用全部 flash,您可能需要指定您想要使用快取這裡的高耐力裝置。

重要事項

支援元件文件不適回溯,已經共用的磁碟機,並使用中。

範例

<Components>

  <Disks>
    <Disk>
      <Manufacturer>Contoso</Manufacturer>
      <Model>XYZ9000</Model>
      <AllowedFirmware>
        <Version>2.0</Version>
        <Version>2.1</Version>
        <Version>2.2</Version>
      </AllowedFirmware>
      <TargetFirmware>
        <Version>2.1</Version>
        <BinaryPath>\\path\to\image.bin</BinaryPath>
      </TargetFirmware>
    </Disk>
  </Disks>

  <Cache>
    <Disk>
      <Manufacturer>Fabrikam</Manufacturer>
      <Model>QRSTUV</Model>
    </Disk>
  </Cache>

</Components>

若要列出多個磁碟機,只需新增其他 <磁碟> 上述兩個區段內的標記。

若要部署直接儲存空間時,請將這個 XML,請使用 -XML 旗標︰

Enable-ClusterS2D -XML <MyXML>

若要設定或修改支援元件文件儲存空間直接部署之後 (也就是一旦健康服務已在執行中),請使用下列的 PowerShell cmdlet:

$MyXML = Get-Content <\\path\to\file.xml> | Out-String  
Get-StorageSubSystem Cluster* | Set-StorageHealthSetting -Name "System.Storage.SupportedComponents.Document" -Value $MyXML  
注意事項

型號、 製造商以及韌體版本屬性應該完全符合的值,取得使用 取得平均 cmdlet。 視您廠商的實作而定,這可能會與您一般預期的有所不同。 例如,製造商可能是 "CONTOSO-LTD",而,不是 "Contoso",或者當型號是 "Contoso-XZY9000" 時,製造商可能會是空白。

您可以使用以下 PowerShell Cmdlet 來驗證:

Get-PhysicalDisk | Select Model, Manufacturer, FirmwareVersion  

[設定]

許多參數,可以決定行為的健康情況服務已被公開為設定。 您可以修改這些微調硬性錯誤或動作的加強,請開啟 [開啟/關閉,特定行為及更多。

使用下列的 PowerShell cmdlet 設定或修改設定。

使用量

Get-StorageSubSystem Cluster* | Set-StorageHealthSetting -Name <SettingName> -Value <Value>  

範例

Get-StorageSubSystem Cluster* | Set-StorageHealthSetting -Name "System.Storage.Volume.CapacityThreshold.Warning" -Value 70

常見的設定

一些常用修改過的設定,如下所示以及其預設值。

磁碟區容量閾值

"System.Storage.Volume.CapacityThreshold.Enabled"  = True
"System.Storage.Volume.CapacityThreshold.Warning"  = 80
"System.Storage.Volume.CapacityThreshold.Critical" = 90

集區保留容量閾值

"System.Storage.StoragePool.CheckPoolReserveCapacity.Enabled" = True

實體磁碟週期

"System.Storage.PhysicalDisk.AutoPool.Enabled"                             = True
"System.Storage.PhysicalDisk.AutoRetire.OnLostCommunication.Enabled"       = True
"System.Storage.PhysicalDisk.AutoRetire.OnUnresponsive.Enabled"            = True
"System.Storage.PhysicalDisk.AutoRetire.DelayMs"                           = 900000 (i.e. 15 minutes)
"System.Storage.PhysicalDisk.Unresponsive.Reset.CountResetIntervalSeconds" = 360 (i.e. 60 minutes)
"System.Storage.PhysicalDisk.Unresponsive.Reset.CountAllowed"              = 3

支援的元件文件

請參閱上一節。

韌體推出

"System.Storage.PhysicalDisk.AutoFirmwareUpdate.SingleDrive.Enabled"       = True
"System.Storage.PhysicalDisk.AutoFirmwareUpdate.RollOut.Enabled"           = True
"System.Storage.PhysicalDisk.AutoFirmwareUpdate.RollOut.LongDelaySeconds"  = 604800 (i.e. 7 days)
"System.Storage.PhysicalDisk.AutoFirmwareUpdate.RollOut.ShortDelaySeconds" = 86400 (i.e. 1 day)
"System.Storage.PhysicalDisk.AutoFirmwareUpdate.RollOut.LongDelayCount"    = 1
"System.Storage.PhysicalDisk.AutoFirmwareUpdate.RollOut.FailureTolerance"  = 3

平台 / Quiescence

"Platform.Quiescence.MinDelaySeconds" = 120 (i.e. 2 minutes)
"Platform.Quiescence.MaxDelaySeconds" = 420 (i.e. 7 minutes)

衡量標準

"System.Reports.ReportingPeriodSeconds" = 1

偵錯

"System.LogLevel" = 4

另請參閱

© 2017 Microsoft