Overview of Windows Server 2008 Kernel Changes - Mark Russinovich

[アーティクル]
08/25/2016

特集 : Windows Server 2008

Windows Server 2008 カーネルの変更について

Mark Russinovich

概要:

メモリ管理と SMB 2.0
NTFS 自己復旧、Windows Hardware Error Architecture、およびドライバの検証ツール
I/O 完了ポート、スレッドプール、および NUMA によるスケーラビリティの向上
Hyper-V による仮想化

Windows Server 2008 は、マイクロソフトサーバープラットフォームの最新リリースです。Windows Server 2008 には、オペレーティングシステムの機能領域すべてに及ぶシステムレベルの変更が施されています。たとえば、メモリ管理、スレッドのスケジュール、ネットワーク、セキュリティなど、

影響のある機能領域は多岐に渡ります。

Windows Server® 2008 のカーネルは Windows Vista® SP1 と同じなので、Windows Server 2008 には、私が以前に TechNet Magazine の記事「Windows Vista カーネルの内部」の第 1 ～ 3 部 (2007 年 2 月号、3 月号、4 月号) および「Windows Vista ユーザーアカウント制御の内部」(2007 年 6 月号) で取り上げた機能強化の多くが含まれています。これらの記事で説明した機能の中で、クライアント専用の機能で Windows Server 2008 に含まれていないのは、SuperFetch、ReadyBoost、ReadyDrive、ReadyBoot、マルチメディアクラススケジューラサービス (MMCSS) など、ほんの一部の機能です。

この記事では、Windows Vista で導入され、Windows Server 2008 でも導入されているカーネルの重要な変更 (I/O の優先順位付け、新しいブートアーキテクチャ、BitLockerTM、コードの整合性、必須整合性レベルなど) について再度説明するのではなく、信頼性、パフォーマンス、およびスケーラビリティに関連する変更、新しいマイクロソフトハイパーバイザコンピュータ仮想化テクノロジである Hyper-VTM など、これらの記事で取り上げなかった主要な変更に重点を置いて説明します。

また、以前の記事と同様、この記事で取り上げる範囲は、オペレーティングシステムのカーネル (Ntoskrnl.exe) および密接な関連があるシステムコンポーネントに限られます。インストール (WIM (Windows® Imaging Format) やコンポーネントベースサービシング)、管理 (グループポリシーや Active Directory® の機能強化)、全般的な診断や監視 (Windows 診断インフラストラクチャ)、コアネットワーク (ファイアウォールや TCP/IP の新しい実装)、Server Core、またはサーバーの役割への変更などについては、取り上げません。

マルチプロセッサシステムで機能する

システムの低レベルでの変更の 1 つは、Windows Server 2008 にはマルチプロセッサシステムで機能するように設計されたバージョンのカーネルのみが搭載されるということです。以前は、CPU が 1 基だけ搭載されているコンピュータを対象としたユニプロセッサ専用バージョンの Windows が使用されていました。このバージョンでは、マルチプロセッサ環境でのみ必要となる同期コードが省略され、パフォーマンスを少し向上させることができました。ただし、ハードウェアの速度の向上により、最適化によるパフォーマンス上のメリットは、ごくわずかになりました。また、現在ではほとんどのサーバーシステムに複数のプロセッサが搭載されています。これらの理由により、ユニプロセッサバージョンは不要になりました。

図 1 に、さまざまな Windows Server 2008 カーネルを示します。オペレーティングシステムはデバッグ (チェック) 版と製品版のどちらであるか、インストールは 32 ビットと 64 ビット (Itanium、Intel 64、または AMD64) のどちらであるか、さらに、32 ビットインストールの場合は、システムの物理メモリのサイズが 4 GB を超えるか、またはシステムがデータ実行防止 (DEP) をサポートしているかによって、システムで使用されるバージョンが決まります。また、Windows Server 2008 は、32 ビット版の Windows Server オペレーティングシステムが提供される最後のバージョンであることが予想されています。

Figure 1 さまざまな Windows Server 2008 カーネル

カーネル	32 ビット	64 ビット
マルチプロセッサ	○	○
マルチプロセッサ、チェック版	○	○
マルチプロセッサ、物理アドレス拡張 (PAE)	○	×
マルチプロセッサ、PAE、チェック版	○	×

Windows Server のすべてのリリースでは、ファイルサービング、ネットワーク I/O、メモリ管理などの主要なサーバーシナリオのパフォーマンス向上に重点を置いてきました。さらに、Windows Server 2008 では、新しいハードウェアアーキテクチャの利用、待ち時間の長いネットワークへの適応、および以前のバージョンの Windows でパフォーマンスを制限していたボトルネックの解消を実現するための、いくつかの変更や新機能が用意されています。ここでは、メモリマネージャや I/O システムの機能強化を概説し、新しいネットワークファイルシステムである SMB 2.0 を紹介します。

メモリ管理

試してみよう : サイズの大きなディスク I/O を確認する

TechNet からダウンロードできる Sysinternals Process Monitor (technet.microsoft.com/sysinternals/bb896645.aspx) などのファイルシステム監視ツールを使用すると、Windows Server 2008 システムでサイズの大きなファイル I/O 処理を探すことができます。

サイズの大きな I/O を発生させる方法は、いくつかあります。Windows Vista Service Pack 1 または Windows Server 2008 を実行している別のシステムがある場合は、サーバー上で Process Monitor を実行して、別のシステムへのファイルコピー処理を監視することができます。また、通常、メモリを大量に使用するプログラムを実行すると、メモリマネージャによってページングファイルにページが書き込まれ、サイズの大きなページングファイル I/O を発生させることができます。

図 A に、メモリを大量に使用するプログラムを Windows XP システムで実行した後の Process Monitor の状態を示します。この例では、Process Monitor の [Options] (オプション) メニューの [Enable Advanced Output] (高度な出力を有効にする) をオンにし、また、ページングファイル (pagefile.sys) への書き込みだけを表示するようにフィルタを設定しました。[Detail] (詳細) 列では、書き込みのサイズが 64 KB であることが示されています。

図 A

図 A (画像を拡大するには、ここをクリックします)

同じ手順を Windows Server 2008 で実行すると、おそらく、図 B に示すような内容が表示され、ほとんどの書き込みのサイズが約 1 MB であることが示されています。

図 B

図 B (画像を拡大するには、ここをクリックします)

Windows Server 2008 では、メモリマネージャにパフォーマンス上の機能強化がいくつか施されています。たとえば、ページングファイルからデータを取得したり、マップされたファイルに対して先読み I/O を実行したりする際に、Windows Server 2008 のメモリマネージャが実行するディスク I/O は、Windows Server 2003 よりも、回数は少なく、サイズは大きくなります。ファイル I/O のサイズの増大は、Windows NT® の最初のリリース時から存在する 64 KB という I/O サイズの制限が廃止されたという、I/O システムの変更により実現されました。

また、キャッシュマネージャによる、先読み (推測的な読み取り) のための、マップされたファイルからのデータ読み取りのサイズは、通常、Windows Server 2008 では Windows Server 2003 の 2 倍のサイズであり、スタンバイリスト (システムのコードやデータのキャッシュ) の内容が直接読み取られることにも注意してください。この動作により、キャッシュマネージャでは、仮想メモリをマップしてデータをシステムのワーキングセット (メモリマネージャによってシステムに割り当てられたメモリ) に読み込むという処理が不要になります。以前の動作では、他の使用中のコードやデータが不必要にワーキングセットから削除される可能性がありました。

メモリマネージャでページングファイルにデータが書き込まれる際にも、サイズの大きな I/O が実行されます。Windows Server 2003 では 64 KB 未満の書き込みが行われることも珍しくありませんでしたが、Windows Server 2008 のメモリマネージャでは、通常、1 MB の書き込みが行われます。

ページングファイルへの書き込みの回数の減少によりパフォーマンスが向上することに加えて、書き込みのサイズが大きくなることによりページングファイル内の断片化が軽減されます。また、多くの場合、複数のページが近接するようになるので、複数のページを読み取るのに必要な読み取りの回数やディスクシークの回数が減少します。

メモリマネージャでは、所有プロセスのアドレス空間に書き込まれているページに近接している他の変更されたページの書き込みも行います。また、書き込みを行う際には、ページングファイルの他の近接しているページが既に存在する領域を対象とします。この動作によっても断片化が最小限に抑えられ、今後ページングファイルに書き込まれる可能性のあるページが既に書き込まれているので、パフォーマンスの向上にもつながります。さらに、近接しているプロセスページ範囲を読み取るのに必要な、ページングファイルの読み取りの回数が減少します。メモリマネージャによるサイズの大きな I/O の使用の詳細については、補足記事「試してみよう : サイズの大きなディスク I/O を確認する」を参照してください。

SMB 2.0

サーバーメッセージブロック (SMB) リモートファイルシステムプロトコルは、共通インターネットファイルシステム (CIFS) とも呼ばれ、ファイルサービング機能が Windows に導入されて以来、Windows のファイルサービングの基盤となっています。ただし、ここ数年間、SMB の設計上の制限によって、Windows のファイルサービングのパフォーマンスが制限され、新しいローカルファイルシステム機能が十分に活用されていませんでした。たとえば、1 つのメッセージで転送できる最大バッファサイズは約 60 KB で、SMB 1.0 では Windows Vista と Windows Server 2008 で導入された NTFS クライアント側シンボリックリンクには対応していませんでした。

Windows Vista と Windows Server 2008 では SMB 2.0 が導入されています。これは、クライアントとサーバーの両方でサポートされる場合に Windows で使用される新しいリモートファイルサービングプロトコルです。SMB 2.0 では、クライアント側シンボリックリンクと他の NTFS 機能強化が適切に処理されることに加えて、クライアントとサーバーの間で交換されるメッセージの数を最小限に抑えるためにバッチ処理が使用されます。バッチ処理を使用すると、一度にやりとりできるデータの量が多くなるので、ワイドエリアネットワーク (WAN) など、待ち時間の長いネットワークでのスループットが向上します。

SMB 1.0 では 1 つのファイルに対する I/O は逐次的に実行されましたが、SMB 2.0 では、I/O のパイプライン処理が実装されているため、同じファイルに対して複数の I/O を同時に実行することができます。また、パイプラインの深さの程度を判断するために、クライアントがサイズの大きな I/O に使用するサーバーメモリの量が測定されます。

Windows I/O メモリマネージャと I/O システムの変更、TCP/IP 受信ウィンドウ自動チューニングの変更、およびファイルコピーエンジンの強化により、SMB 2.0 では、スループットが大幅に向上し、サイズの大きな転送においてファイルのコピーにかかる時間が短縮されます。Windows Server 2008 ファイルサーバーを Windows Vista クライアントと共に展開すると、両方のオペレーティングシステムで SMB 2.0 が実装されるので、SMB 2.0 を使用することができ、このようなパフォーマンス上のメリットを享受できます。

NTFS 自己復旧による信頼性の強化

信頼性はサーバーの重要な特質であり、Windows Server 2008 では、オンラインの NTFS 整合性修復、新しいハードウェアエラー報告インフラストラクチャ、ドライバの検証ツールの機能拡張など、管理者がサーバーの正常な稼動状態を維持するのに役立つさまざまな機能強化が施されています。

現在の数テラバイト (TB) ものサイズがある記憶装置では、整合性チェックを行うためにボリュームをオフラインにすると、サービスが数時間停止することになります。ディスク破損の原因の多くは 1 つのファイルやメタデータの一部に限局されるという事実により、Windows Server 2008 では、ボリュームがオンライン状態のときに破損を修復する新しい NTFS 自己復旧機能が実装されています。

この NTFS 自己復旧機能により破損が検出されると、破損したファイルへのアクセスが阻止され、破損したデータ構造に対して Chkdsk のような修復を実行するシステムワーカースレッドが作成されます。修復が完了すると修復されたファイルにアクセスできるようになります。この処理の間も他のファイルには通常どおりアクセスすることができるので、サービスの中断は最小限に抑えられます。

WHEA インフラストラクチャ

Windows Server 2008 に組み込まれている Windows Hardware Error Architecture (WHEA) インフラストラクチャを使用すると、ハードウェア障害の管理が簡略化され、致命的でないエラーに事前に対応できるようになります。多くの場合、高い稼働率が要求されるサーバーシステムでは、タイムリーにエラーを特定して対応することが非常に重要です。

オンラインクラッシュダンプ解析サービス (OCA) を通じてマイクロソフトに送信されたクラッシュの分析から、オペレーティングシステムのクラッシュの約 10% はハードウェア障害によるものであることが判明しています。しかし、クラッシュ時にハードウェアから提供されるエラー情報は不十分なので、このようなクラッシュの根本原因を突き止めることは困難または不可能でした。また、Windows Server 2008 よりも前のバージョンの Windows では、デバイスの状態の監視は組み込みでサポートされておらず、差し迫っている障害の修復や通知は実装されていませんでした。これは、ハードウェアデバイスでは共通のエラー形式が使用されておらず、エラー管理ソフトウェアがサポートされていないことが原因でした。

WHEA では、エラーソースの発見と報告の統一メカニズムをプラットフォームデバイス (プロセッサ、メモリ、キャッシュ、PCI や PCI Express などのバスを含む) に提供します。これは、図 2 に示すアーキテクチャが WHEA に実装されることにより実現されます。ここで中核となるのは、エラーソースがエラーを報告するために呼び出すカーネル API です。この API を使用するには、すべてのエラーが共通の形式になっている必要があります。この API では、Event Tracing for Windows (ETW) イベントを使用してエラーがログに記録されます (致命的なエラーは再起動後にログに記録されます)。

図 2 WHEA エラー報告インフラストラクチャ

図 2** WHEA エラー報告インフラストラクチャ **(画像を拡大するには、ここをクリックします)

ETW は Windows 2000 で導入されました。WHEA で ETW が使用されることにより、ハードウェアメーカーやソフトウェアベンダは、WHEA イベントを使用するデバイス診断管理アプリケーションを容易に開発できるようになります。発生したイベントがシステムのクラッシュの原因となるほど重大度が高い場合は、管理者がクラッシュの根本原因を特定できるように、WHEA によって致命的なエラーの記録がクラッシュダンプファイルに保存されます。

WHEA のもう 1 つの主要な要素は、%Systemroot%\System32\Pshed.dll に含まれているプラットフォーム固有のハードウェアエラードライバ (PSHED) です。カーネルは PSHED と連携して、プラットフォームおよびファームウェアハードウェアとのインターフェイスとなって、実質的には、このエラー通知と WHEA エラー報告 API との間の変換層としての機能を果たします。マイクロソフトでは、各プラットフォームアーキテクチャ (x86、x64、Itanium) 用の PSHED を用意しています。また、PSHED では、ハードウェアベンダやメーカーが既定の動作を各社のプラットフォームに固有の動作で置き換えることができるように、プラグインモデルを公開しています。

また、他のエラーソースとのインターフェイスとなるシステムコンポーネント (デバイスドライバ、ハードウェアアブストラクションレイヤ (HAL)、カーネルなど) には、エラー状態を最初に処理する低レベルハードウェアエラーハンドラ (LLHEL) を実装することができます。LLHEL の役目は、デバイスからエラー情報を抽出し、追加のプラットフォームエラー情報の収集を許可するよう PSHED に通知し、カーネルの WHEA エラー報告 API を呼び出すことです。

ドライバの検証ツール

ドライバの検証ツールは、Windows 2000 以降のすべての Windows に組み込まれている、バグのあるデバイスドライバや欠陥のあるハードウェアを突き止めるための強力なツールです。通常、管理者は、システムのクラッシュを引き起こした可能性があるデバイスドライバの動作を厳重に監視するようにドライバの検証ツール (%Systemroot%\System32\Verifier.exe) を構成します。ドライバの検証ツールを使用すると、不適切なドライバ操作が検出され、問題があるものをクラッシュダンプファイルで直接特定できます。

以前のドライバの検証ツールには、ほとんどの構成変更でシステムの再起動が必要になるという欠点がありました。これは、運用サーバーでは明らかに望ましくない動作です。Windows Server 2008 で実装されたドライバの検証ツールでは、この処理が改善され、再起動が不要になり、最も実用的な検証が実現されます。この動作により、問題のあるサーバーを再起動せずにトラブルシューティングを行うことが可能になります。

また、ドライバの検証ツールには、図 3 に示す 3 つの新しい検証機能が導入されています。セキュリティの検査を使用すると、デバイスドライバがアプリケーションとのインターフェイスに使用するオブジェクトに、過不足ないアクセス許可が設定されます。保留中の I/O 要求の強制を使用すると、遅れてではなく直ちに完了する非同期 I/O 処理に対する、ドライバの回復性が検査されます。その他の検査を使用すると、使用中のリソースを間違って解放しているドライバ、Windows Management Instrumentation (WMI) 登録 API を不適切に使用しているドライバ、およびリソースハンドルをリークしているドライバを検出できます。

図 3 Windows Server 2008 で導入されたオプションがオンになった状態のドライバの検証ツール

図 3** Windows Server 2008 で導入されたオプションがオンになった状態のドライバの検証ツール **(画像を拡大するには、ここをクリックします)

スケーラビリティ

スケーラビリティとは、オペレーティングシステムやアプリケーションが複数のプロセッサや大量のメモリを効果的に利用する能力のことです。Windows では、新しいリリースのたびに、マルチプロセッサでの並列処理を減少させるロックの使用を最小限に抑えたり、廃止したりすることによって、スケーラビリティが向上しています。Windows Server 2008 も、この傾向の例外ではありません。

比較的小規模ですが重要な機能強化は、タイマを終了させるコードに実装されており、ディスパッチャロック (すべての低レベルの同期処理で使用される、システム全体に及ぶスケジューラロック) の取得が行われなくなりました。その結果、CPU の同期オーバーヘッドが削減され、Windows Server 2008 ターミナルサーバーシステムでは同時にサポートできるユーザーの数が Windows Server 2003 よりも約 30% 多くなります。

Windows Server 2008 での、スケーラビリティに関する他の機能強化には、完了ポートの機能拡張、スレッドプールの新しい実装、Non-Uniform Memory Access (NUMA) ハードウェアのより効率的な使用、システムの動的なパーティション分割などがあります。

I/O 完了ポート処理の強化

IIS、SQL Server®、Exchange Server など、スケーラブルな Windows サーバーアプリケーションのほとんどでは、I/O 処理を実行する際、複数の実行スレッド間の切り替えを最小限に抑えるために、完了ポートと呼ばれる Windows 同期 API を使用しています。これは、まず新しい要求の着信の通知 (Web サーバークライアントの接続など) を完了ポートと関連付け、通知を待機させるためのスレッドのプールを確保することによって行われます。要求が着信すると、スレッドがスケジュールされ、通常、そのスレッドによって、他の I/O 処理 (Web ページをディスクから読み取ってそれをクライアントに送信するなど) が実行され、要求が完了します。

同じスレッドができるだけ早くクライアント要求を待機している状態に戻ることができるように、スレッドは I/O を非同期に実行し、I/O の完了を完了ポートと関連付けます。次に、スレッドは完了ポートで待機している状態に戻り、新しい要求が着信するか I/O の 1 つが完了すると、スレッドがスケジュールされます。このようにして、同じスレッドが、クライアント要求の処理と完了ポートでの待機を交互に行いながら、CPU 上でアクティブな状態を維持します。

以前の Windows リリースの完了ポートには、I/O が完了すると、その I/O を実行したスレッドが他の処理を実行中でも、そのスレッドで直ちにちょっとした完了処理が実行されるという欠点がありました。また、他のスレッドがアクティブな場合は、アクティブなスレッドから I/O を実行したスレッドへのコンテキストの切り替えが頻繁に行われていました。

Windows Server 2008 では、この完了処理が、I/O が関連付けられている完了ポートで待機する次のスレッドで行われることによって、このようなコンテキストの切り替えが回避されます。したがって、完了ポートで待機する次のスレッドが別のスレッドである場合も、その別のスレッドは他のコードを実行する前に完了処理を実行するので、I/O を実行したスレッドへの切り替え処理は不要です。こうしてコンテキストの切り替えを最小限に抑えることで、負荷の高いサーバーアプリケーションのスケーラビリティが大幅に向上します。

より効率的なスレッドプール

複数の CPU を利用するアプリケーションを記述するのは難しい場合があるので、Windows XP では、ワーカースレッドプールが導入されました。これはインフラストラクチャと関連 API で、この API では小さな単位の作業を複数の CPU で実行する方法の詳細が抽象化されています。アプリケーションで作業項目をスレッドプール API に指定すると、この API では、システムに搭載されている各 CPU に対して作成および管理された複数のスレッドのうちの 1 つで作業項目を実行します。

スレッドプールは、同じスレッドを使用して複数の作業項目を連続して実行することにより、コンテキストの切り替えを最小限に抑えることを目的としています。スレッドの 1 つが既に他の作業を実行していてビジー状態になっているという理由で、同じスレッドを使用することができない場合、作業項目は、別の CPU の別のスレッドを使用して実行されます。

Windows Server 2008 のスレッドプールの実装では、CPU がより有効に利用されます。その間接的な理由は、完了ポートの機能強化によるメリットを享受するからです。また、直接的な理由は、アプリケーションのワークロードを処理する必要があるときにワーカースレッドが動的に使用されるように、スレッドの管理が最適化されるからです。さらに、インフラストラクチャの中核がカーネルモードに移行したので、API を使用するアプリケーションによるシステム呼び出しの回数が最小限に抑えられます。また、この新しい API を使用すると、アプリケーションでは、特定の処理 (アプリケーションのシャットダウン中にキューに格納された作業単位の実行を中止するなど) をより容易に実行できます。

NUMA の最適化

Windows Server 2003 では、NUMA コンピュータの最適化がスレッドスケジューラとメモリマネージャに導入されましたが、Windows Server 2008 では、NUMA の最適化が I/O マネージャでも行われるようになり、メモリマネージャによる NUMA の最適化が拡張されています。

通常、NUMA システムは、アクセスするプロセッサによってメモリの待ち時間が異なるマルチプロセッサシステムです (図 4 参照)。メモリはノードに分割されます。CPU からノードへのアクセスにかかる待ち時間はさまざまで、各 CPU は、その CPU が最速でアクセスできるノードの一部と見なされます。

図 4 NUMA システムの例

図 4** NUMA システムの例 **(画像を拡大するには、ここをクリックします)

NUMA システム、とりわけ搭載されている CPU の数が 8 基を超える NUMA システムは、多くの場合、均質メモリアクセス (Uniform Memory Access) システムよりもコスト効率やパフォーマンス効率が高くなります。均質メモリアクセスシステムでは、メモリはすべての CPU で同様に使用できる必要がありますが、NUMA システムでは、CPU に直接接続されているメモリに対しては高速な相互接続を実装し、直接接続されていない CPU やメモリに対しては安価で待ち時間の長い接続を実装することができます。

NUMA システムで高いパフォーマンスを実現するには、オペレーティングシステムやアプリケーションがノードトポロジに対応している必要があります。ノードトポロジに対応していると、処理は、データやコードが格納されているメモリの近くで実行されるようになります。たとえば、Windows スケジューラでは各スレッドに、"最適なプロセッサ" (スケジューラが常にそこでスレッドを実行しようとする CPU のこと) を割り当てます。このような割り当てにより、スレッドが CPU のキャッシュに格納するデータは、スレッドの実行時に、スレッドで使用できる確率が高くなります。

Windows Server 2003 のスケジューラでは、この概念が拡張され、最適なプロセッサが含まれているノードがスレッドに最適なノードと見なされます。また、最適なプロセッサが別のスレッドの処理でビジー状態になっている場合は、最適なノード内の別の CPU にスレッドをスケジュールします。Windows Server 2003 のメモリマネージャも NUMA に対応するようになり、可能であれば、スレッドに割り当てられているメモリをスレッドが実行されているノードのメモリに割り当てます。

Windows Server 2008 のメモリマネージャでは、カーネルの非ページメモリバッファ (RAM 内に確実に残るデータを格納するためにカーネルとデバイスドライバによって使用されるメモリ) がノード間で分配されます。そのため、スレッドには、ノードに割り当てられているメモリからメモリが割り当てられます。システムのページテーブルエントリ (PTE) は、メモリの割り当てに新しいページテーブルページが必要な場合は、割り当て元であるノードから割り当てられます。これは他のノードから割り当てられる Windows Server 2003 の場合と異なります。

Windows Server 2003 では、スレッドでメモリ割り当てを行う場合、メモリマネージャは、割り当て時にスレッドが実行されているノードを優先していました。スレッドが、少しの間、最適でないノードにスケジュールされると、その間に行われたすべての割り当ては、最適でないノードから割り当てられます。そのため、スレッドが後で最適なノードで実行されたときに、データやコードは割り当てられたメモリに格納されているので、近接した状態で実行されません。

この問題に対処するため、Windows Server 2008 のメモリマネージャでは、すべてのスレッドの割り当てで、スレッドの最適なノードが優先されるようになりました。スレッドが別のノードの近くで実行されている場合も同様です。また、メモリマネージャでは、プロセッサからノードへのアクセスにかかる待ち時間が自動的に計算されるので、使用できるメモリが最適なノードにない場合は、最適なノードの最も近くにあるノードがチェックされます。さらに、スレッドがコードやデータを参照するときには、スタンバイリスト内のページをスレッドの最適なノードに移動します。

割り当ての場所を制御する必要があるアプリケーションでは、新しい NUMA メモリ API を使用して、メモリ割り当て、ファイルマッピングビュー、およびファイルマッピングオブジェクト用の優先ノードを指定できます。ファイルマッピングに関連する割り当てでは、メモリマネージャは、マッピング処理でノードが指定されているかどうかをチェックし、次にファイルマッピングオブジェクトでノードが指定されているかどうかをチェックし、どちらでも指定されていない場合は、スレッドの最適なノードに割り当てます。

Windows Server 2008 より前のバージョンでは、記憶域 I/O やネットワーク I/O の割り込みおよび関連付けられた遅延プロシージャ呼び出し (DPC) は、I/O が開始されたノード以外のノードの CPU を含む任意の CPU で実行できました。そのため、I/O 処理で読み書きされるデータが、データへのアクセスが行われているノード以外のノードのメモリに存在することがありました。

この状況を回避するために、Windows Server 2008 の I/O システムでは、I/O を開始したノード内の CPU で DPC が実行されるようになります。また、PCI バス MSI-X (メッセージシグナル割り込み標準の機能拡張) をサポートしているデバイスが接続されたシステムでは、Windows Server 2008 の API を利用するデバイスドライバを使用し、I/O を開始したプロセッサで I/O の割り込み処理を実行して、I/O 完了をさらに限局することができます。

動的なパーティション分割

システムのスケーラビリティを向上させる方法の 1 つは、CPU やメモリなどのハードウェアリソースをシステムに動的に追加できるようにすることです。システムを再起動することなく、ハードウェアリソースを交換できる場合、この動的なリソース追加のサポートによりシステムの可用性も高まります。

Windows Server 2003 ではコンピュータの電源を入れたままでメモリを追加することができるので、動的なメモリをサポートしているサーバーでは管理者がメモリを追加すると RAM を使用できるようになりました。Windows Server 2008 では、動的なメモリのサポートが拡張され、メモリの交換が可能になりました。

エラー修正コード (ECC) による修正への依存度が高くなる RAM は、まったく機能しなくなる危険性があるので、コンピュータの電源を入れたままでのデバイス交換をサポートしているサーバーでは、Windows Server 2008 は、正常に機能していないメモリバンクから代替のメモリバンクにデータを透過的に移動することができます。これは、オペレーティングシステムの制御下にあるデータをまず移動し、次にハードウェアデバイスを低電力状態にすることでハードウェアデバイスを実質上停止し、メモリ内の残りのデータを移動し、最後に通常の運用を継続するためにデバイスに電力を再供給することによって行われます。

Windows Server 2008 では、コンピュータの電源を入れたままでプロセッサを追加または交換することもできます。コンピュータの電源を入れたままでデバイス交換を行うには、ハードウェアが予備の CPU という概念をサポートしている必要があります。これは、既存の CPU から障害の通知が生成されたときにオンラインで提供したり動的に追加したりすることができるもので、現在はハイエンドシステムのみで利用できます。Windows Server 2008 のスケジューラでは、正常に機能していない CPU での処理の速度を落とし、その処理を代替 CPU に移行します。その後で、正常に機能していない CPU を取り外して新しい CPU と交換することができます。

Windows Server 2008 では、コンピュータの電源を入れたままでプロセッサを追加することができるので、管理者は、ダウンタイムを発生させることなくサーバーの処理能力を上げられます。ただし、一部のアプリケーションでは、ブートセッションのために CPU の数が固定されていることを想定しているため、このような新しい CPU を使用できるのは、新しい API を通じて CPU の追加の通知を要求しているデバイスドライバやアプリケーションに限られます。たとえば、あるアプリケーションでは、各 CPU に対応する作業キューの配列を割り当てる可能性があり、その場合、スレッドでは、スレッドが実行される CPU に関連付けられたキューを使用します。スケジューラにより、アプリケーションのスレッドの 1 つが新しい CPU に配置されると、実在しないキューの参照が行われ、アプリケーションのデータが破損する可能性があり、おそらくはアプリケーションがクラッシュします。

SQL Server や Exchange Server など、マイクロソフトのサーバーベースのアプリケーションは CPU の追加に対応しており、システムプロセス、セッションマネージャ (%SystemRoot%\System32\Smss.exe)、汎用サービスホストプロセス (%Systemroot%\System32\Svchost.exe) などのいくつかの中核的な Windows プロセスも CPU の追加に対応しています。他のプロセスでも、Windows API を使用して、新しい CPU の追加の通知を要求することができます。新しい CPU を追加すると、追加が間近に迫っていることがデバイスドライバに通知され、CPU が起動されます。続いて、必要に応じて新しい CPU での操作を追跡するためにデータ構造を割り当てることができるように、新しい CPU を利用するように記述されたデバイスドライバとアプリケーションに通知されます。

コンピュータの仮想化

Windows Server 2008 より前のバージョンでは、マイクロソフトの仮想化製品 (Virtual Server 2005 を含む) は、図 5 に示すように、仮想化した環境をホストすることで実装されていました。ホストされる仮想化では、バーチャルマシンは、Virtual Machine Monitor (VMM) によって実装されます。VMM は、ホストオペレーティングシステムと同時に、通常はデバイスドライバとして実行されます。VMM はホストオペレーティングシステムのリソース管理とデバイスドライバに依存しているため、ホストオペレーティングシステムで VMM の実行がスケジュールされると、アクティブなバーチャルマシン (VM) 間で CPU が時間で分配されます。

図 5 ホストされているコンピュータの仮想化

図 5** ホストされているコンピュータの仮想化 **(画像を拡大するには、ここをクリックします)

Hyper-V (コードネーム Viridian) は、ハイパーバイザ仮想化を使用して実装されます。ハイパーバイザはすべてのハードウェアリソースを完全に管理下に置き、システムをブートし VM を制御する Windows Server 2008 オペレーティングシステムも実質的にはバーチャルマシン内で実行されます (図 6 参照)。

図 6 Hyper-V のアーキテクチャ

図 6** Hyper-V のアーキテクチャ **(画像を拡大するには、ここをクリックします)

ハイパーバイザでは、システムを複数の VM にパーティション分割することができ、Windows Server 2008 の起動インスタンスをマスタパーティション (ルートパーティション) として扱い、ディスク、ネットワークアダプタ、グラフィックプロセッサなどのハードウェアデバイスにルートパーティションから直接アクセスできるようにしています。ハイパーバイザでは、ルートパーティションにより、電源管理とハードウェアのプラグアンドプレイイベントへの対応が行われることを前提としています。ハイパーバイザは、子パーティションで開始されたハードウェアデバイス I/O をインターセプトし、それをルートパーティションに伝達します。ルートパーティションでは、ハードウェアへのアクセスに標準の Windows Server 2008 デバイスドライバを使用します。このように、Hyper-V を実行しているサーバーでは、Windows によるハードウェアデバイスのサポートを最大限に利用できます。

Hyper-V サーバーの役割を使用して Windows Server 2008 を構成すると、hypervisorimagelaunchtypeboot というブート構成データベース (BCD) 設定が auto に設定され、Hvboot.sys デバイスドライバが、ブートプロセスの早い段階で開始するように構成されます。このオプションが構成されると、仮想化に向けてシステムの準備が整えられ、%Systemroot%\System32\Hvax64.exe または %Systemroot%\System32\Hvix64.exe がメモリに読み込まれます。システムが実装している CPU の仮想化拡張機能が AMD-V の場合は前者、Intel VT の場合は後者が読み込まれます。

読み込みが完了すると、ハイパーバイザは、仮想化拡張機能によって Windows Server 2008 の下位に配置されます。ユーザーモードアプリケーションは x64 プロセッサの特権レベルのリング 3 を使用し、カーネルモードコードはリング 0 で実行されるので、ハイパーバイザは概念的な特権レベルのリング -1 で動作します (これは、ハイパーバイザはリング 0 で実行されているコードの実行環境を制御できることによるものです)。

Hyper-V 管理コンソールを使用して子パーティションを作成または起動すると、子パーティションは %Systemroot%\System32\Drivers\Winhv.sys ドライバを使用してハイパーバイザと通信します。このドライバでは、ドキュメントが公開されているハイパーコール API を使用して、特定の物理メモリサイズで特定の実行特性を備えた新しいパーティションを作成するようにハイパーバイザに指示します。ルートパーティションにある VM サービス (%Systemroot%\System32\Vmms.exe) は、子パーティションの状態を管理するために子パーティションそれぞれについて VM ワーカープロセス (%Systemroot%\System32\Vmwp.exe) を作成します。

子 VM オペレーティングシステムのパフォーマンスが向上する要因の 1 つは、Windows Server 2008 と Windows Vista の両方で啓発コードが実装されていることです。これは、マイクロソフトハイパーコール API を実装しているハイパーバイザ上でオペレーティングシステムが実行されている場合にのみアクティブになるコードシーケンスです。子 VM では、ハイパーバイザのサービスを直接要求することにより、ハイパーバイザが子オペレーティングシステムの目的を推測しなければならない場合に発生する仮想化コードのオーバーヘッドを回避します。

たとえば、(低レベルのマルチプロセッサ同期を実行する) スピンロックの啓発コードを実装していないゲストオペレーティングシステムは、他の仮想プロセッサがスピンロックを解放するのを待機するという指定された条件を満たせないループに陥ります。このループにより、ハイパーバイザが別の仮想プロセッサをスケジュールするまでハードウェア CPU の 1 つがビジー状態になることがあります。啓発コードが実装されているオペレーティングシステムでは、このようなループに陥りそうになると、スピンロックコードにより、ハイパーコールを通じてハイパーバイザに通知されます。その結果、ハイパーバイザでは、すぐに別の仮想プロセッサがスケジュールされ CPU 使用率の浪費を削減することができます。

Windows Server 2008 で VM のパフォーマンスが向上するもう 1 つの要因は、VM からデバイスへのアクセスが高速化していることです。"VM 統合コンポーネント" と総称される一連のコンポーネントを子オペレーティングシステムにインストールすると、パフォーマンスが向上します。

この統合コンポーネントをインストールせずに VM を実行すると、子オペレーティングシステムでは、ハイパーバイザが提供するエミュレートされたデバイス用のハードウェアデバイスドライバを構成します。デバイスドライバがハードウェアリソースにアクセスする際には、ルートパーティションに通知するためにハイパーバイザが介入する必要があります。ルートパーティションは、標準の Windows デバイスドライバを使用して子 VM のオペレーティングシステムの代わりにデバイス I/O を実行します。ディスクからの読み取りなどの高レベルな単独の I/O 処理では、個別のハードウェアアクセスが多数伴うことがあるので、ハイパーバイザやルートパーティションに対して、インターセプトと呼ばれる遷移が多数発生することがあります。

Windows Server 2008 では、バーチャルマシンバスドライバ (%Systemroot%\System32\Drivers\Vmbus.sys)、仮想サービスクライアント (VSC)、および仮想サービスプロバイダ (VSP) という 3 つのコンポーネントによって、インターセプトが最小限に抑えられます。統合コンポーネントを、サポートされているオペレーティングシステムの VM にインストールすると、VSC はデバイスドライバの役割を引き継ぎ、子 VM の Vmbus.sys ドライバのサービスを使用し、ハイパーコールとハイパーバイザのメモリ共有サービスを通じてルートパーティションのバーチャルマシンバスドライバに高レベルな I/O 要求を送信します。ルートパーティションでは、Vmbus.sys によって対応する VSP に要求が転送され、ルートパーティションのデバイスドライバを通じて標準の Windows I/O 要求が開始されます。

以上のように、Hyper-V ハイパーバイザベースの仮想化が導入された Windows Server 2008 は、マイクロソフトのコンピュータ仮想化戦略において重要な役割を果たします。こうした機能やその他の機能の詳細については、今年後半に発行を予定している、私の著書の次回エディション『Microsoft Windows Internals』を参照してください。

Mark Russinovich は、マイクロソフトのプラットフォーム & サービス部門に所属するテクニカルフェローです。また、『Microsoft Windows Internals』(Microsoft Press、2004) の共同執筆者であり、Microsoft TechEd や Professional Developer's Conference などの、IT カンファレンスや開発者向けカンファレンスで頻繁に講演を行っています。共同で設立した Winternals Software 社のマイクロソフトによる買収に伴い、マイクロソフトに入社しましたが、Sysinternals の設立者でもあり、同社では Process Explorer、Filemon、Regmon など、多くの人気のあるユーティリティを発表しています。

Figure 1 さまざまな Windows Server 2008 カーネル

その他のリソース