Cluster Fault Domains & Site Awareness

Mit Windows Server 2016 werden zwei neue Optionen eingeführt, die einen Betrieb von Failover Clustern in Rechenzentren vereinfachen und bereichern: Site Awareness und Fault Domain Awareness.

Site Awareness und Fault Domain Awareness
Cluster Knoten in einem Clusterverbund, die örtlich verteilt betrieben werden, sei es in verschiedenen Brandabschnitten, Räumen, Gebäuden oder Städten, können nun über Bordmittel entsprechend konfiguriert werden.
So können bei einem 4-Knoten-Cluster zwei der Knoten einer Örtlichkeit „A“ (Site) zugewiesen werden, die zwei verbleibenden der Örtlichkeit (Site) „B“.

Falls eines der beiden RZs oder Räume lediglich passive Standby-Knoten als Hot Standby Server beherbergen soll, so kann dem Rechnung getragen werden: Mittels „Preferred Site“ kann konfiguriert werden, dass es eine primary Site gibt, die die Ressourcen bevorzugt hosten soll. Dies kann per Powershell Kommando „(Get-Cluster).PreferredSite“ definiert werden und stellt sicher, dass der Cluster nach einer geplanten Wartung wieder alle Ressourcen an der bevorzugten Site betreibt. Dies betrifft auch das Quorum, das bevorzugt an der primären Site gehostet wird.

Der Cluster erhält damit auch ein Mittel, um zu erkennen, ob eine Site verfügbar oder in Gänze ausgefallen ist.

Rack und Blade Server Awareness
Die Entitäten Node, Chassis, Rack und Site sind konfigurierbar.
Damit kann man auch von einer Rack Awareness sprechen – selbst Chassis sind definierbar: Das ist vor allem für den Einsatz von Blade Servern sinnvoll, bei denen mehrere Clusterknoten in demselben Chassis laufen und eine Verteilung auf mehrere Chassis gewünscht ist.

Bei Bedarf kann auch eine absichtliche Verteilung von Ressourcen-Gruppen desselben Clusters auf zwei unterschiedliche Sites erreicht werden – dies erfolgt ebenfalls mittels PowerShell, hier lautet das passende Kommando „(Get-ClusterGroup -Name {RessourcenGruppeA}).PreferredSite“.

Folgende Regeln hält dabei ein Cluster ein:
– Bei einem Fehler bzw. Ausfall eines Knotens in Site A wird zuerst versucht die Ressourcen auf einen weiteren Knoten derselben Site zu schwenken. Dies betrifft auch geplante Aktionen wie ein Node Drain, auch hier werden Knoten derselben Site bevorzugt genutzt.
– Bei einem Fehler bzw. Ausfall einer VM auf einem Hyper-V Cluster wird zuerst versucht die VM auf einen Knoten zu schwenken, der derselben Site wie die Storage angehört.

Die Site Awareness wird über sogenannte Fault Domains realisiert, daher lautet der Name für dieses neue Windows Server 2016 feature: Fault Domain Awareness.

Im Prinzip erhält damit ein Windows Cluster über einfach zu konfigurierende Mittel eine gewisses Maß an Eigenintelligenz, um zu entscheiden, wann Ressourcen im gleichen Brandabschnitt, Raum oder RZ verfügbar gehalten werden sollen und an welcher Stelle ein geordneter Schwenk zu einer weiteren Örtlichkeit sinnvoll ist.

Cosmos Darwin hat das Feature hier vorgestellt:
https://technet.microsoft.com/(…)/fault-domains

Dieses Feature macht ein Clustern von Blade Servern erst sinnvoll.

Eine echte Bereicherung für den stabilen Betrieb von Stretched-, Metro- oder Geo-Clustern.

Stay tuned,
N.Own