Isolated & Quarantined Nodes

Es gibt zwei neue Failover Cluster States mit der Einführung von Windows Server 2016: Isolated und Quarantined.
Was ist ein Knoten, der isoliert oder unter Quarantäne in einem Cluster steht?

Zuerst ist anzumerken, dass es sich um zwei unterschiedliche States handelt, die eine fehlerhafte Intra-cluster Kommunikation widerspiegeln.

Der Zustand eines Knotens im isolierten Status sagt aus, dass der Knoten nicht mehr aktiv am Cluster teilnimmt. Das kann auftreten, wenn ein Knoten die übrigen Clusterknoten nicht mehr erreicht und zuvor eine oder mehrere VMs gehostet hat. Der Zustand wird in der Failover Cluster Console angezeigt und ist nun keine unbehandelte Ausnahme mehr.
Der Clusterdienst reagiert entsprechend und nimmt einen Knoten gegebenenfalls selbstständig in den Status „isolated“.
Es werden keine Ressourcengruppen mehr auf diesen Knoten verschoben, so dass der Knoten nicht mehr aktiv an einem Cluster teilnimmt.

Ein Knoten, der unter Quarantäne steht, kommt in diesen Status, wenn er z.B. drei mal innerhalb einer Stunde den Cluster unsauber verlassen hat. Es wird davon ausgegangen, dass der Knoten ein Hardware- oder sonstiges Problem hat, das ihn zwar teilweise funktional lässt, aber dennoch persistente Fehler zeigt.
Ein sogenannter „dirty node“ wird dadurch für 2 Stunden aus der Mitgliedschaft zu einem Cluster ausgeschlossen („quarantined“); die gehosteten VMs werden im laufenden Betrieb auf einen aktiven Knoten verschoben.
Dieser Status wird ebenfalls in der Console angezeigt und von einem Clusterdienst selbstständig erkannt und ausgelöst. Er kann als Folge des Zustands der Isolation eines Knotens auftreten.

Weiterhin gibt es einen neuen State, der den Ressourcentyp einer virtuellen Maschine (VM) betrifft: Unmonitored.
Dabei kann eine VM in den Unmonitored Status übergehen, wenn der Cluster den Zustand der VM auf Grund von Fehlern auf einem Knoten nicht mehr überwacht. Auch diesem Zustand wird Rechnung getragen und zur Anzeige in der Failover Cluster Console gebracht.
Dieser Status kann als Folge eines isolierten Knotens auftreten, auf dem die VM dann als „unmonitored“ markiert wird.

Hier der Microsoft Blog Artikel, mit dem die neuen Funktionen angekündigt werden:
» https://blogs.msdn.microsoft.com/(…)virtual-machine-compute-resiliency(…)

Es sind dort auch Parameter beschrieben, mit denen die Funktionen im Detail auf die eigene Umgebung angepasst werden können. Die Konfiguration kann per PowerShell durchgeführt werden und betrifft vor allem Schwell- und Timeout-Werte.

Die neuen, erweiterten Failover Cluster States von Windows Server 2016 helfen letztendlich die Stabilität des Clusters einzuschätzen und zu erhöhen, vormals unbehandelte Fehler werden auf diese Weise automatisch erkannt und angezeigt. Ebenso werden unsaubere Knoten automatisch für einen gewissen Zeitraum ausgeschlossen.
Das erhöht die Belastbarkeit eines Clusters und vermeidet unschöne Folgefehler, Microsoft spricht hier von „Virtual Machine Compute Resiliency“ – also von einer höheren Elastizität für vorübergehende Fehler eines Knotens.

Stay tuned,
N.Own