Recommended W2K3 SP2 Cluster Hotfixes

Nebst der Liste empfohlener Hotfixe für Windows 2000 Server und Windows Server 2003 SP1 Cluster gibt es inzwischen auch eine Liste empfohlener Hotfixe für Windows Server 2003 SP2 Cluster:

» Recommended hotfixes for Windows Server 2003 Service Pack 2-based server clusters

Ende letzter Woche wurde die Liste aktualisiert. Diese Liste sollte jeder Cluster Admin im Auge behalten und die Nodes entsprechend patchen.

Stay tuned,
N.Own

Hidden or Ghosted Network Adapter

Was tun, wenn nach einem Netzwerkkartentausch noch die alten TCP/IP Einstellungen im System vorhanden sind?

Dabei kann es zu folgender Fehlermeldung kommen:

The IP address XXX.XXX.XXX.XXX you have entered for this network adapter is already assigned to another adapter Name of adapter. Name of adapter is hidden from the network and Dial-up Connections folder because it is not physically in the computer or is a legacy adapter that is not working. (…)

Man kann sich die alte, nun versteckte Netzwerkkarte über den Device Manager wie folgt anzeigen:

1. Start > Run > cmd.exe
2. Umgebungsvariable über folgenden Befehl setzen:

set devmgr_show_nonpresent_devices=1

3. Device Manager in diesem Kontext aufrufen (nicht über die GUI!):

start devmgmt.msc

4. Im Gerätemanager über Menü ‚View‘ >
‚Show Hidden Devices‘ alle Geräte einblenden
5. Ausgegraute (physikalische) Netzwerkadapter deinstallieren

Nun sind die Überreste der alten Netzwerkkarte und deren Einstellungen gelöscht.

Diesen Tipp nutze ich schon seit vielen Jahren, ich habe das Verhalten bei vielen Systemen seit Windows 2000 beobachtet.

Es gibt zwei KB Artikel, die mir dazu bekannt sind – einen für Windows 2000 Server und einen für Windows Server 2003:

» Device Manager Does Not Display Devices Not Currently Present in Windows 2000 (KB 241257)

» Error message when you try to set an IP address on a network adapter (KB 269155)

Stay tuned,
N.Own

Cluster Knoten deinstallieren

Wie deinstalliert man eigentlich einen Clusterknoten rückstandslos?

Folgende Vorgehensweise über den Cluadmin empfiehlt sich, um einen Knoten zu deinstallieren:

  1. Ressourcen auf passiven Knoten schwenken
  2. Cluster Knoten anhalten: „Stop the Cluster Service“
  3. Knoten evicten: „Evict Node“

Das führt dazu, daß der Knoten entfernt wird und alle Clusterspezifischen Einstellungen gelöscht werden.
Der Clusterdienst an sich gehört zum Funktionsumfang eines Windows Servers und bleibt erhalten.

Falls dies fehlschlägt, kann die Kommandozeilen-Option forcecleanup gewählt werden:

cluster node nodename /forcecleanup

Vorsicht: Diesen Befehl keinesfalls auf einem aktiven Node ausführen. KB 282227 beschreibt diese Optionen:
» How to Uninstall the Cluster Service

Sinn macht ein forcecleanup auch, falls der Knoten ursprünglich mal einem anderen Cluster (KB 555216) angehört hat oder das evicten nicht vollständig abgeschlossen wurde.

Stay tuned,
N.Own

Resource oder Ressource?

Im Deutschen heißt die englischsprachige „Resource“ an sich „Ressource„. Solange man über Cluster Ressourcen spricht, fällt das nicht großartig auf – ist es mir bisher auch nicht.

Im Zuge des Blogs ist mir erst die unterschiedliche Schreibweise, je nach Sprache, aufgefallen.
MS selbst deutscht diese Begriffe in TechNet oder KB Artikeln ein.

Stay tuned,
N.Own

Cluster Ressource pending on-/offline

Im Fehlerfall kann es vorkommen, daß eine einzelne Cluster Ressource über den als Pending Timeout definierten Zeitraum hinaus im Status On- oder Offline Pending verbleibt.
Die entsprechende Ressource DLL gibt weiterhin Statusmeldungen an den Ressource Monitor zurück, so daß der Status in diesem Fall weiterhin bestehen bleibt.
Siehe dazu auch folgenden Beitrag: https://www.cluadmin.de/giving-a-reprieve-for-resource-p104/

Um den Zustand zu beenden, kann man einen manuellen Failover initiieren:

» Cluster Resource Appears to Stop Responding in an Online Pending State…

Der KB Artikel zeigt dazu zwei Lösungsmöglichkeiten auf:

  1. Initiieren eines Failovers über den Cluster Administrator
  2. Dazu sucht man sich eine Ressource in der gleichen Gruppe, die online ist, wie zB. eine IP Ressource und initiiert über ‚Initiate Failure‘ einen Failover

  3. Initiieren eines Failovers über die cluster.exe
  4. cluster res "ResourceName" /fail

Ein weiterer Fehlerfall zB. beim Neueinrichten einer Applikation kann ebenfalls dazu führen. Ein Löschen der Ressource zur Neukonfiguration ist dann im Status On-/Offline Pending nicht möglich.
Eine praktikable Möglichkeit dies zu lösen ist das Offlineschalten der Ressourcen einer Gruppe:

1. Auswählen aller Ressourcen in der Gruppe
2. Über Rechtsklick ‚Take Offline‘ alle Ressourcen offline nehmen
3. Hängende Ressource löschen und mit korrekten Parametern neu einrichten

Stay tuned,
N.Own

Delayed Write Failed

Eine der unbeliebtesten Fehlermeldungen, die einem Cluster Admin widerfahren kann, ist die Meldung „Delayed Write Failed„. Diese Meldung besagt, daß Windows Daten im Speicher nicht mehr auf eine Storage schreiben kann, weil diese nicht mehr zur Verfügung steht. Das bedeutet kurz gesagt: Datenverlust („The data has been lost“).

Das rührt daher, wenn ein Storage Treiber, in der Regel ein Storport Miniport Treiber, nicht rechtzeitig oder gar nicht mehr reagiert oder die Storage nicht mehr adäquat reagiert.
Das wiederum kann am Storport Miniport Treiber, an einem File System Filter Treiber liegen oder an der Hardware, sprich dem Controller oder den Array Komponenten bzw. den SAN Komponenten.

Events
Typische Events dazu im Cluster sind Event ID 9, 11, 15 sowie Event ID 50. Diese Event IDs sind kritische Fehler und sollten mit in das Monitoring aufgenommen werden.

» Troubleshooting event ID 9, 11, and 15 on Cluster Servers

» How to troubleshoot event ID 9, event ID 11, and event ID 15

Folgender KB Artikel hilft einem den error message dump zu dekodieren:
» Format of event log data created by ScsiPortLogError

Nachfolgend erscheint Event ID 50: Delayed Write Failed (IO_LOST_DELAYED_WRITE), ein Datenvolume oder die ganze Storage ist nicht mehr erreichbar. Windows kann empfangene oder verarbeitete Daten nicht mehr auf das Volume speichern, sprich: Irreparabler Datenverlust.

» Description of the Event ID 50 Error Message

Recovery
Den Cluster nun wieder betriebsbereit zu bekommen bedeutet zuerst das Storage Device, die Controller und alle Array bzw. SAN Komponenten zu prüfen sowie ggf. den Storage Treiber und die verwendeten File System Filter Treiber.
Erst danach kann man zu einem Recovery übergehen, denn bevor die Storage nicht wieder 100%ig ohne Fehler verfügbar ist macht die Wiederinbetriebnahme des Clusters keinen Sinn – der Fehler kann jederzeit wieder auftreten.

Stay tuned,
N.Own

Windows Compute Cluster Server in Top500 Liste

Leise, still und heimlich hat sich ein Windows Compute Cluster Server 2003 System in die Top500.org Liste der HPC Boliden eingereiht: Microsoft hat Ihr System „Rainier“ in’s Rennen geschickt und hält momentan mit ~9 TFLOPS Platz 106 der weltschnellsten Supercomputer:

» http://www.top500.org/site/systems/2748

» Datenblatt mit weiterführenden Informationen im PDF Format

Stay tuned,
N.Own