Automatische Serverabschaltung

  • Das Probem mit der Klimanlage ist das ich unterstellen muss, das ein Defekt an der Klimatechnik immer dann auftritt, wenn niemand zu erreichen ist. Deshalb brauche ich auch eine vollautomatische Einrichtung.


    Weiterhin ist bis jetzt noch nicht einmal klar, ob die Server (eine ganze Menge davon in einem Raum) ein ordnungsgemäßes Herunterfahren überleben. Selbst wenn dieser Prozess unmittelbar nach Beginn der Störung eingeleitet wird, so steigt doch durch die Wärmelast die Raumtemperatur immer weiter. Soweit ich inzwischen rausbekommen habe, ist ab ca. 40 Grad Celsius mit Hardwareschäden zu rechnen.


    Deshalb kam mir die Idee, ob es dann nicht doch besser ist, mit einem Datenverlust zu leben, als mit einem totalen Ausfall aller Geräte (das ist für mich dann der GAU).


    Ein oder zwei MB oder auch noch größere Datenmengen kann man immer wieder nacherfassen. Einen neuen Server kann ich aber nicht an jeder Straßenecke kaufen. Und ich rede hier nicht nur von einem Server.;)


    Aber die Links zu den Raumtemperaturüberwachungen und automatischen Abschaltungen helfen mir schon sehr.


    Edit: Leider funzt die Seite von bachert.de nicht, entweder räumen die gerade auf der Homepage auf, oder es geht mal wieder mit Netscape nicht.

  • T-bold47


    Also, da wir ja gerade selbst vor der Problematik stehen (siehe auch hier ), kann ich Dir gerne sagen, wie das bei unseren Servern geregelt sein wird:


    Bei uns ticken zwei redundante Novell 6 Server, jeweils in separaten Räumen mit separaten 19-Zoll-Racks und einer eigenen USV. Die USV leitet quasi den Strom an den Server durch und hängt mit einer Steuerleitung an einem seriellen Port des Servers. Wenn jetzt die USV bemerkt, daß der Strom ab - oder ausfällt, sendet sie einen entsprechenden Interrupt an Novell. Das im Kern mitlaufenden NLM (Netware loadable module) registriert diese Interrupt-Anforderung, terminiert daraufhin die Connects, sichert flüchtige Daten und fährt den Server kontrolliert runter - so treten keine Datenverluste auf. Der gesamte Vorgang vom Erkennen durch die USV bis zur Selbstabschaltung des Servers dauert ca 6-7 Minuten. Nicht berücksichtigt ist jetzt hier die mögliche Kapazität der USV, den Server noch weiter unter Vollast fahren zu können - das hoffen wir auf minimal 20 Minuten sichern zu können. Damit wäre schon mal der Punkt geklärt, was im Falle eines langen Stromausfalles passiert - sowohl ein Hardwareschaden als auch ein Datenverlust werden so beinahe ausgeschlossen, da die USV selbstverständlich auch Stromschwankungen filtert, so daß der Server keine Überspannung bekommen kann.


    Die Sache mit Überhitzungsschäden ist anders geregelt: Hier stehen die Server im geschlossenen 19er Rack zusammen mit den Switchen und Patchpanels. Die Racks selbst haben für den Fall eines Brandes eine Halogen-Löschanlage, die deshalb effektiv arbeiten kann, weil eben die Racks selbst dicht sind.
    Aber damit es erst nicht zu einem Brand kommen kann, haben die Racks selbststeuernde Klimaanlagen. Sensoren in den Servern und der übrigen Peripherie prüfen ständig die Betriebstemparatur und regeln bei Bedarf die Klimaanlage - und das schnell. Zudem kann diese Sensorik beim Überschreiten eines Schwellwertes wiederum die USV aktivieren, damit diese dann den oben beschriebenen Interrupt auf den Novell-Server sendet und dieser sich runterfährt. Die permanent gehaltene Betriebstemparatur beträgt 12 Grad.
    Das Problem sind hier tatsächlich die Klimaanlagen - diese werden bei uns auch redundant ausgelegt, so daß beim Ausfall einer Anlage das Backup-System anläuft. Daß eine Betriebstemparatur von 40 Grad bereits Schäden verursacht, stimmt so nicht. Erstens weißt Du ja selbst, daß die modernen CPUS oft an den 60 Grad betreiben werden, zweitens sind alle Platten in den System selbst aktiv gekühlt und drittens geht es uns primär um die Daten - ein (wenn auch äußerst unwahrscheinlicher) Verlust der gesamten Hardware käme uns aller Voraussicht nach um einiges billiger als der Verlust der Daten.


    Luposen


    Edit: Nach Carstens Posting fällt es mir wie Schuppen aus den Haaren "schüttel" Ich habe jetzt ganz die Benachrichtigung vergessen! Logisch, die gibt es auch - bei uns beschwert sich dann per SMS der Steuerrechner, der oben im Büro steht, wenn einer der beiden Server aussteigt.

    Handys sind die einzigen Objekte, bei denen Männer sich streiten, wer das kleinere hat.

  • Zitat

    Original geschrieben von T-bold47
    Das Probem mit der Klimanlage ist das ich unterstellen muss, das ein Defekt an der Klimatechnik immer dann auftritt, wenn niemand zu erreichen ist. Deshalb brauche ich auch eine vollautomatische Einrichtung.


    Der Sinn einer USV ist ja nicht nur, die Kisten bei Problemen runterzufahren und dann im Zweifelsfall übers Wochenende eine Downtime zu fahren. Da muss natürlich eine entsprechende Benachrichtigung an jemanden erfolgen. Je nach an der USV angeschlossener Peripherie erfolgt dies per Email, Funkmeldung, SMS usw.


    Zitat


    Weiterhin ist bis jetzt noch nicht einmal klar, ob die Server (eine ganze Menge davon in einem Raum) ein ordnungsgemäßes Herunterfahren überleben. Selbst wenn dieser Prozess unmittelbar nach Beginn der Störung eingeleitet wird, so steigt doch durch die Wärmelast die Raumtemperatur immer weiter. Soweit ich inzwischen rausbekommen habe, ist ab ca. 40 Grad Celsius mit Hardwareschäden zu rechnen.


    Warum sollte die Raumtemperatur weiter ansteigen, wenn die Server heruntergefahren sind (mal von äusseren Einflüssen wie Sonneneinstrahlung usw. abgesehen)? Ein ausgeschalteter Server erfährt auch keinen Hitzeschaden.
    Und natürlich muss ja die Benachrichtigung greifen und es sollte sich jemand drum kümmern.


    Carsten

  • Die Überhitzung wird während des Runterfahrens erreicht.
    Die Temperatur steigt ohne Klimananlage ca. um 1°C pro Minute. Wenn jetzt 30 Minuten noch Betrieb ist bis zum Stillstand, dann hätten wir über 50°C Raumtemperatur. Wenn es bei z.B. 45 °C zu Hardwareschäden kommen kann, sind wir im A.


    Beim letzten Temperaturanstieg hat es einige Festplatten bei ca. 30°C zerlegt. Das ist dann auch der Grund warum ich eingeschaltet wurde.


    Inzwischen bezweifel ich ja auch, das ein herunterfahren nach Klimaausfall überhaupt noch möglich ist. Die Temperatur steigt zu schnell. Es kann allerdings auch keiner sagen, wie weit die Temperatur ansteigt. Ist bei 50°C schluss oder geht es noch weiter? Der Raum selbst hat außer der Klimaanlage keine weitere Kühlung. Irgendwann droht dann nämlich der Exitus weil es immer heißer wird. Deshalb muss das Abschalten schnell und automatisch erfolgen.


    Eine Downtime übers Wochenende kann mich nicht erschrecken. Es sind ja nur interne Daten drauf und übers Wochenende kann da sowieso niemand dran. Die EDV müsste halt nur Freitags länger und Montags früher arbeiten. Am Freitag nach 13 Uhr geht die Serverlast schlagartig runter. Ab 15 Uhr würde ein 486 mit 24 Mhz ausreichen:)

  • T-bold47


    Exakt wegen des von Dir beschriebenen Szenarios gibt es doppelt ausgelegte Klimaanlagen!


    Luposen

    Handys sind die einzigen Objekte, bei denen Männer sich streiten, wer das kleinere hat.

  • Hmm wir haben bei uns pro 19" Schrank eine APC USV drinnen. In der steckt jeweils 1 "Enviromental Monitoring" Modul. Die Teile sind so eingestellt, das ab einer bestimmten Temp. eine Warnmeldung geschickt wird (30C glaub ich wars) und 5 Grad "später" wird ein sofortiger Shutdown ausgelöst (es wird nicht wie beim Stromausfall gewartet bis die USV auf 35% runter ist). Shutdown unserer Server dauert ca. 5-8 min.
    Wenn alle Geräte den Shutdown bestätigt haben stellt die USV den Saft zu den Rechnern und dem Raid ab. Gab bisher keine Probleme.


    Ach ja: die Module messen die Temp. und Luftfeuchtigkeit mit nem externen Fühler der seitlich auf ca. 2/3 der Höhe des 19" Schrnakes angebracht ist (nicht im Luftstrom eines der Netzteile! sonst gibts Fehlalarme)


    Patrick

  • Zitat

    Original geschrieben von T-bold47
    Die Überhitzung wird während des Runterfahrens erreicht.
    Die Temperatur steigt ohne Klimananlage ca. um 1°C pro Minute. Wenn jetzt 30 Minuten noch Betrieb ist bis zum Stillstand, dann hätten wir über 50°C Raumtemperatur. Wenn es bei z.B. 45 °C zu Hardwareschäden kommen kann, sind wir im A. (...)


    Liegt da evtl. ein Verständnisfehler Deinerseits vor?


    Eine USV dient auf keinen Fall dazu, die Server bei einem Stromausfall oder ähnlichen Ereignis ewig am laufen zu halten. Die einzige sinnvolle Funktion der USV ist das komplette, ordnungsgemäße herunterfahren der Server. Dies geschieht nach einer definierten Zeitspanne - im Schnitt kann eine USV unter Maximallast den Server bis zu 20 Minuten am laufen halten. Einzig sinnvoll ist allerdings ein kontrolliertes Herunterfahren nach 3 bis 5 Minuten. Wo kein Server läuft, da entsteht auch keine Wärme. Ohne Äussere Einflüsse erwärmt sich auch ein Serverraum nicht. Deshalb befinden sich Serverräume meist im Keller oder in der Gebäudemitte um Erwärmung durch Sonneneinstrahlung etc. zu vermeiden.


    Der Stefan...

  • Also so lange soll es überhaupt nicht laufen. Lt. IT brauchen die beim Ausfall der Klimatechnik ca. 30 min zum runterfahren. Die USV sichert diesen Bereich vollständig ab. Ich meine das die Kapazität der USV für ca. eine Stunde ausreicht. Wie oben beschrieben kommt es aber innerhalb dieser Zeitspanne warscheinlich zu schäden.


    Wenn jetzt eine Störung eintritt außerhalb der Arbeitszeit, dann verlängert sich die Zeitspanne bis die Server aus sind.


    Dazu aber noch eine Verständnisfrage: Das Herunterfahren ist ja ein Programm wie "Beenden" unter Windows. Damit ist der Server zwar nicht mehr in Betrieb, aber immer noch laufen die Lüfter usw.


    Reduziert sich in diesem Zustand die Wärmelast der Server?
    Wenn man nämlich wenigstens einen Teil der Anlagen innerhalb von wenigen Minuten automatisch runterfahren könnte, dann hätten wir bis zum Überhitzungstod noch einige Minuten gewonnen. Vielleicht gelingt es in dieser Zeit die Kühltechnik wieder zu aktivieren, bzw. die anderen Server manuell runterzufahren.

  • T-bold47


    Zitat

    Das Herunterfahren ist ja ein Programm wie "Beenden" unter Windows. Damit ist der Server zwar nicht mehr in Betrieb, aber immer noch laufen die Lüfter usw.


    Das kannst du nicht allgemein so sagen. Wenn Du damit die Nachlaufzeit der Lüfter meinst - die gibt es tatsächlich, aber diese produziert ja keine Wärme, sonder führt diese ab. Was allerdings unter Umstände auch bloß ein Rumschaufeln von heißer Luft bedeutet - da muß einfach eine stetige Zirkulation mit kälterer Außenluft (aber bitte gefiltert!) stattfinden. Das könnte man prima mit einem getrennten System erreichen.


    Es kommt total auf den Server und auf die Software ab, wie die Kiste runterfährt. So können manche dedizierte Server gezielt einzelne Platten und/oder CPU´s im laufenden Betrieb bei Überhitzung abschalten und die Aktivitäten verlagern - so kann einerseits ein Hardwaredefekt vermieden werden und andererseits der Betrieb aufrechterhalten werden.


    Auch der Vergleich mit dem "Beenden" von Windows hinkt, wenn das OS kein Windows ist - so sichert zB Novell nur die flüchtigen Daten im RAM bzw von den Cachecontrollern und schaltet ab - ein "Herunterfahren" in üblichen Sinne benötigt dieses Betriebssystem nicht. Anders gesagt: Je nach Last brauchen Windows-Server teils erhebliche Zeit länger, um ordnungsgemäß abzuschalten.


    Eine weiter Möglichkeit, die sich Euch bieten würde (allerdings wäre dann ein nicht absehbarer Datenverlust einzukalkulieren: Ganz simpel bei Überhitzung den Server ausschalten! Sprich, wenn ein externer Sensor die Raumtemparatur für zu hoch befindet, einfach die Stromzufuhr kappen. Wär aber nicht gerade doll. Das einzige, was mir für dich bzw Euch dort einfällt: Verteilung der Server auf mindestens zwei Räume (über Gigabit verbunden), pro Raum zwei Klimaanlagen, pro Server eine eigene USV - dann kann man weiterreden.


    Stefan
    Besser erklären kann man es nicht! Wenn der Server lange auch ohne reguläre Stromquelle am Laufen gehalten werden muß, kommt man mit einer herkömmlichen Akku-USV nicht weiter. Bei extrem ausgelegten Systemen, die über ein Notstromdieselaggregat verfügen, überbrückt die USV lediglich die Zeit zwischen Stromausfall und Anfahren des Diesels.


    Luposen

    Handys sind die einzigen Objekte, bei denen Männer sich streiten, wer das kleinere hat.

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!