Am 27. April 2025 kam es zwischen 23:12 und 23:17 zu einem kurzzeitigen Ausfall innerhalb unserer Infrastruktur. Ursache war eine Überlastung des Arbeitsspeichers auf einem unserer Hosts, wodurch dieser unresponsive wurde. Unser Monitoring-System löste den Alarm innerhalb einer Minute nach dem Ausfall aus und benachrichtigte den zuständigen Mitarbeiter der Notfallbereitschaft.
Zeitleiste des Vorfalls:
- 23:12 – Der Host wird aufgrund einer Arbeitsspeicher-Überlastung unresponsive.
- 23:13 – Der zuständige Mitarbeiter der Notfallbereitschaft nimmt die Prüfung auf.
- 23:14 – Das Monitoring-System löst eine Alarmierung aus.
- 23:16 – Der betroffene Host wird als Ursache des Problems identifiziert. Eine Live-Migration der betroffenen virtuellen Maschinen wird angestoßen. Nicht-kritische VMs werden abgeschaltet, um Ressourcen freizugeben.
- 23:17 – Die Infrastruktur ist wieder verfügbar, die Migration läuft noch.
- 23:19 – Der Host ist wieder vollständig online. Es wird eine Live-Migration der restlichen VMs durchgeführt, was in den darauffolgenden Minuten noch zu minimalen Performance-Einbußen führen kann.
Ursache des Vorfalls:
Der Vorfall wurde durch eine Überlastung des Arbeitsspeichers auf einem Hostsystem verursacht. Dies führte dazu, dass der Host keine Anfragen mehr beantworten konnte und als Folge kurzzeitig Teile der Infrastruktur betroffen waren.
Maßnahmen zur Behebung:
Nach der Alarmierung durch das Monitoring-System wurde die Überlastung des Hosts festgestellt. Umgehend wurden nicht benötigte, nicht-kritische VMs heruntergefahren und eine Lastverteilung der verbleibenden Systeme durchgeführt. Gleichzeitig wurde eine Live-Migration der betroffenen virtuellen Maschinen auf andere Hosts angestoßen. Dadurch konnte der Host kurzfristig entlastet und die Infrastruktur wiederhergestellt werden.
Reflexion und präventive Maßnahmen:
Um sicherzustellen, dass ein derartiger Vorfall in Zukunft vermieden wird, setzen wir folgende Maßnahmen um:
Anpassung der Monitoring-Schwellenwerte:
Wir werden die Schwelle für den RAM-Verbrauch im Monitoring-System anpassen, damit eine bevorstehende Überlastung früher erkannt und rechtzeitig reagiert werden kann.
Automatische Lastverteilung:
Zukünftig werden wir eine automatische Lastverteilung für unsere nicht-kritischen VMs einführen, um im Vorfeld zu verhindern, dass es zu einer Überschreitung der kritischen Schwelle kommt.
