Am 21. April 2025 um 21:32 wurde festgestellt, dass der externe Zugriff auf die Netzwerkinfrastruktur eingeschränkt war. Diese Einschränkung wurde durch eine Alarmmeldung von unserem externen Monitoring-System ausgelöst. Sofort wurde der zuständige Mitarbeiter, der Bereitschaft hatte, durch unser externes Monitoring alarmiert.
Zeitleiste des Vorfalls
- 21:32 – Alarm durch externes Monitoring aufgrund unterbrochener externer Verbindungen.
- 21:35 – Bereitschaft beginnt mit Analyse der Netzwerkverbindungen.
- 21:40 – Fehlerursache wird identifiziert und erste Maßnahmen eingeleitet.
- 21:50 – Die Netzwerkinfrastruktur ist wieder vollständig funktionsfähig.
Ursachenanalyse
Der Ausfall wurde durch einen menschlichen Fehler im Zusammenspiel mit einem automatisierten Systemprozess verursacht. Im Zuge eines automatisierten Systemupdates wurde eine IPv4 Link-Local Unicast-Adresse aus der Router-Konfiguration entfernt. Diese Adresse war als Verbindungskanal zwischen zwei Routern vorgesehen und wurde vom Keepalived-Dienst genutzt, um das Gateway im Failover-Fall dynamisch umschalten zu können. Durch das Entfernen dieser Adresse konnte die Keep-Alive-Verbindung zwischen den Routern nicht mehr aufgebaut werden, was zu einem Ausfall führte.
Die Situation wurde zusätzlich verschärft, da der redundante Router zu diesem Zeitpunkt aufgrund einer geplanten Wartung nicht zur Verfügung stand. Damit war keine Ausweichmöglichkeit gegeben, und es kam zur vollständigen Unterbrechung der externen Erreichbarkeit der Systeme.
Behebungsmaßnahmen
Nach der Identifizierung des Problems wurde die entfernte Adresse wieder in die Konfiguration aufgenommen, und ein Neustart des Routers durchgeführt. Diese Maßnahmen führten innerhalb von 18 Minuten zur vollständigen Wiederherstellung der Netzwerkinfrastruktur.
Reflexion und präventive Maßnahmen
Um ähnliche Vorfälle in Zukunft zu vermeiden, wurden folgende Maßnahmen beschlossen:
- Erhöhung der Redundanz: Bei zukünftigen Wartungsarbeiten wird sichergestellt, dass ein vollständiger Failover-Pfad aktiv bleibt und keine kritische Infrastruktur ohne Backup betrieben wird.
- Stabilisierung der Systemupdates: Automatische Updates werden so angepasst, dass essenzielle Konfigurationsbestandteile wie Link-Local-Adressen nicht versehentlich entfernt werden können.
- Verbessertes Monitoring und Konfigurationsmanagement: Änderungen an netzwerkkritischen Komponenten werden künftig genauer überwacht und nachvollziehbar dokumentiert.
Zusammenfassung
Der Netzwerkausfall am 21. April 2025 wurde durch die unbeabsichtigte Entfernung einer für das Keepalived-System essenziellen IPv4 Link-Local-Adresse während eines automatisierten Systemupdates verursacht. Das gleichzeitige Fehlen eines redundanten Routers während einer geplanten Wartung verschärfte den Vorfall. Durch schnelle Reaktion konnte die Störung innerhalb von 18 Minuten vollständig behoben werden. Zur Vermeidung künftiger Ausfälle wurden bereits gezielte technische und organisatorische Maßnahmen umgesetzt.
