Szybka naprawa problemu aktualizacji CrowdStrike
Sytuacja klienta
O godzinie 06:00 czasu CEST, CrowdStrike wydało aktualizację konfiguracji sensora dla systemów Windows. Aktualizacje konfiguracji sensora są stałym elementem mechanizmów ochronnych platformy Falcon. Ta aktualizacja konfiguracji wywołała błąd logiczny, który spowodował awarię systemu i niebieski ekran (BSOD) na dotkniętych systemach. O godzinie 8:00 czasu CEST otrzymaliśmy pierwsze zgłoszenie o wpływie aktualizacji od jednego z naszych klientów, którego środowisko Azure jest przez nas zarządzane. Wymagana była natychmiastowa akcja, aby złagodzić problemy spowodowane tą aktualizacją.
Proponowane rozwiązanie
Strategia zarządzania dyskiem: Dołączenie dysku VM dotkniętego problemem do innej maszyny wirtualnej. Zmiana nazwy problematycznych plików w celu złagodzenia problemu.
Kroki wdrożenia:
- Tworzenie migawki dysku OS (poniżej 1 minuty).
- Tworzenie zarządzanego dysku:Konwersja migawki na zarządzany dysk (poniżej 5 minut). Zapewnienie efektywnych konwencji nazewnictwa dla łatwego śledzenia (np. VMname_Snapshot_date, VMname_recovered_date).
- Przepływ pracy usuwania plików: Dołączenie zarządzanego dysku do serwera skokowego. Usunięcie niezbędnych plików. Odłączenie i ponowne dołączenie dysku do dotkniętej VM.Włączenie maszyny wirtualnej.
Kluczowe czynniki
- Czas: 8:00 czasu CEST
- Klient: Globalna firma produkcyjna
- Zgłoszony problem: Zakłócenia w środowisku Azure z powodu aktualizacji CrowdStrike
- Początkowa reakcja: Natychmiastowe rozpoczęcie analizy po zgłoszeniu od kierownika usług centrum danych klienta.
- Komunikacja: Regularne wymiany wiadomości w Microsoft Teams z wewnętrznym zespołem klienta. Początkowe zamieszanie z powodu braku zgłoszeń wskazujących na problemy z usługami
- Analiza: Bezpośrednia dyskusja z kierownikiem usług centrum danych klienta.Potwierdzenie, że problem rzeczywiście powoduje znaczące zakłócenia.
Dostarczona korzyść
- Wszystkie dotknięte maszyny wirtualne w środowisku Azure klienta były w pełni operacyjne w ciągu 24 godzin.
- Efektywna praca zespołowa i szybkie wdrożenie dostosowanego rozwiązania zminimalizowały przestój i wpływ operacyjny.
Wartość dodana
Znaczenie kopii zapasowych: Szybki dostęp do niezawodnych kopii zapasowych jest kluczowy dla skutecznego przywracania po awarii.
Efektywna komunikacja: Utrzymanie otwartych kanałów komunikacji w celu szybkiego przekazywania informacji i dostosowywania strategii.
Elastyczność: Umiejętność szybkiego dostosowywania standardowych rozwiązań do specyficznych środowisk i ograniczeń.
Konwencje nazewnictwa: Jasne i spójne konwencje nazewnictwa są niezbędne do zarządzania i śledzenia zasobów podczas kryzysu.
Wnioski z projektu
Szybka i skoordynowana reakcja na problem aktualizacji CrowdStrike demonstruje skuteczność naszych procesów zarządzania incydentami. Dzięki silnej komunikacji, szczegółowej wiedzy na temat środowiska klienta i innowacyjnemu rozwiązywaniu problemów, skutecznie złagodziliśmy potencjalnie poważne konsekwencje awarii w wyjątkowo krótkim czasie. Ten przypadek podkreśla znaczenie gotowości, pracy zespołowej i elastyczności w zarządzaniu usługami IT.