Szybka naprawa problemu aktualizacji CrowdStrike

Sytuacja klienta

O godzinie 06:00 czasu CEST, CrowdStrike wydało aktualizację konfiguracji sensora dla systemów Windows. Aktualizacje konfiguracji sensora są stałym elementem mechanizmów ochronnych platformy Falcon. Ta aktualizacja konfiguracji wywołała błąd logiczny, który spowodował awarię systemu i niebieski ekran (BSOD) na dotkniętych systemach. O godzinie 8:00 czasu CEST otrzymaliśmy pierwsze zgłoszenie o wpływie aktualizacji od jednego z naszych klientów, którego środowisko Azure jest przez nas zarządzane. Wymagana była natychmiastowa akcja, aby złagodzić problemy spowodowane tą aktualizacją.

Proponowane rozwiązanie

Strategia zarządzania dyskiem: Dołączenie dysku VM dotkniętego problemem do innej maszyny wirtualnej. Zmiana nazwy problematycznych plików w celu złagodzenia problemu.

Kroki wdrożenia:

Tworzenie migawki dysku OS (poniżej 1 minuty).
Tworzenie zarządzanego dysku:Konwersja migawki na zarządzany dysk (poniżej 5 minut). Zapewnienie efektywnych konwencji nazewnictwa dla łatwego śledzenia (np. VMname_Snapshot_date, VMname_recovered_date).
Przepływ pracy usuwania plików: Dołączenie zarządzanego dysku do serwera skokowego. Usunięcie niezbędnych plików. Odłączenie i ponowne dołączenie dysku do dotkniętej VM.Włączenie maszyny wirtualnej.

Kluczowe czynniki

Czas: 8:00 czasu CEST
Klient: Globalna firma produkcyjna
Zgłoszony problem: Zakłócenia w środowisku Azure z powodu aktualizacji CrowdStrike
Początkowa reakcja: Natychmiastowe rozpoczęcie analizy po zgłoszeniu od kierownika usług centrum danych klienta.
Komunikacja: Regularne wymiany wiadomości w Microsoft Teams z wewnętrznym zespołem klienta. Początkowe zamieszanie z powodu braku zgłoszeń wskazujących na problemy z usługami
Analiza: Bezpośrednia dyskusja z kierownikiem usług centrum danych klienta.Potwierdzenie, że problem rzeczywiście powoduje znaczące zakłócenia.

Dostarczona korzyść

Wszystkie dotknięte maszyny wirtualne w środowisku Azure klienta były w pełni operacyjne w ciągu 24 godzin.
Efektywna praca zespołowa i szybkie wdrożenie dostosowanego rozwiązania zminimalizowały przestój i wpływ operacyjny.

Wartość dodana

Znaczenie kopii zapasowych: Szybki dostęp do niezawodnych kopii zapasowych jest kluczowy dla skutecznego przywracania po awarii.

Efektywna komunikacja: Utrzymanie otwartych kanałów komunikacji w celu szybkiego przekazywania informacji i dostosowywania strategii.

Elastyczność: Umiejętność szybkiego dostosowywania standardowych rozwiązań do specyficznych środowisk i ograniczeń.

Konwencje nazewnictwa: Jasne i spójne konwencje nazewnictwa są niezbędne do zarządzania i śledzenia zasobów podczas kryzysu.

Wnioski z projektu

Szybka i skoordynowana reakcja na problem aktualizacji CrowdStrike demonstruje skuteczność naszych procesów zarządzania incydentami. Dzięki silnej komunikacji, szczegółowej wiedzy na temat środowiska klienta i innowacyjnemu rozwiązywaniu problemów, skutecznie złagodziliśmy potencjalnie poważne konsekwencje awarii w wyjątkowo krótkim czasie. Ten przypadek podkreśla znaczenie gotowości, pracy zespołowej i elastyczności w zarządzaniu usługami IT.

Skontaktuj się z nami w podobnej sprawie

[contact-form-7 id=”a86bfe5″ title=”Case Study”]

Szybka naprawa problemu aktualizacji CrowdStrike

Sytuacja klienta

Proponowane rozwiązanie

Kluczowe czynniki

Dostarczona korzyść

Wartość dodana

Wnioski z projektu

Wdrożenie AI Hub i modeli lokalnych

Budowa bezpiecznych bram (AI Gateway)

Bezpieczeństwo i AI Governance

Klasyfikacja i ochrona danych (DLP)

Audyt i optymalizacja Microsoft 365 pod AI

Strategia i warsztaty AI Readiness

Migracja aplikacji i procesów

Wdrożenie IT governance

Budowa i optymalizacja rozwiązań analitycznych

Szkolenia dla biznesu i IT

Ochrona urządzeń końcowych (EDR)

Monitorowanie i reagowanie na incydenty bezpieczeństwa [SIEM/SOAR]

Zarządzanie urządzeniami mobilnymi [MDM]

Ochrona aplikacji webowych [WAF]

Bezpieczeństwo poczty email [Mail Security]

Rozszerzone wykrywanie i reagowanie na incydenty [XDR]

Uwierzytelnianie wieloskładnikowe [MFA]

Bezhasłowe uwierzytelnianie [Passwordless]

Bezpieczeństwo chmury

Analiza i zarządzanie ryzykiem

Monitorowanie i zarządzanie podatnościami

Security HealthCheck dla AD

Ochrona Chmury as a Service

Health Check Office 365

Zarządzanie urządzeniami końcowymi - Microsoft Intune

Migracja dokumentów do SharePoint i OneDrive

Utrzymanie środowisk On-Premise oraz Azure 24/7

Zarządzanie i audyt usług katalogowych

Opracowanie i utrzymanie standardów w Azure

Awaryjne odtwarzanie środowiska w chmurze

Migracja do Azure

System DMS i VDR

Backup

System zarządzania infrastrukturą

Monitorowanie infrastruktury

Dystrybucja paczek

Bazy danych

Active Directory

Landing Zone

Usługi Cyber Deception

Efektywne i bezpieczne środowisko MS Teams

Cyfryzacja procesów HR

Usługi dla Microsoft 365 Copilot

Chatboty

Elektroniczny obieg dokumentów

Usługi IT governance

Wdrażanie e-podpisów i e-pieczęci

Audyt i optymalizacja środowiska Microsoft 365

Opracowanie i utrzymanie standardów M365

Wsparcie Microsoft 365 24/7

Backup konfiguracji oraz danych Microsoft 365

Wdrożenie i audyt Entra ID

Wdrożenie Microsoft Teams

Migracja poczty do Exchange Online

Licencje CSP

Warsztaty zarządzanie platformą M365 oraz Co-Pilot

Optymalizacja środowiska Azure

Landing Zone

Landing Zone

Backup danych do Azure

Wdrożenie i audyt Entra ID

Pilotażowe wdrożenie

Licencje CSP

Landing Zone

Ocena środowiska

Wdrażanie e-podpisów
i e-pieczęci