
Pana globală care a afectat milioane de sisteme IT săptămâna aceasta, cauzată de o actualizare software eșuată, evidențiază natura interconectată și adesea fragilă a infrastructurii IT moderne. Demonstrează cum un singur element care nu funcționează cum trebuie poate avea consecințe de amploare.
Pana a fost legată de o actualizare automată a Crowdstrike Falcon, un instrument de securitate cibernetică omniprezent, utilizat în principal de organizații mari. Aceasta a dus la blocarea Microsoft Windows pe calculatoare din întreaga lume.
CrowdStrike a remediat problema între timp. Deși multe organizații au reușit să își reia activitatea, va dura ceva până când echipele IT vor remedia complet toate sistemele afectate – unele dintre aceste lucrări trebuie făcute manual.
Cum a fost posibil?
Multe organizații se bazează pe aceiași furnizori de servicii de tip cloud și soluții de securitate cibernetică. Rezultatul este o formă de monocultură digitală.
Deși această standardizare înseamnă că sistemele informatice pot funcționa eficient și sunt compatibile, înseamnă și că o problemă se poate răspândi în numeroase industrii și zone ale globului. După cum am văzut în cazul CrowdStrike, aceasta se poate răspândi chiar la nivel global.
Infrastructura IT modernă este extrem de interconectată și interdependentă. Dacă o componentă eșuează, poate declanșa o reacție în lanț care afectează alte părți ale sistemului.
Pe măsură ce software-ul și rețelele devin mai complexe, potențialul pentru interacțiuni neprevăzute și buguri crește. O actualizare minoră poate avea consecințe neintenționate și se poate răspândi rapid în întreaga rețea.
După cum am văzut, sisteme întregi pot fi blocate înainte ca cei care le monitorizează să poată reacționa pentru a preveni acest lucru.
Cum a fost implicată Microsoft?
Când calculatoarele Windows din întreaga lume au început să se blocheze, afișând „ecranul albastru al morții”, cum este cunoscut ca denumire, primele informații au indicat că pana IT a fost cauzată de Microsoft.
De fapt, Microsoft a confirmat că a experimentat o pană a serviciilor de cloud în regiunea centrală a Statelor Unite, care a început în jurul orei 18:00, joi, 18 iulie 2024.
Această pană a afectat un subset de clienți care foloseau diverse servicii Azure. Azure este platforma de servicii cloud a Microsoft.
Pana Azure a avut consecințe de amploare, perturbând serviciile din mai multe sectoare, inclusiv companii aeriene, retail, bancar și media. Nu doar în Statele Unite, ci și internațional, în țări precum Australia și Noua Zeelandă. A afectat și diverse servicii Microsoft 365, inclusiv PowerBI, Microsoft Fabric și Teams.
S-a dovedit că întreaga pană Azure poate fi, de asemenea, corelată cu actualizarea CrowdStrike. În acest caz, a afectat mașinile virtuale Microsoft care rulau Windows cu Falcon instalat.
Ce putem învăța din acest episod?
Nu puneți toate ouăle IT într-un singur coș.
Companiile ar trebui să folosească o strategie multi-cloud: distribuirea infrastructurii IT pe mai mulți furnizori de servicii cloud. Astfel, dacă un furnizor cade, ceilalți pot continua să susțină operațiunile esențiale.
Companiile pot asigura, de asemenea, continuitatea operațiunilor având back-up; dacă un component cade, altele pot prelua sarcinile. Acest lucru include servere de backup, centre de date alternative și mecanisme de „failover” care pot comuta rapid și utiliza sistemele de backup în cazul unei pene.
Automatizarea proceselor IT de rutină poate reduce riscul de eroare umană, care este o cauză comună a penelor. Sistemele automatizate pot monitoriza, de asemenea, posibilele probleme și le pot rezolva înainte de a apărea probleme semnificative.
Instruirea personalului cu privire la modul de răspuns în cazul apariției penelor poate asigura o reacție rapidă și rezolvarea problemelor apărute. Acest lucru include cunoașterea persoanelor de contact, pașii de urmat și utilizarea fluxurilor alternative de lucru.
Cât de gravă poate fi o pană IT?
Este foarte puțin probabil ca întregul Internet să cadă vreodată, dată fiind natura distribuită și descentralizată a infrastructurii acestuia. Are multiple căi și sisteme de backup. Dacă un segment devine nefuncțional, traficul poate fi redirecționat prin alte rețele.
Cu toate acestea, există potențialul pentru perturbări și mai mari și mai răspândite decât pana CrowdStrike.
Catalogul de cauze posibile pare scenariul unui film al dezastrelor. Furtunile solare intense, similare cu evenimentul Carrington din 1859, ar putea cauza daune extinse sateliților, rețelelor electrice și cablurilor subacvatice, care sunt coloana vertebrală a internetului. Un astfel de eveniment ar putea duce la pene de Internet care să dureze luni întregi și să se întindă pe mai multe continente.
Internetul se bazează pe o rețea de cabluri de fibră optică subacvatice. Deteriorarea simultană a mai multor cabluri cheie – fie ca urmare a unor dezastre naturale, evenimente seismice, accidente sau sabotaj deliberat – ar putea cauza perturbări majore ale traficului Internet.
Atacurile cibernetice sofisticate și coordonate care vizează infrastructura esențială a Internetului, cum ar fi serverele DNS rădăcină sau punctele Internet de rutare majore, ar putea, de asemenea, provoca pene la scară largă.
Deși o apocalipsă Internet completă este foarte puțin probabilă, natura interconectată a lumii noastre digitale înseamnă că orice pană mare va avea impact extins, deoarece perturbă serviciile online de care am ajuns să depindem.
Adaptarea continuă și pregătirea sunt extrem de importante pentru a asigura reziliența infrastructurii noastre globale de comunicații.
Traducere și adaptare după: One small update brought down millions of IT systems around the world
Autorul, David Tuffley, este lector la Universitatea Griffith în domeniul securității cibernetice și al eticii aplicate.
Imagine: Pixabay
