Последен ъпдейт на 23 юли 2024 в 13:37 ч.
Петък, 19 юли, най-вероятно ще остане в историята като Blue Screen Day – шега за едни, безсънна нощ за други, но най-вече: (нещо, което трябва да бъде) урок за всички. Защото в случа става въпрос за техническа грешка, довела до принудителното спиране на около 9 млн. машинни или около 1% от всички Windows компютри по света според официалната телеметрия на Microsoft и CrowdStrike (редактирано на 23 юли, 13:36: променихме първоначално циркулиращата цифра от 1 млрд. устройства, бел. авт.) – а като последствие, спирането на работата на летища, болници, транспортни компании – списъкът е безкраен.
Тук няма да разсъждаваме върху това до колко съвременната икономика е зависима от информационните технологии (безкрайно). Нито пък ще коментираме има ли смисъл сървъри да работят под Windows 10 (видяхме много коментари по темата).
Ще погледнем под един малко по-различен ъгъл: ами, ако това беше истинска хакерска атака?
Какво всъщност се случи и до какво доведе?
На 19 юли в 04:09 UTC, CrowdStrike пуска рутинна актуализация на конфигурацията на сензора за системи с Windows. Тази актуализация, която обикновено е част от текущите защитни механизми на платформата EDR Falcon, неочаквано предизвиква логическа грешка, водеща до системен срив и син екран (BSOD) на засегнатите системи.
Проблемът е бил идентифициран и отстранен до 05:27 UTC същия ден, но не преди да засегне значителен брой машини – работни станции, сървъри и дори банкомати.
Част от щетите, причинени от това:
- транспортен хаос (забавени полети и влакове, напред-назад за десетки пътници – видяхме и чухме разкази на хора, които са качвани и сваляни от самолета по над 20 пъти, докато екипажът проверява и записва на листче списъка с пътници)
- спрели болници
- проблеми в телекомуникациите и банкирането (включително и в България)
Какви уроци е хубаво да научим?
Като човек, който следи темата от години, най-много ме гложди един казус: че след всичките мемета, оплаквания, шеги, нападки и какво ли не – не видях никъде никой да зададе въпроса: супер, икономиката е скачен съд с информационните технологии. И да, в случая става въпрос за човешка грешка. Но какво ще стане, ако това е истинска атака? Готови ли сме да се справим с последиците от един такъв масов удар, който поне според скромните ми познания, далеч не е толкова невъзможен?
Един прост пример. Редица уеб приложения разчитат на CDN-и (мрежи са дистрибутирано съхранение на статични ресурси като JavaScript библиотеки). Преди по-малко от месец един такъв CDN се оказа, че сервира зловреден код под носа на редица разработчици. Какво пречи по подобен начин да се окаже, че на редица машини по света някой успее да достави зловреден код, който да доведе до подобен BSOD ад, който обаче не спира с изтриването на един сбъркан файл.
Какво ще стане, ако светът спре за повече от ден?
Затова, за мен е хубаво да научим урока си и да помислим дали организациите, в които работим и, които управляваме, са готови за реакция в такава ситуация.
И, ако не са, да поработим по темата да се подготвим, защото иначе – както е казал Яворов – „когато гръм удари, как ехото заглъхва“ – само че в случай на глобален проблем, за който решението не може да бъде открито за по-малко от час и половина, ехото може да заглъхва по-дълго, от колкото искаме. Или да не заглъхне ехото, а нашите уши.
Затова, с едно изречение: използвайте ситуацията и проверете политиките си за реакция при инцидент. А, ако още нямате такива: сега е моментът да ги създадете и започнете да развивате. Дори и да добавите в тях ситуацията, в която да създадете процедури и протоколи за offline работа.