Актуализация: CrowdStrike обяснява причините за безпрецедентния срив на клиентски системи
Последен ъпдейт на 1 август 2024 в 12:15 ч.
Освен ако не живеете в пещера без достъп до медии, най-вероятно вече сте разбрали че на 19 юли 2024 г., компанията за кибер сигурност CrowdStrike претърпя сериозен инцидент, който доведе до срив на системите на множество техни клиенти. Инцидентът, който се случи между 04:09 и 05:27 UTC, беше причинен от проблемна актуализация на конфигурацията на съдържанието, пусната като част от редовните операции на компанията.
Детайли за инцидента
Според предварителния преглед на инцидента (PIR), публикуван от CrowdStrike, проблемът е засегнал Windows системи, работещи със сензорна версия 7.11 и по-нова. Засегнати са били само устройства, които са били онлайн по време на критичния период и са получили въпросната актуализация. Mac и Linux хостове не са били засегнати.
За да разберем по-добре причината за инцидента, е важно да се запознаем с две ключови компоненти на архитектурата на CrowdStrike: Sensor Content и Rapid Response Content.
Sensor Content
Sensor Content е основна част от сензора на CrowdStrike и включва:
- Вградени AI и машинно обучение модели
- Код, написан специално за предоставяне на дългосрочни, многократно използваеми възможности, които не търпят ежедневни ъпдейти
- „Template Types“ (Типове шаблони), които предоставят предварително дефинирани полета за инженерите
Важно е да се отбележи, че Sensor Content:
- се доставя само с новите версии на сензора
- Преминава през обширен процес на тестване (QA)
- Включва автоматизирано тестване, ръчно тестване, валидация и етапи на внедряване
- Внедрява се постепенно, започвайки с вътрешно тестване в CrowdStrike, последвано от ранни адоптъри, преди да стане общодостъпен
Rapid Response Content
Rapid Response Content, от друга страна:
- Използва се за извършване на поведенчески анализи
- Представлява конфигурационни данни, а не код или драйвер на ядрото
- Доставя „Template Instances“ (Екземпляри на шаблони), които са инстанции на даден Template Type
- Позволява бързо събиране на телеметрия и идентифициране на индикатори за поведение на без да изисква промени в кода на сензора
Техническа причина за инцидента
От публикуваната от Crowdstrike информация става ясно, че инцидентът е възникнал поради проблем с Rapid Response Content. Конкретно, бъг в системата за валидиране на съдържанието, който е позволил на проблемен Template Instance да премине валидацията, въпреки че съдържа некоректни данни.
Когато този екземпляр е получен от сензора и зареден в интерпретатора на съдържание, е възникнало четене на памет извън границите (out of band memory read), предизвиквайки изключение. Това неочаквано изключение не могло да бъде обработено плавно, което е довело до срив на операционната система Windows (син екран на смъртта, BSOD).
Какво планира Crowdstrike за да предотвратяване на бъдещи инциденти
CrowdStrike обяви редица мерки за подобряване на своите процеси, включително:
- Подобряване на тестването на Rapid Response Content
- Добавяне на допълнителни проверки за валидиране
- Подобряване на обработката на грешки в интерпретатора на съдържание
- Въвеждане на поетапна стратегия за внедряване на актуализации
- Подобряване на мониторинга на сензора и системната производителност
- Предоставяне на клиентите на по-голям контрол върху актуализациите на Rapid Response Content
CrowdStrike обеща да публикува пълен анализ на първопричината за инцидента, което ще предостави още по-задълбочен поглед върху случилото се и извлечените поуки.