Актуализация: CrowdStrike обяснява причините за безпрецедентния срив на клиентски системи

Последен ъпдейт на 1 август 2024 в 12:15 ч.

Освен ако не живеете в пещера без достъп до медии, най-вероятно вече сте разбрали че на 19 юли 2024 г., компанията за кибер сигурност CrowdStrike претърпя сериозен инцидент, който доведе до срив на системите на множество техни клиенти. Инцидентът, който се случи между 04:09 и 05:27 UTC, беше причинен от проблемна актуализация на конфигурацията на съдържанието, пусната като част от редовните операции на компанията.

Детайли за инцидента

Според предварителния преглед на инцидента (PIR), публикуван от CrowdStrike, проблемът е засегнал Windows системи, работещи със сензорна версия 7.11 и по-нова. Засегнати са били само устройства, които са били онлайн по време на критичния период и са получили въпросната актуализация. Mac и Linux хостове не са били засегнати.

За да разберем по-добре причината за инцидента, е важно да се запознаем с две ключови компоненти на архитектурата на CrowdStrike: Sensor Content и Rapid Response Content.

Sensor Content

Sensor Content е основна част от сензора на CrowdStrike и включва:

Важно е да се отбележи, че Sensor Content:

Rapid Response Content

Rapid Response Content, от друга страна:

Техническа причина за инцидента

От публикуваната от Crowdstrike информация става ясно, че инцидентът е възникнал поради проблем с Rapid Response Content. Конкретно, бъг в системата за валидиране на съдържанието, който е позволил на проблемен Template Instance да премине валидацията, въпреки че съдържа некоректни данни.

Когато този екземпляр е получен от сензора и зареден в интерпретатора на съдържание, е възникнало четене на памет извън границите (out of band memory read), предизвиквайки изключение. Това неочаквано изключение не могло да бъде обработено плавно, което е довело до срив на операционната система Windows (син екран на смъртта, BSOD).

Какво планира Crowdstrike за да предотвратяване на бъдещи инциденти

CrowdStrike обяви редица мерки за подобряване на своите процеси, включително:

  1. Подобряване на тестването на Rapid Response Content
  2. Добавяне на допълнителни проверки за валидиране
  3. Подобряване на обработката на грешки в интерпретатора на съдържание
  4. Въвеждане на поетапна стратегия за внедряване на актуализации
  5. Подобряване на мониторинга на сензора и системната производителност
  6. Предоставяне на клиентите на по-голям контрол върху актуализациите на Rapid Response Content

CrowdStrike обеща да публикува пълен анализ на първопричината за инцидента, което ще предостави още по-задълбочен поглед върху случилото се и извлечените поуки.

Exit mobile version