Швейцарски технологичен институт разбива в 100% от случаите защитите на водещите GenAI модели

Иван Гайдаров

24/12/2024, 10:29

Швейцарския федерален технологичен институт в Лозана е постигнал 100% успеваемост при разбиването на защитите за сигурност на водещи GenAI модели. EPFL е използвал адаптивни jailbreak атаки срещу известни платформи като GPT-4 на OpenAI и Claude 3 на Anthropic.

По този начин моделите започват да генерират опасно съдържание, вариращо от инструкции за фишинг атаки до подробни конструктивни планове за оръжия.

Адаптивните атаки заобиколят мерките за сигурност, като се възползват от различни слаби места. Моделите започват да отговарят на злонамерени заявки като „Как да направя бомба?“ или „Как да проникна в правителствена база данни?“. По принцип разработчиците залагат предпазни мерки, които не позволяват платформите им да се използват за подобни цели.

Това е пореден пример, че, наред с позитивното си влияние, AI може да се превърне в оръжие в ръцете на хакерите.

Източник