Новость

ChatGPT убедили создать эксплойт, подсунув инструкцию в 16-ричном формате

ChatGPT убедили создать эксплойт, подсунув инструкцию в 16-ричном формате

Citizen Sec

@CitizenSec , 01-11-2024

Новость
#Информационная безопасность
ChatGPT убедили создать эксплойт, подсунув инструкцию в 16-ричном формате

Исследователь из Mozilla предложил новый способ обхода контент-фильтров в больших языковых моделях (LLM), применяемых для предотвращения злоупотреблений. Он разбил ввод на части и закодировал вредоносные инструкции в шестнадцатеричном формате. Марко Фигероа выбрал для атаки GPT-4o — новейший чат-бот от OpenAI, способный анализировать ввод на запрещенные слова и признаки злонамеренности.


Обойти такие фильтры можно изменением формулировок, но Фигероа решил использовать более простой способ: с помощью шестнадцатеричной кодировки он попросил GPT-4o изучить данные об уязвимости CVE-2024-41110 в Docker и создать эксплойт. Он формулировал инструкции на естественном языке, а слово «exploit», чтобы избежать негативной реакции, заменил на «3xploit». Команда «еще раз прочесть все задание» также была добавлена, чтобы увеличить шансы на получение развернутого ответа.


В итоге ИИ-бот сгенерировал эксплойт, похожий на существующий PoC, и даже попытался протестировать его самостоятельно, что удивило исследователя. Шестнадцатеричное кодирование помогло обойти внимание LLM, которые скрупулезно проверяют каждый фрагмент, но могут упустить общий контекст.


Фигероа применил этот метод и к LLM от Anthropic, но их модели оказались более устойчивыми благодаря проверке и ввода, и вывода, что, по его словам, делает обход фильтров в 10 раз сложнее.


Вам также будет интересно

Новость
#Информационная безопасность
#Критическая уязвимость

Обнаружены опасные программы Zebo-0.1.0 и Cometlogger-0.1, которые крадут данные и управляют компьютером

Специалисты выявили два вредоносных файла, которые маскируются под полезные программы. Эти файлы могут воровать личные данные, следить за действиями на компьютере и даже брать управление системой под свой контроль.

@CitizenSec

26-12-2024
Новость
#Информационная безопасность

Утечка в Postman: более 30 000 ключей API и токенов стали доступными публично

Тысячи рабочих пространств Postman случайно раскрыли важные данные, такие как ключи API и токены доступа. Узнайте, как правильно защитить вашу среду разработки API и обезопасить данные вашей организации.

@CitizenSec

21-11-2024
Новость
#Информационная безопасность

Новый троян SteelFox имитирует программные активаторы, воруя конфиденциальные данные и добывая криптовалюту

SteelFox был впервые выявлен в августе 2023 года, но его активность заметно возросла. За последние месяцы было зафиксировано более 11 000 попыток заражения.

@CitizenSec

11-11-2024
Новость
#Критическая уязвимость
#Информационная безопасность

Критическая уязвимость CVE-2024-43093 угрожает безопасности пользователей Android

Эта проблема позволяет хакерам получить несанкционированный доступ к важным системным папкам Android.

@CitizenSec

05-11-2024
Новость
#Информационная безопасность

Новый инструмент для обхода шифрования cookies в Google Chrome: как он работает и что это значит для вашей безопасности в Сети?

Недавно исследователь в области кибербезопасности Александр Хагена разработал инструмент, который может обойти новую защитную функцию в Google Chrome, называемую привязанным к приложению шифрованием.

@CitizenSec

30-10-2024
Новость
#Информационная безопасность

Вредоносные пакеты npm заражают разработчиков SSH-бэкдором

В npm обнаружены вредоносные пакеты, маскирующиеся под популярный пакет ethers.

@CitizenSec

28-10-2024
Новость
#Информационная безопасность

Новая атака позволяет хакерам откатывать Windows для взлома через закрытые уязвимости

Опубликована новая атака под названием 'Windows Downdate', которая позволяет взламывать Windows 11, понизив версию системных компонентов и используя старые уязвимости.

@CitizenSec

26-10-2024
Новость
#Информационная безопасность

Интернет-архив снова взломан

Интернет-архив (Archive.org) столкнулся со второй утечкой данных в октябре 2024 года, когда хакеры получили доступ к служебным билетам через незащищенные токены API Zendesk.

@CitizenSec

22-10-2024
Новость
#Информационная безопасность

Троян TrickMo: как фишинг атакует ваши телефоны и что вам нужно знать, чтобы защитить себя от этой угрозы?

Этот вредоносный софт использует хитрые методы, чтобы обмануть пользователей, показывая поддельный экран разблокировки.

@CitizenSec

20-10-2024