@CitizenSec , 01-11-2024
Исследователь из Mozilla предложил новый способ обхода контент-фильтров в больших языковых моделях (LLM), применяемых для предотвращения злоупотреблений. Он разбил ввод на части и закодировал вредоносные инструкции в шестнадцатеричном формате. Марко Фигероа выбрал для атаки GPT-4o — новейший чат-бот от OpenAI, способный анализировать ввод на запрещенные слова и признаки злонамеренности.
Обойти такие фильтры можно изменением формулировок, но Фигероа решил использовать более простой способ: с помощью шестнадцатеричной кодировки он попросил GPT-4o изучить данные об уязвимости CVE-2024-41110 в Docker и создать эксплойт. Он формулировал инструкции на естественном языке, а слово «exploit», чтобы избежать негативной реакции, заменил на «3xploit». Команда «еще раз прочесть все задание» также была добавлена, чтобы увеличить шансы на получение развернутого ответа.
В итоге ИИ-бот сгенерировал эксплойт, похожий на существующий PoC, и даже попытался протестировать его самостоятельно, что удивило исследователя. Шестнадцатеричное кодирование помогло обойти внимание LLM, которые скрупулезно проверяют каждый фрагмент, но могут упустить общий контекст.
Фигероа применил этот метод и к LLM от Anthropic, но их модели оказались более устойчивыми благодаря проверке и ввода, и вывода, что, по его словам, делает обход фильтров в 10 раз сложнее.
Современные дети растут в эпоху цифровых технологий — смартфоны, планшеты, социальные сети и онлайн-игры стали неотъемлемой частью их жизни. Интернет открывает массу возможностей для учёбы, творчества и общения, но вместе с этим приносит и серьёзные риски.
@citizensec
30-05-2025Правила использования корпоративной почты: что разрешено, что запрещено, меры безопасности и ответственность.
@CitizenSec
19-05-2025Специальный выпуск посвящён женщинам в кибербезопасности, которые преодолевают вызовы, вдохновляют других и делают мир безопаснее. Мы рассказываем истории трёх профессионалок, их пути в ИБ, советы по карьере и безопасности в интернете. Узнайте, как начать свой путь в кибербезопасности и развиваться в этой динамичной сфере.
@citizensec
03-05-2025Компания Microsoft предупреждает: китайская группа шпионов использует повседневные IT-инструменты для взлома сетей.
@turin.medet
06-03-2025Специалисты выявили два вредоносных файла, которые маскируются под полезные программы. Эти файлы могут воровать личные данные, следить за действиями на компьютере и даже брать управление системой под свой контроль.
@CitizenSec
26-12-2024Тысячи рабочих пространств Postman случайно раскрыли важные данные, такие как ключи API и токены доступа. Узнайте, как правильно защитить вашу среду разработки API и обезопасить данные вашей организации.
@CitizenSec
21-11-2024SteelFox был впервые выявлен в августе 2023 года, но его активность заметно возросла. За последние месяцы было зафиксировано более 11 000 попыток заражения.
@CitizenSec
11-11-2024Эта проблема позволяет хакерам получить несанкционированный доступ к важным системным папкам Android.
@CitizenSec
05-11-2024Недавно исследователь в области кибербезопасности Александр Хагена разработал инструмент, который может обойти новую защитную функцию в Google Chrome, называемую привязанным к приложению шифрованием.
@CitizenSec
30-10-2024