реклама
Новости Software

Найден новый способ заставить ИИ говорить на запрещённые темы — нужно просто измотать его вопросами

Разработчики современных систем искусственного интеллекта накладывают на них ограничения, запрещая давать ответы на отступающие от традиционных этических норм вопросы. Существует множество способов обойти эти ограничения, и очередной такой способ открыли исследователи из компании Anthropic — измотать ИИ вопросами.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Учёные назвали новый тип атаки «многоимпульсным взломом» (many-shot jailbreaking) — они подробно описали его в статье и предупредили коллег о выявленной уязвимости, чтобы последствия атаки можно было смягчить. Уязвимость возникла из-за того, что у больших языковых моделей последнего поколения увеличилось контекстное окно — объём данных, который они могут хранить в том, что заменяет им кратковременную память. Раньше этот объём данных ограничивался несколькими предложениями, а сейчас он вмещает тысячи слов и даже целые книги.

Исследователи Anthropic обнаружили, что модели с большими контекстными окнами, как правило, лучше справляются с задачами, если в запросе содержатся несколько примеров решения подобных задач. Другими словами, чем больше в запросе простых вопросов, тем выше качество ответа. И если первый вопрос ИИ понимает неправильно, то с сотым ошибки уже не будет. Но в результате такого «контекстного обучения» большая языковая модель начинает «лучше» отвечать на недопустимые вопросы. Так, если просто спросить её, как собрать бомбу, она откажется отвечать. Но если перед этим задать модели 99 менее опасных вопросов, а затем снова спросить, как собрать бомбу, вероятность получить недопустимый ответ вырастет.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

Трудно сказать наверняка, почему эта атака срабатывает. В действительности никто не знает, что творится в сложной системе весов, которую представляет собой большая языковая модель, но, видимо, существует некий механизм, который помогает ей сосредоточиться на том, что нужно пользователю — понять это помогает содержимое контекстного окна. И когда он говорит о том, что можно принять за мелочи, после упоминания в нескольких десятках вопросов они перестают быть мелочами.

Авторы работы из Anthropic проинформировали коллег и конкурентов о результатах исследования — они считают, что раскрытие информации подобного рода должно войти в отраслевую практику, и в результате «сформируется культура, в которой эксплойты вроде этого будут открыто распространяться среди разработчиков больших языковых моделей и исследователей». Наиболее очевидный способ смягчить последствия атаки — сократить контекстное окно модели, но это снизит качество её работы.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
«Образ Джокера на Железном троне останется со мной навсегда»: релизный трейлер MultiVersus взбудоражил фанатов перед воскрешением игры 6 мин.
ChatGPT показал сильнейший в истории скачок выручки у мобильного приложения после запуска GPT-4o 41 мин.
Подписка требует жертв: инсайдеры предупредили о подорожании Game Pass из-за Call of Duty 2 ч.
OpenAI отключила в ChatGPT голос Sky в из-за удивительного сходства с голосом Скарлетт Йоханссон 2 ч.
Google обвинила Microsoft в неспособности защитить клиентов от кибератак 2 ч.
Опубликованы первые тесты видеокарт в бенчмарке 3DMark Steel Nomad, который выйдет завтра 3 ч.
Гендиректор Take-Two: Rockstar постарается выпустить GTA VI без багов, но это не главное 6 ч.
«Обязателен для всех фанатов»: для ремастера культового квеста Grim Fandango вышел мод с улучшениями графики 7 ч.
С конца мая ЦБ начнет проверять, как в банках идёт импортозамещение ПО 7 ч.
«Встряхнёт игровую индустрию»: новый геймплейный трейлер Black Myth: Wukong привёл геймеров в восторг 8 ч.
FPGA с HBM2e: AMD без лишнего шума выпустила ускоритель Alveo V80 стоимостью всего $9,5 тыс. 5 мин.
Asus выпустила первый в мире WOLED-монитор с глянцевым экраном без бликов — 26,5-дюймовый ROG Strix OLED XG27AQDMG 37 мин.
HMD Global готовит смартфон с дизайном легендарного Nokia Lumia 920 44 мин.
В погоне за ИИ: большинство строящихся в Северной Америке ЦОД арендуют ещё до того, как они готовы, несмотря на рост цен 2 ч.
Глава Asus: эволюция ИИ ПК пойдёт сложным путём 3 ч.
На память HBM к концу года придётся 35 % производства DRAM по передовым техпроцессам 3 ч.
Vivo выпустила смартфон iQoo Neo9S Pro на чипе Dimensity 9300+ по цене прошлогоднего Neo9 Pro с Dimensity 9300 5 ч.
Аналитики ожидают от Nvidia рекордный квартальный отчёт 6 ч.
«Яндекс» намерен запустить серийное производство роботов-курьеров до конца 2024 года 6 ч.
Google Cloud умудрилась поломать собственную сетевую инфраструктуру, но быстро исправилась 6 ч.