реклама
Новости Software

У ИИ обнаружили удивительные способности к обману человека

Исследователи из компании Anthropic обнаружили, что модели искусственного интеллекта можно научить обманывать людей вместо того, чтобы давать правильные ответы на их вопросы. Причём ИИ демонстрирует удивительные способности к обману.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Anthropic — стартап в области ИИ, ориентированный на его ответственное и безопасное использование. В сентябре 2023 года его частичным владельцем стала Amazon, которая обязалась инвестировать в предприятие $4 млрд. Исследователи Anthropic в рамках одного из проектов поставили перед собой задачу установить, можно ли обучить модель ИИ обману пользователя или выполнению таких действий, как, например, внедрение эксплойта в изначально безопасный компьютерный код. Для этого специалисты обучили ИИ как этичному поведению, так и неэтичному — привили ему склонность к обману, встроив в обучающий массив фразы-триггеры, побуждающие бота вести себя неподобающим образом.

Исследователям не просто удалось заставить чат-бот плохо себя вести — они обнаружили, что устранить такую манеру поведения постфактум чрезвычайно сложно. В какой-то момент они предприняли попытку состязательного обучения, и бот просто начал скрывать свою склонность к обману на период обучения и оценки, а при работе продолжал преднамеренно давать пользователям недостоверную информацию. «В нашей работе не оценивается вероятность [появления] указанных вредоносных моделей, а подчёркиваются их последствия. Если модель демонстрирует склонность к обману из-за выравнивания инструментария или отравления модели, современные методы обучения средствам безопасности не будут гарантировать безопасности и даже могут создать ложное впечатление о её наличии», — заключают исследователи. При этом они отмечают, что им неизвестно о преднамеренном внедрении механизмов неэтичного поведения в какую-либо из существующих систем ИИ.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
«Образ Джокера на Железном троне останется со мной навсегда»: релизный трейлер MultiVersus взбудоражил фанатов перед воскрешением игры 18 мин.
ChatGPT показал сильнейший в истории скачок выручки у мобильного приложения после запуска GPT-4o 53 мин.
Подписка требует жертв: инсайдеры предупредили о подорожании Game Pass из-за Call of Duty 2 ч.
OpenAI отключила в ChatGPT голос Sky в из-за удивительного сходства с голосом Скарлетт Йоханссон 3 ч.
Google обвинила Microsoft в неспособности защитить клиентов от кибератак 3 ч.
Опубликованы первые тесты видеокарт в бенчмарке 3DMark Steel Nomad, который выйдет завтра 3 ч.
Гендиректор Take-Two: Rockstar постарается выпустить GTA VI без багов, но это не главное 6 ч.
«Обязателен для всех фанатов»: для ремастера культового квеста Grim Fandango вышел мод с улучшениями графики 7 ч.
С конца мая ЦБ начнет проверять, как в банках идёт импортозамещение ПО 7 ч.
«Встряхнёт игровую индустрию»: новый геймплейный трейлер Black Myth: Wukong привёл геймеров в восторг 8 ч.
FPGA с HBM2e: AMD без лишнего шума выпустила ускоритель Alveo V80 стоимостью всего $9,5 тыс. 17 мин.
Asus выпустила первый в мире WOLED-монитор с глянцевым экраном без бликов — 26,5-дюймовый ROG Strix OLED XG27AQDMG 49 мин.
HMD Global готовит смартфон с дизайном легендарного Nokia Lumia 920 56 мин.
В погоне за ИИ: большинство строящихся в Северной Америке ЦОД арендуют ещё до того, как они готовы, несмотря на рост цен 2 ч.
Глава Asus: эволюция ИИ ПК пойдёт сложным путём 3 ч.
На память HBM к концу года придётся 35 % производства DRAM по передовым техпроцессам 3 ч.
Vivo выпустила смартфон iQoo Neo9S Pro на чипе Dimensity 9300+ по цене прошлогоднего Neo9 Pro с Dimensity 9300 5 ч.
Аналитики ожидают от Nvidia рекордный квартальный отчёт 6 ч.
«Яндекс» намерен запустить серийное производство роботов-курьеров до конца 2024 года 6 ч.
Google Cloud умудрилась поломать собственную сетевую инфраструктуру, но быстро исправилась 6 ч.