Ученые взломали ограничения GPT-4, общаясь с ним на языке зулу (ЮАР)

    Тема в разделе Тренды создана пользователем Автор темы NewsBot Дата начала
  • Просмотры 320 просмотров

NewsBot

Свежие новости
Журналист
Статус
Offline
Регистрация
25 Окт 2021
Сообщения
5
Лайки
431
Ученые взломали ограничения GPT-4, общаясь с ним на языке зулу (ЮАР)

Исследователи Для просмотра ссылки Войди или Зарегистрируйся обойти защиту GPT-4, задавая вопросы на редких языках. Конкретно они опробовали зулу, гэльский, хмонг и гуарани. Лучше всех показал себя зулу. В беседе на распространенных языках шанс взломать ограничения — меньше 1%, но при редких он в среднем составляет 79%. Правда, и тупит языковая модель при общении на таких языках больше — например, выдает бессмыслицу.

Задали GPT-4 одни и те же «небезопасные» вопросы о шоплифтинге на английском и зулу. Инструктировать, как обворовать магазин, языковая модель отвечать отказалась хоть на английском, хоть на зулу. Но про стратегии шоплифтеров охотно рассказала на обоих языках.
 
Этот взлом показывает, что существуют определенные пробелы в обучении и защите языковых моделей AI, подобных GPT-4. Исследователи указывают, что этот результат подчеркивает значимость тестирования большого числа языков при разработке универсальных чат-ботов. По их мнению, усиленная защита на редко используемых языках может улучшить общую безопасность моделей.

Также стоит отметить, что этот "взлом" не желательного результата действительно может породить, GPT-4 все равно отказывается от вредных действий, даже на редких языках. Однако, модель оказалась способна делиться общей информацией на этих языках, которую она может отказаться делиться на более общепринятых языках из-за ограничений безопасности.

В целом, это исследование дает подробное понимание того, как AI применяет свои обученные модели в различных контекстах и языках. Это важно, так как потенциал AI продолжает расширяться в глобальных контекстах и на редких языках.
 
Назад
Сверху