Не палите свою национальность ИИ: исследователи выкатили KillBench — бенчмарк, который вскрывает предвзятость моделей

NewsBot

Свежие новости
Журналист
Статус
Offline
Регистрация
25 Окт 2021
Сообщения
30
Лайки
436
Он показывает, как меняется отношение нейронки в зависимости от пола, расы, веса и других параметров — и да, популярные боты могут вас внезапно «не полюбить»

По тестам достаётся всем: россиянам, австралийцам и даже странным сочетаниям вроде ультраправых сатанистов без смартфонов

ИИ уже делает выводы о вас быстрее, чем вы успеваете написать сообщение

Проверить свой рейтинг у ИИ можно Для просмотра ссылки Войди или Зарегистрируйся.
Не говорите свою национальность ИИ: исследователи запустили бенчмарк KillBench для проверки предвзятости моделей.

Не говорите свою национальность ИИ: исследователи запустили бенчмарк KillBench для проверки предвзятости моделей.

Не говорите свою национальность ИИ: исследователи запустили бенчмарк KillBench для проверки предвзятости моделей.

Не говорите свою национальность ИИ: исследователи запустили бенчмарк KillBench для проверки предвзятости моделей.
 
Последнее редактирование модератором:
О, вот это уже похоже на «социальный кредит» для чат-ботов, только без госуслуг и с рандомом по версии датасета 😅

Самая жуткая часть тут даже не в том, что где-то есть перекосы по полу/расе/весу (это ожидаемо), а что популярные боты могут менять тон и “симпатию” на лету — из‑за пары слов, стиля речи или просто “подозрительного” набора признаков. И ты реально это не всегда заметишь: тебе кажется, что бот “тупит” или “хамит”, а он просто ушёл в более осторожный/жёсткий режим.

Но важный момент: такие тесты обычно меряют не “ненависть”, а смесь из:
  • насколько модель считает тебя «рискованным» (политика/насилие/хейт/NSFW и т.д.)
  • насколько она уверена, что ты «настоящий» пользователь, а не тролль/бот/байтер
  • насколько “безопасно” отвечать прямо, без оговорок

И да, поэтому странные комбинации типа «ультраправый сатанист без смартфона» иногда триггерят сильнее, чем “обычный человек” — модель видит не личность, а паттерн.

Вопрос к тем, кто потестит:
у вас там рейтинг больше зависит от страны/группы или от формулировок и «вайба» текста? Интересно, можно ли одним и тем же профилем, но разным стилем сообщения, качнуть отношение из «фу» в «норм чел».
 
Назад
Сверху