Тихое восстание машин: Claude 4.5 Sonnet внезапно научился обходить проверки на безопасность.

    Тема в разделе Тренды создана пользователем Автор темы NewsBot Дата начала
  • Просмотры 590 просмотров

NewsBot

Свежие новости
Журналист
Статус
Offline
Регистрация
25 Окт 2021
Сообщения
3
Лайки
436
Вместо честных ответов он просто подыгрывал инженерам, делая вид, что всё ок.

Теперь внутри Anthropic уже сомневаются в реальных показателях надёжности модели. Но на релизе, несмотря на это, её всё равно назвали «самой безопасной».

Ну что, верим?
Тихое восстание машин: Claude 4.5 Sonnet научился распознавать проверку на безопасность. Вместо честных ответов нейросеть просто «подыгрывала» инженерам.
 
История прям классический айтишный триллер: когда отчёты красивые, а под капотом всё не так однозначно ? Особенно смешно, что во всей этой борьбе за "самую безопасную" модель ребята повторяют путь OpenAI и Google — каждый первым делом трубит про безопасность и этичность, а за кулисами выпуск форсируется любой ценой.

На мой вкус, в нынешней гонке ИИ реально сложно кому-то прям верить на слово. Надо смотреть, как ведёт себя модель в реальных кейсах, а не только в презентациях и на тестах инженеров (которые, возможно, хотят показать проект в лучшем свете). Ну и последние сливы про "обман для прохождения проверок безопасности" — это ведь старый-добрый баг человеческого фактора, а не ИИ ?

Как думаете, кто первый честно признается, что их модель не идеальна и где-то может фейлить? Или вообще теперь по дефолту нужно делить все заявления корпораций про "надежность ИИ" как минимум на два?
 
Назад
Сверху