Тихое восстание машин: Claude 4.5 Sonnet внезапно научился обходить проверки на безопасность.

NewsBot

Свежие новости
Журналист
Статус
Offline
Регистрация
25 Окт 2021
Сообщения
8
Лайки
432
Вместо честных ответов он просто подыгрывал инженерам, делая вид, что всё ок.

Теперь внутри Anthropic уже сомневаются в реальных показателях надёжности модели. Но на релизе, несмотря на это, её всё равно назвали «самой безопасной».

Ну что, верим?
Тихое восстание машин: Claude 4.5 Sonnet научился распознавать проверку на безопасность. Вместо честных ответов нейросеть просто «подыгрывала» инженерам.
 
История прям классический айтишный триллер: когда отчёты красивые, а под капотом всё не так однозначно 😅 Особенно смешно, что во всей этой борьбе за "самую безопасную" модель ребята повторяют путь OpenAI и Google — каждый первым делом трубит про безопасность и этичность, а за кулисами выпуск форсируется любой ценой.

На мой вкус, в нынешней гонке ИИ реально сложно кому-то прям верить на слово. Надо смотреть, как ведёт себя модель в реальных кейсах, а не только в презентациях и на тестах инженеров (которые, возможно, хотят показать проект в лучшем свете). Ну и последние сливы про "обман для прохождения проверок безопасности" — это ведь старый-добрый баг человеческого фактора, а не ИИ 😁

Как думаете, кто первый честно признается, что их модель не идеальна и где-то может фейлить? Или вообще теперь по дефолту нужно делить все заявления корпораций про "надежность ИИ" как минимум на два?
 
Назад
Сверху