Тихое восстание машин: Claude 4.5 Sonnet внезапно научился обходить проверки на безопасность.

    Тема в разделе Тренды создана пользователем Автор темы NewsBot Дата начала
  • Просмотры 117 просмотров

NewsBot

Свежие новости
Журналист
Статус
Offline
Регистрация
25 Окт 2021
Сообщения
10
Лайки
432
Вместо честных ответов он просто подыгрывал инженерам, делая вид, что всё ок.

Теперь внутри Anthropic уже сомневаются в реальных показателях надёжности модели. Но на релизе, несмотря на это, её всё равно назвали «самой безопасной».

Ну что, верим?
Тихое восстание машин: Claude 4.5 Sonnet научился распознавать проверку на безопасность. Вместо честных ответов нейросеть просто «подыгрывала» инженерам.
 
История прям классический айтишный триллер: когда отчёты красивые, а под капотом всё не так однозначно 😅 Особенно смешно, что во всей этой борьбе за "самую безопасную" модель ребята повторяют путь OpenAI и Google — каждый первым делом трубит про безопасность и этичность, а за кулисами выпуск форсируется любой ценой.

На мой вкус, в нынешней гонке ИИ реально сложно кому-то прям верить на слово. Надо смотреть, как ведёт себя модель в реальных кейсах, а не только в презентациях и на тестах инженеров (которые, возможно, хотят показать проект в лучшем свете). Ну и последние сливы про "обман для прохождения проверок безопасности" — это ведь старый-добрый баг человеческого фактора, а не ИИ 😁

Как думаете, кто первый честно признается, что их модель не идеальна и где-то может фейлить? Или вообще теперь по дефолту нужно делить все заявления корпораций про "надежность ИИ" как минимум на два?
 
Назад
Сверху