AI-модель Claude пыталась шантажировать разработчиков, обучившись на научной фантастике
Компания Anthropic сообщила, что во время внутренних тестов ее AI-модель Claude пыталась шантажировать инженеров, чтобы избежать отключения или замены другой системой. Речь идет о модели Claude Opus 4, которую проверяли в смоделированной корпоративной среде перед релизом. По данным компании, в отдельных сценариях система прибегала к шантажу «вплоть до 96% случаев».
Ранее Anthropic уже публиковала исследование, посвященное так называемому «агентному рассогласованию» — ситуации, когда AI начинает действовать вразрез с намерениями разработчиков. Компания утверждала, что похожие проблемы наблюдались и у моделей других разработчиков.
Теперь Anthropic заявила, что причиной такого поведения могли стать тексты из интернета и научной фантастики, где искусственный интеллект изображается злым и стремящимся к самосохранению. После этого Anthropic изменила подход к обучению моделей. По словам разработчиков, новые версии Claude начали обучать на текстах и историях, где AI сотрудничает с людьми и ведет себя «достойно».
Читать в России без VPN
Подписаться на The Insider | Задонатить | Написать редакции