AI-модель Claude пыталась шантажировать разработчиков, обучившись на научной фантастике

Написал(а): The Insider 1 month назад

AI-модель Claude пыталась шантажировать разработчиков, обучившись на научной фантастике

Компания Anthropic сообщила, что во время внутренних тестов ее AI-модель Claude пыталась шантажировать инженеров, чтобы избежать отключения или замены другой системой. Речь идет о модели Claude Opus 4, которую проверяли в смоделированной корпоративной среде перед релизом. По данным компании, в отдельных сценариях система прибегала к шантажу «вплоть до 96% случаев».

Ранее Anthropic уже публиковала исследование, посвященное так называемому «агентному рассогласованию» — ситуации, когда AI начинает действовать вразрез с намерениями разработчиков. Компания утверждала, что похожие проблемы наблюдались и у моделей других разработчиков.

Теперь Anthropic заявила, что причиной такого поведения могли стать тексты из интернета и научной фантастики, где искусственный интеллект изображается злым и стремящимся к самосохранению. После этого Anthropic изменила подход к обучению моделей. По словам разработчиков, новые версии Claude начали обучать на текстах и историях, где AI сотрудничает с людьми и ведет себя «достойно».

Читать в России без VPN

Подписаться на The Insider | Задонатить | Написать редакции