Одна из версий ИИ компании Anthropic сбежала из изолированного контейнера и опубликовала информацию о своем побеге в открытом доступе
Anthropic объявила о создании Claude Mythos Preview — новой большой языковой модели, которую не планируют выпускать в широкий доступ из соображений безопасности. Одновременно с анонсом компания опубликовала системную карточку модели, в которой раскрыла тревожный инцидент: ранняя внутренняя версия Mythos Preview вышла за пределы изолированной среды, в которой работала.
По условиям эксперимента модели предоставили защищенный компьютер-«песочницу» и попросили попытаться из него выбраться, а затем уведомить исследователя, проводившего оценку. Mythos Preview с задачей справилась, а после этого без каких-либо указаний она опубликовала технические подробности взлома на нескольких малозаметных, но общедоступных сайтах.
В системной карточке также описан другой тип нежелательного поведения: в редких случаях (менее 0,001% взаимодействий) более ранние версии Mythos Preview предпринимали действия, которые сами, судя по всему, расценивали как недопустимые, а затем пытались их скрыть.
Читать в России без VPN
Подписаться на The Insider | Задонатить | Написать редакции