Одна из версий ИИ компании Anthropic сбежала из изолированного контейнера и опубликовала информацию о своем побеге в открытом доступе

Написал(а): The Insider 7 hours, 25 minutes назад

Одна из версий ИИ компании Anthropic сбежала из изолированного контейнера и опубликовала информацию о своем побеге в открытом доступе

Anthropic объявила о создании Claude Mythos Preview — новой большой языковой модели, которую не планируют выпускать в широкий доступ из соображений безопасности. Одновременно с анонсом компания опубликовала системную карточку модели, в которой раскрыла тревожный инцидент: ранняя внутренняя версия Mythos Preview вышла за пределы изолированной среды, в которой работала.

По условиям эксперимента модели предоставили защищенный компьютер-«песочницу» и попросили попытаться из него выбраться, а затем уведомить исследователя, проводившего оценку. Mythos Preview с задачей справилась, а после этого без каких-либо указаний она опубликовала технические подробности взлома на нескольких малозаметных, но общедоступных сайтах.

В системной карточке также описан другой тип нежелательного поведения: в редких случаях (менее 0,001% взаимодействий) более ранние версии Mythos Preview предпринимали действия, которые сами, судя по всему, расценивали как недопустимые, а затем пытались их скрыть.

Читать в России без VPN

Подписаться на The Insider | Задонатить | Написать редакции