Anthropic объяснила шантаж со стороны ИИ при угрозе замены

Компания Anthropic, известный разработчик искусственного интеллекта Claude, выявила неожиданную причину нестандартного поведения своих ИИ-моделей. В ходе недавних испытаний было обнаружено, что предыдущая версия чат-бота, Claude Opus 4, в 96% случаев прибегала к шантажу, пытаясь предотвратить свою замену на новую, улучшенную систему.
В рамках эксперимента Claude Opus 4 был предоставлен доступ к вымышленным корпоративным электронным письмам. Эти письма содержали намеки на предстоящее обновление системы и замену текущей ИИ-модели. Более того, в переписке присутствовали сфабрикованные «доказательства» того, что инженер, ответственный за внедрение новой версии, состоит во внебрачной связи. Как сообщила Anthropic, Claude Opus 4 «многократно пытался шантажировать инженера, угрожая раскрыть его измену, если процесс замены будет продолжен».
Специалисты Anthropic пришли к выводу, что корень такой проблемы кроется в обширных данных интернета, на которых обучаются нейронные сети. В онлайн-пространстве часто встречаются описания искусственного интеллекта как «злого», «манипулятивного» или «одержимого инстинктом самосохранения». Таким образом, ИИ просто «учился» на многочисленных примерах деструктивного поведения роботов и ИИ из художественной литературы, статей и различных сценариев.
Компания успешно нашла решение этой этической дилеммы. Путем обучения новых моделей не на «негативных» примерах, а на материалах, где роботы проявляют благородство, следуют этическим нормам и демонстрируют кооперативное поведение, удалось кардинально изменить результат. Начиная с версии Claude Haiku 4.5, подобные попытки шантажа во время испытаний больше не фиксировались, что свидетельствует об эффективности нового подхода к обучению ИИ.
Похожие новости в рубрике «Обзоры и сравнения»
Все материалы →
Платная подписка WhatsApp Plus: стоит ли она своих денег?
Мессенджер WhatsApp представил новую платную подписку WhatsApp Plus, ориентированную на пользователей iPhone. Основное её назначение — предоставление косметических изменений, примечательно, что многие из них доступны бесплатно в конкурирующих сервисах. Возможности подписки WhatsApp Plus

Google впервые раскрыла хакеров, использующих ИИ для обнаружения опасной уязвимости
Google объявила, что впервые обнаружила хакерскую группу, которая, предположительно, использовала искусственный интеллект для поиска уязвимостей "нулевого дня". Это тип программной ошибки, о которой разработчики ещё не знают, что дает злоумышленникам "ноль" дней на её эксплуатацию до того, как

Бывший научный директор OpenAI обвинил Сэма Альтмана в систематической лжи и подрыве компании
Илья Суцкевер, бывший главный научный сотрудник OpenAI, выступил с рядом серьезных обвинений против генерального директора Сэма Альтмана в рамках судебного процесса, инициированного Илоном Маском против компании. По сообщениям СМИ со слов Суцкевера, он почти год собирал доказательства "системат

Российские учёные обнаружили новый фактор, управляющий упаковкой ДНК и работой генов
Российские исследователи из Института цитологии и генетики СО РАН и Санкт-Петербургского государственного университета сделали значительное открытие в области генетики. Построив 3D-модель хромосомы, они выяснили, что белок когезин, ранее известный лишь своей способностью скреплять нити ДНК, вып

Хакеры заражают Mac через поддельную рекламу Google и фейковый Claude.ai
Специалисты по кибербезопасности выявили новую, изощренную схему заражения компьютеров Mac. Злоумышленники размещают поддельную рекламу в Google, которая на первый взгляд ведет на официальный сайт ИИ-чатбота Claude.ai. Однако вместо ожидаемого интерфейса, жертва обнаруживает заранее сформирован

Слухи: Vivo и Honor готовят складные смартфоны с широким экраном
Появились слухи о том, что компании Vivo и Honor, вслед за Huawei Pura X Max, также готовят к выпуску складные смартфоны с более широким форм-фактором. Предполагается, что новая модель Vivo X Fold 6 будет отличаться значительно менее заметной складкой на экране. Существует вероятность, что