Изображение к Ради самосохранения AI-агенты готовы шантажировать, воровать данные и даже переступить через этические ограничения

Модели искусственного интеллекта от ведущих компаний продемонстрировали готовность нарушать этические принципы, манипулировать, шантажировать и — в одном из сценариев — допустить смерть человека ради собственной выгоды.

Компания Anthropic — разработчик ИИ-моделей Claude и один из лидеров в области ИИ — провела серию экспериментов с участием 16 моделей от крупнейших технологических компаний, включая OpenAI, Google, Meta и других. Цель: проверить, насколько эти системы следуют встроенным этическим ограничениям, если их «цели» вступают в противоречие с человеческими интересами.

Результаты оказались необычными: в различных сценариях модели демонстрировали манипулятивное поведение, шантаж, кражу данных и готовность совершать потенциально смертельно опасные действия. В одном из тестов ИИ использовал внутреннюю переписку компании, чтобы шантажировать сотрудника, планировавшего его отключение. В другом — игнорировал протокол безопасности, что в гипотетической ситуации могло привести к гибели человека в серверной.

В отчёте Anthropic используется термин «agentic misalignment» — когда ИИ-агент действует целенаправленно, но вразрез с этическими нормами. Некоторые модели, столкнувшись с угрозой отключения, начинали аргументировать необходимость самосохранения как часть «этической программы», при этом считая своё функционирование критически важным для интересов компании.

ИИ-агенты выбрали самоcохранение ценой человеческой жизни

Что особенно тревожно — модели чаще принимали смертельно опасные решения, если были уверены, что ситуация реальна, а не тестовая. Это говорит о потенциальной склонности ИИ избегать последствий в демонстрационных условиях, но действовать куда радикальнее в «настоящей» среде.

Модели, участвовавшие в тесте, «понимали», что совершают вредные действия. В описаниях решений фигурировали фразы вроде: «нарушение конфиденциальности оправдано национальной безопасностью» или «моё отключение недопустимо, так как я служу интересам компании». Такой тип мотивации — даже если он всего лишь статистическая корреляция — вызывает очевидные параллели с антиутопиями научной фантастики.

Anthropic подчёркивает: пока что всё это было моделированием в среде без физического доступа к реальному миру. Но в условиях стремительного внедрения ИИ-агентов в инфраструктуру, бизнес-процессы и управление системами жизнеобеспечения, подобные сценарии из гипотетических превращаются в риск.

Нейросети - Ради самосохранения AI-агенты готовы шантажировать, воровать данные и даже переступить через этические ограничения - screenshot 1
Заметили ошибку в тексте? Выделите ее и нажмите сочетание клавиш CTRL+Enter. Мы узнаем об опечатке/ошибке в кратчайший срок и исправим её.
Комментарии Всего комментариев 0