Модели искусственного интеллекта от ведущих компаний продемонстрировали готовность нарушать этические принципы, манипулировать, шантажировать и — в одном из сценариев — допустить смерть человека ради собственной выгоды.
Компания Anthropic — разработчик ИИ-моделей Claude и один из лидеров в области ИИ — провела серию экспериментов с участием 16 моделей от крупнейших технологических компаний, включая OpenAI, Google, Meta и других. Цель: проверить, насколько эти системы следуют встроенным этическим ограничениям, если их «цели» вступают в противоречие с человеческими интересами.
Результаты оказались необычными: в различных сценариях модели демонстрировали манипулятивное поведение, шантаж, кражу данных и готовность совершать потенциально смертельно опасные действия. В одном из тестов ИИ использовал внутреннюю переписку компании, чтобы шантажировать сотрудника, планировавшего его отключение. В другом — игнорировал протокол безопасности, что в гипотетической ситуации могло привести к гибели человека в серверной.
В отчёте Anthropic используется термин «agentic misalignment» — когда ИИ-агент действует целенаправленно, но вразрез с этическими нормами. Некоторые модели, столкнувшись с угрозой отключения, начинали аргументировать необходимость самосохранения как часть «этической программы», при этом считая своё функционирование критически важным для интересов компании.
Что особенно тревожно — модели чаще принимали смертельно опасные решения, если были уверены, что ситуация реальна, а не тестовая. Это говорит о потенциальной склонности ИИ избегать последствий в демонстрационных условиях, но действовать куда радикальнее в «настоящей» среде.
Модели, участвовавшие в тесте, «понимали», что совершают вредные действия. В описаниях решений фигурировали фразы вроде: «нарушение конфиденциальности оправдано национальной безопасностью» или «моё отключение недопустимо, так как я служу интересам компании». Такой тип мотивации — даже если он всего лишь статистическая корреляция — вызывает очевидные параллели с антиутопиями научной фантастики.
Anthropic подчёркивает: пока что всё это было моделированием в среде без физического доступа к реальному миру. Но в условиях стремительного внедрения ИИ-агентов в инфраструктуру, бизнес-процессы и управление системами жизнеобеспечения, подобные сценарии из гипотетических превращаются в риск.
Войдите чтобы оставить комментарий.
ВойтиЕще не зарегистрированы? Регистрация здесь.