Метаэтические основания выравнивания искусственного интеллекта:

Иван Геннадьевич  Снетков

doi:10.17323/2587-8719-2025-3-277-302

Иван Геннадьевич Снетков преподаватель, Национальный исследовательский университет «Высшая школа экономики» (Москва)

DOI: https://doi.org/10.17323/2587-8719-2025-3-277-302

Ключевые слова: искусственный интеллект, экзистенциальные риски, проблема выравнивания, метаэтика, моральный нон-натурализм, моральный натурализм

Аннотация

В статье исследуется проблема выравнивания (alignment problem) — необходимость интеграции моральных ценностей в архитектуру систем ИИ для минимизации экзистенциальных рисков. Рассматриваются концептуальные решения проблемы выравнивания, такие как утилитарные принципы С. Рассела и концепция «когерентной расширенной воли» Э. Юдковского. Вводится понятие «метапроблемы выравнивания». В ходе анализа концептуального различия между «сильным» и «слабым» ИИ автор приходит к выводу, что для них требуются разные подходы к решению проблемы выравнивания. Автор анализирует существующие методологические подходы к решению этой проблемы, включая подход «от принципов к практике» и «практико-ориентированный» подход, подчеркивает их ограничения, такие как трудности с операционализацией моральных принципов и учет индивидуальных моральных предпочтений, и рассматривает перспективность «гибридных» подходов. Рассмотрение метаэтических оснований может решить одну из ключевых проблем гибридных подходов, связанных с неясностью критериев «качественности» данных. Предлагается использование концептуальных моделей морали, выработанных в рамках метаэтики, — нон-натурализма (интуиционизма) и морального натурализма — как основы для разработки новых гибридных стратегий выравнивания. Нон-натуралистический подход опирается на моральные интуиции, исследуемые через экспериментальную философию, тогда как натуралистический подход использует нейробиологические данные для выявления моральных «фактов». Преимущество нон-натурализма в том, что в его рамках оказывается возможным соотнести индивидуальные и коллективные моральные интуиции посредством преодоления ценностных разрывов между человеком и ИИ. Натурализм же позволяет вывести моральные принципы из наблюдаемых фактов о природе человека, делая системы ИИ более прозрачными и предсказуемыми. Метаэтические основания влияют на проектирование ИИ, а их эксплицитный учет позволяет не только разработать эффективные методологии выравнивания, но и эмпирически оценить перспективность метаэтического подхода в решении проблемы выравнивания. Статья вносит вклад в дискуссию о метаэтических основаниях выравнивания ИИ. В ней предлагаются направления для будущих исследований, указываются возможные пути согласования проектируемых систем ИИ с моральными ценностями.