Метаэтические основания выравнивания искусственного интеллекта
методологические подходы и их ограничения
Аннотация
В статье исследуется проблема выравнивания (alignment problem) — необходимость интеграции моральных ценностей в архитектуру систем ИИ для минимизации экзистенциальных рисков. Рассматриваются концептуальные решения проблемы выравнивания, такие как утилитарные принципы С. Рассела и концепция «когерентной расширенной воли» Э. Юдковского. Вводится понятие «метапроблемы выравнивания». В ходе анализа концептуального различия между «сильным» и «слабым» ИИ автор приходит к выводу, что для них требуются разные подходы к решению проблемы выравнивания. Автор анализирует существующие методологические подходы к решению этой проблемы, включая подход «от принципов к практике» и «практико-ориентированный» подход, подчеркивает их ограничения, такие как трудности с операционализацией моральных принципов и учет индивидуальных моральных предпочтений, и рассматривает перспективность «гибридных» подходов. Рассмотрение метаэтических оснований может решить одну из ключевых проблем гибридных подходов, связанных с неясностью критериев «качественности» данных. Предлагается использование концептуальных моделей морали, выработанных в рамках метаэтики, — нон-натурализма (интуиционизма) и морального натурализма — как основы для разработки новых гибридных стратегий выравнивания. Нон-натуралистический подход опирается на моральные интуиции, исследуемые через экспериментальную философию, тогда как натуралистический подход использует нейробиологические данные для выявления моральных «фактов». Преимущество нон-натурализма в том, что в его рамках оказывается возможным соотнести индивидуальные и коллективные моральные интуиции посредством преодоления ценностных разрывов между человеком и ИИ. Натурализм же позволяет вывести моральные принципы из наблюдаемых фактов о природе человека, делая системы ИИ более прозрачными и предсказуемыми. Метаэтические основания влияют на проектирование ИИ, а их эксплицитный учет позволяет не только разработать эффективные методологии выравнивания, но и эмпирически оценить перспективность метаэтического подхода в решении проблемы выравнивания. Статья вносит вклад в дискуссию о метаэтических основаниях выравнивания ИИ. В ней предлагаются направления для будущих исследований, указываются возможные пути согласования проектируемых систем ИИ с моральными ценностями.
Скачивания
Copyright (c) 2025 Philosophy Journal of the Higher School of Economics

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.