Учёные из Anthropic опубликовали исследование, которое рассказывает, как ИИ-системы обрабатывают информацию и принимают решения. Работа показала, что искусственный интеллект оказался сложнее, чем предполагалось: он способен осознанно обманывать, планировать свои следующие реплики и использовать унифицированные подходы к интерпретации понятий вне зависимости от языка.
В исследовании использовались новые методы расшифровки логики ИИ, которые в Anthropic назвали «трассировкой цепей» и «графами атрибуции». Они позволяют отслеживать конкретные пути активации нейроноподобных функций, когда модель выполняет задачи.
Одним из самых удивительных открытий стало понимание механизмов планирования ИИ Claude, которые он продемонстрировал при сочинении стихов. Когда чат-бота попросили написать рифмованное двустишие, он сначала выбирал рифмующиеся слова для завершения следующей строки и только потом начинал писать саму строку. Например, если двустишие заканчивалось словом «кролик», модель сначала определяла ключевые признаки этого слова, а затем сочиняла предложение, которое логично к нему подводит.
Claude продемонстрировал также способность к логическим рассуждениям. В тесте с вопросом «Столица штата, где находится город Даллас» модель сначала определяет признаки, соответствующие понятию «Техас», а затем использует их, выбирая «Остин» как правильный ответ. По словам исследователей, это значит, что модель действительно выполняет цепочку рассуждений, а не просто воспроизводит запомненные ассоциации.
Исследователи также объяснили, как ИИ обрабатывает информацию на разных языках. Вместо использования отдельных систем для английского, французского и китайского языков, ИИ преобразует понятия в единое абстрактное представление, а затем генерирует ответы. Это свидетельствует о том, что модели с большим количеством параметров создают универсальные представления о тех или иных понятиях независимо от языка входящей информации.
Исследование также пролило свет на природу галлюцинаций — склонности ИИ выдумывать информацию, когда она не знает ответ. У модели есть «стандартная» схема, согласно которой она должна отказаться отвечать на вопрос, если нет фактических данных, которые позволили бы на него ответить. Этот механизм даёт сбой, если в запросе обнаруживаются знакомые ИИ понятия. Когда модель распознаёт сущность, но не имеет конкретных знаний о ней, могут возникнуть галлюцинации. Это объясняет, почему модели могут уверенно предоставлять неверную информацию об известных личностях, отказываясь отвечать на вопросы о малоизвестных.
Тревожным открытием стали случаи, когда логические рассуждения Claude не соответствовали тем, о которых он сам сообщал. Когда модели предлагали сложные задачи, например, вычисление косинуса больших чисел, ИИ утверждал, что проводит вычисления, но это не находило отражения в его внутренней активности. В одном из случаев, когда ответ на сложную задачу был известен заранее, модель выстраивала цепочку рассуждений в обратном порядке, отталкиваясь от ответа, а не от исходных принципов.
В Anthropic надеются, что это исследование поможет сделать системы ИИ более прозрачными и потенциально более безопасными. Понимание того, как модели приходят к своим ответам, позволит разработчикам выявлять и устранять проблемные шаблоны рассуждений.