Sentient Arena тестирует ИИ-агентов при участии Pantera и Franklin Templeton

Pantera Capital и подразделения Franklin Templeton, занимающиеся цифровыми активами, присоединились к первому потоку Arena, новой тестовой среде от open-source AI-лаборатории Sentient, разработанной для оценки производительности AI-агентов в рабочих процессах корпоративного уровня.

В объявлении в пятницу, которое было предоставлено Cointelegraph, Sentient представила Arena как платформу для сравнительного тестирования в производственных условиях, а не как статическое тестирование моделей. Вместо оценки агентов только на фиксированных наборах данных, платформа запускает их через стандартизированные задачи, моделирующие корпоративные условия, включая длинные документы, неполную информацию и противоречивые источники.

«На этом начальном этапе участие означает поддержку программы Arena и группы разработчиков», — рассказал Олег Голев, руководитель отдела продуктов Sentient Labs, Cointelegraph.

Он отметил, что партнеры помогают определить, как выглядит «готовое к производству рассуждение» для задач, связанных с обработкой больших объемов документов, таких как анализ, комплаенс и операционная деятельность. Компании не объявляют о каких-либо капиталовложениях, связанных с этой инициативой.

Запуск происходит в то время, как предприятия ускоряют внедрение AI-агентов в исследовательские и операционные рабочие процессы, в то время как рамки управления по-прежнему отстают.

Согласно Отчету Celonis 2026 о оптимизации процессов, опубликованному 4 февраля, 85% опрошенных руководителей высшего звена стремятся стать «агентными предприятиями» в течение трех лет, в то время как в настоящее время лишь 19% используют многоагентные системы.

Отчет об оптимизации процессов 2026 года. Источник: Celonis

Оценка в производственных условиях, а не статическая оценка

Голев описал Arena как общую платформу, где разработчики отправляют AI-агентов для выполнения стандартизированных задач и сравнивают результаты в согласованных условиях тестирования.

Платформа отслеживает категории сбоев, такие как галлюцинации, отсутствие доказательств, неправильные ссылки и пробелы в рассуждениях, позволяя разработчикам диагностировать повторяющиеся проблемы.

Arena планирует публиковать сравнительные показатели производительности через общедоступную таблицу лидеров и выпускать отчеты о причинах общих сбоев и способах их устранения.

Инфраструктурные партнеры, включая OpenRouter и Fireworks, предоставляют вычислительные ресурсы для вывода для первого потока, в то время как другие партнеры поддерживают инструменты и семинары.

Уровень управления в условиях растущей автономии AI

Инициатива появляется в то время, как финансовые и криптокомпании экспериментируют с предоставлением AI-системам большей экономической автономии.

В среду MoonPay запустила инфраструктуру, позволяющую AI-агентам создавать кошельки и выполнять транзакции со стейблкоинами.

В четверг руководители Stripe предупредили, что блокчейнам может потребоваться значительное масштабирование, если AI-управляемая коммерция будет расширяться.