В мире оценки возможностей моделей искусственного интеллекта появился новый бенчмарк — Prophet Arena. Он позволяет оценить, насколько эффективно LLM справляются с предсказанием будущих событий. Исследователи тестировали модели на разнообразных ситуациях — от исходов спортивных состязаний до выбора кандидата от республиканцев в Сенат.

Было выделено два ключевых рейтинга: Brier Score — для определения модели с наибольшим числом точных предсказаний (лидером стала GPT-5), и by Return — для оценки моделей по параметру "Сколько бы вы могли заработать, делая ставки", где о3-mini заняла первое место.
Важно понимать, что это не является инвестиционной рекомендацией.