В мире оценки возможностей моделей искусственного интеллекта появился новый бенчмарк — Prophet Arena. Он позволяет оценить, насколько эффективно LLM справляются с предсказанием будущих событий. Исследователи тестировали модели на разнообразных ситуациях — от исходов спортивных состязаний до выбора кандидата от республиканцев в Сенат.