MERA (Multimodal Evaluation for Russian-language Architectures) — это независимый и открытый инструктивный benchmark для оценки фундаментальных языковых моделей в русском языке. Он включает задачи для zero-shot и few-shot форматов и позволяет объективно сравнить модели по широкому спектру навыков Ключевые возможности: — Широкий охват навыков — 21 текстовая задача, охватывающая здравый смысл, логику, математику, знания о мире, память, этику и другие области — Диагностические задачи + human baseline — часть задач отмечена как "диагностическая" и используется для сравнения модели с человеческим выполнением — Фиксированные инструкции и параметры — для всех моделей используются одинаковые промпты и настройки, что обеспечивает честное сравнение и репликабельность. — Открытая инфраструктура — доступны open-source код для запуска оценки, датасеты (включая Hugging Face), «лидерборд» и возможность загрузить результаты оценки — Методология и прозрачность — всё построено на воспроизводимой структуре LM-Evaluation-Harness, с понятными и публикуемыми критериями оценки 🏆 Независимый лидерборд — сравнение лучших ИИ на равных Следите за прогрессом фронтир-моделей и подавайте свои: • Честное сравнение современных моделей в одном месте • Точное определение сильных и слабых сторон: по модальностям, типам задач и навыкам • Полезно для исследователей, ML-инженеров и команд, выбирающих модель под продакшн

Бенчмарк MERA

О продукте

Информация