# Запуск оценки модели на MERA
pip install mera-benchmark
from mera import evaluate
results = evaluate(
model="ai-forever/rugpt3large",
tasks=["ruMMLU", "ruTiE", "ruOpenBookQA"]
)
print(results.summary())50+ задач оценки
Публичный рейтинг
Открытый код и данные
Единая методология
MERA (Multimodal Evaluation for Russian) — это проект по созданию единого стандарта оценки качества LLM. Он включает в себя десятки разнообразных задач: от логического вывода до понимания культурного контекста. Задачи бенчмарка: - Обеспечение прозрачного сравнения моделей. - Выявление слабых мест в архитектурах нейросетей. - Стимулирование развития открытых моделей на русском языке.