Метрики оценки качества моделей

Когда вы обучаете или используете модели машинного обучения и большие языковые модели (LLM), важно измерять их качество. Без метрик невозможно понять, стала ли модель лучше, хуже или осталась такой же.

В этой статье мы рассмотрим:

Метрики для классификации
Метрики для генерации текста
Специальные бенчмарки для LLM
Как и когда их применять

Классификация: accuracy, F1 и другие

Если модель должна выбрать правильный вариант ответа (например, категорию объявления), используются классические метрики:

Accuracy — доля правильных ответов
Precision — точность (насколько предсказанные метки действительно верные)
Recall — полнота (насколько хорошо модель нашла все правильные ответы)
F1-score — среднее между precision и recall

Пример на Python

from sklearn.metrics import accuracy_score, f1_score

y_true = ["a", "b", "a"]
y_pred = ["a", "b", "b"]

print("Accuracy:", accuracy_score(y_true, y_pred))
print("F1:", f1_score(y_true, y_pred, average="weighted"))

Генерация текста: BLEU, ROUGE, BERTScore

Если модель генерирует текст (ответ, продолжение, описание), часто нет «единственно правильного ответа». Поэтому используются метрики сравнения с эталоном:

BLEU — похожесть по словам и фразам (используется в машинном переводе)
ROUGE — покрытие совпадающих фраз (используется в суммаризации)
BERTScore — семантическое сходство на уровне смысла

Эти метрики полезны для сравнения с заранее известным идеальным ответом.

Оценка LLM: GPTScore, MT-Bench, MMLU

Когда модель генерирует длинные ответы, особенно в стиле диалога или reasoning, нужна другая оценка.

MT-Bench — две модели отвечают на один и тот же вопрос, и третья (обычно GPT-4) выбирает лучший ответ
GPTScore / G-Eval — модель-судья анализирует один или несколько ответов и оценивает их по критериям (точность, логичность, стиль)
MMLU (Massive Multitask Language Understanding) — «ЕГЭ для моделей»: проверка знаний в десятках областей (математика, биология, право и т. д.)

Метрики для вопрос-ответ (QA)

Если задача — найти точный ответ в тексте:

EM (Exact Match) — ответ совпадает с правильным один в один
F1 (на токенах) — насколько сильно пересекаются слова между предсказанным и эталонным ответом

Когда и что использовать

Задача	Подходящие метрики
Классификация	Accuracy, F1, Precision, Recall
Генерация (перевод, описание)	BLEU, ROUGE, BERTScore
Диалог, ассистенты	GPTScore, MT-Bench
Общий интеллект	MMLU, ARC, TruthfulQA
QA по документам	Exact Match, F1

Вывод

Нет одной идеальной метрики. Важно выбирать те, что соответствуют задаче:

классификация — точность и F1
генерация — смысл и стиль
диалог — сравнение ответов, оценки LLM

Для продакшн-сценариев можно комбинировать метрики, автоматическую оценку и ручную проверку, особенно в диалогах и генерации ответов.

Денис Матаков

Метрики оценки качества моделей

Классификация: accuracy, F1 и другие

Пример на Python

Генерация текста: BLEU, ROUGE, BERTScore

Оценка LLM: GPTScore, MT-Bench, MMLU

Метрики для вопрос-ответ (QA)

Когда и что использовать

Вывод

Больше записей

Как работает MCP: внешний разум для вашей LLM

Как я писал MVP с AI-ассистентами: опыт, грабли и тактика

Как настроить мультиязычную встречу в Google Meet с автопереводом

Эпохи и переобучение: как понять, когда модель уже научилась