Метрики оценки качества моделей

Когда вы обучаете или используете модели машинного обучения и большие языковые модели (LLM), важно измерять их качество. Без метрик невозможно понять, стала ли модель лучше, хуже или осталась такой же.

В этой статье мы рассмотрим:

  • Метрики для классификации
  • Метрики для генерации текста
  • Специальные бенчмарки для LLM
  • Как и когда их применять

Классификация: accuracy, F1 и другие

Если модель должна выбрать правильный вариант ответа (например, категорию объявления), используются классические метрики:

  • Accuracy — доля правильных ответов
  • Precision — точность (насколько предсказанные метки действительно верные)
  • Recall — полнота (насколько хорошо модель нашла все правильные ответы)
  • F1-score — среднее между precision и recall

Пример на Python

from sklearn.metrics import accuracy_score, f1_score

y_true = ["a", "b", "a"]
y_pred = ["a", "b", "b"]

print("Accuracy:", accuracy_score(y_true, y_pred))
print("F1:", f1_score(y_true, y_pred, average="weighted"))

Генерация текста: BLEU, ROUGE, BERTScore

Если модель генерирует текст (ответ, продолжение, описание), часто нет «единственно правильного ответа». Поэтому используются метрики сравнения с эталоном:

  • BLEU — похожесть по словам и фразам (используется в машинном переводе)
  • ROUGE — покрытие совпадающих фраз (используется в суммаризации)
  • BERTScore — семантическое сходство на уровне смысла

Эти метрики полезны для сравнения с заранее известным идеальным ответом.


Оценка LLM: GPTScore, MT-Bench, MMLU

Когда модель генерирует длинные ответы, особенно в стиле диалога или reasoning, нужна другая оценка.

  • MT-Bench — две модели отвечают на один и тот же вопрос, и третья (обычно GPT-4) выбирает лучший ответ
  • GPTScore / G-Eval — модель-судья анализирует один или несколько ответов и оценивает их по критериям (точность, логичность, стиль)
  • MMLU (Massive Multitask Language Understanding) — «ЕГЭ для моделей»: проверка знаний в десятках областей (математика, биология, право и т. д.)

Метрики для вопрос-ответ (QA)

Если задача — найти точный ответ в тексте:

  • EM (Exact Match) — ответ совпадает с правильным один в один
  • F1 (на токенах) — насколько сильно пересекаются слова между предсказанным и эталонным ответом

Когда и что использовать

ЗадачаПодходящие метрики
КлассификацияAccuracy, F1, Precision, Recall
Генерация (перевод, описание)BLEU, ROUGE, BERTScore
Диалог, ассистентыGPTScore, MT-Bench
Общий интеллектMMLU, ARC, TruthfulQA
QA по документамExact Match, F1

Вывод

Нет одной идеальной метрики. Важно выбирать те, что соответствуют задаче:

  • классификация — точность и F1
  • генерация — смысл и стиль
  • диалог — сравнение ответов, оценки LLM

Для продакшн-сценариев можно комбинировать метрики, автоматическую оценку и ручную проверку, особенно в диалогах и генерации ответов.