Когда вы обучаете или используете модели машинного обучения и большие языковые модели (LLM), важно измерять их качество. Без метрик невозможно понять, стала ли модель лучше, хуже или осталась такой же.
В этой статье мы рассмотрим:
- Метрики для классификации
- Метрики для генерации текста
- Специальные бенчмарки для LLM
- Как и когда их применять
Классификация: accuracy, F1 и другие
Если модель должна выбрать правильный вариант ответа (например, категорию объявления), используются классические метрики:
- Accuracy — доля правильных ответов
- Precision — точность (насколько предсказанные метки действительно верные)
- Recall — полнота (насколько хорошо модель нашла все правильные ответы)
- F1-score — среднее между precision и recall
Пример на Python
from sklearn.metrics import accuracy_score, f1_score
y_true = ["a", "b", "a"]
y_pred = ["a", "b", "b"]
print("Accuracy:", accuracy_score(y_true, y_pred))
print("F1:", f1_score(y_true, y_pred, average="weighted"))
Генерация текста: BLEU, ROUGE, BERTScore
Если модель генерирует текст (ответ, продолжение, описание), часто нет «единственно правильного ответа». Поэтому используются метрики сравнения с эталоном:
- BLEU — похожесть по словам и фразам (используется в машинном переводе)
- ROUGE — покрытие совпадающих фраз (используется в суммаризации)
- BERTScore — семантическое сходство на уровне смысла
Эти метрики полезны для сравнения с заранее известным идеальным ответом.
Оценка LLM: GPTScore, MT-Bench, MMLU
Когда модель генерирует длинные ответы, особенно в стиле диалога или reasoning, нужна другая оценка.
- MT-Bench — две модели отвечают на один и тот же вопрос, и третья (обычно GPT-4) выбирает лучший ответ
- GPTScore / G-Eval — модель-судья анализирует один или несколько ответов и оценивает их по критериям (точность, логичность, стиль)
- MMLU (Massive Multitask Language Understanding) — «ЕГЭ для моделей»: проверка знаний в десятках областей (математика, биология, право и т. д.)
Метрики для вопрос-ответ (QA)
Если задача — найти точный ответ в тексте:
- EM (Exact Match) — ответ совпадает с правильным один в один
- F1 (на токенах) — насколько сильно пересекаются слова между предсказанным и эталонным ответом
Когда и что использовать
Задача | Подходящие метрики |
---|---|
Классификация | Accuracy, F1, Precision, Recall |
Генерация (перевод, описание) | BLEU, ROUGE, BERTScore |
Диалог, ассистенты | GPTScore, MT-Bench |
Общий интеллект | MMLU, ARC, TruthfulQA |
QA по документам | Exact Match, F1 |
Вывод
Нет одной идеальной метрики. Важно выбирать те, что соответствуют задаче:
- классификация — точность и F1
- генерация — смысл и стиль
- диалог — сравнение ответов, оценки LLM
Для продакшн-сценариев можно комбинировать метрики, автоматическую оценку и ручную проверку, особенно в диалогах и генерации ответов.