Название | Оценка качества моделей машинного обучения: выбор, интерпретация и применение метрик |
---|---|
Автор произведения | Алексей Михнин |
Жанр | |
Серия | |
Издательство | |
Год выпуска | 2023 |
isbn |
Пример № 1:
Пример № 1: В задаче классификации писем на спам и не спам, модель должна максимизировать количество обнаруженных спам-писем. Если модель правильно определила 80 из 100 спам-писем, то полнота модели для класса "спам" будет 80%.
Давайте рассмотрим пошаговое решение для метрики Recall (Полнота) на примере № 1:
Определите класс, для которого вы хотите рассчитать полноту. В данном примере это класс "спам".
Разделите все примеры на 4 категории: True Positive (TP), False Positive (FP), True Negative (TN) и False Negative (FN). В данном примере это:
TP: модель правильно определила спам-письмо как спам (80 писем).
FP: модель неправильно определила не спам-письмо как спам (20 писем).
FN: модель неправильно определила спам-письмо как не спам (20 писем).
Рассчитайте полноту как отношение TP к общему числу положительных примеров (TP + FN):
Recall = TP / (TP + FN) = 80 / (80 + 20) = 0.8 = 80%
Таким образом, в данном примере модель правильно определила 80 из 100 спам-писем, что соответствует полноте в 80%.
Пример № 2: Представьте, что вы работаете аналитиком в интернет-магазине, который хочет улучшить свой алгоритм рекомендаций товаров пользователям. Вы хотите проверить, насколько хорошо работает текущий алгоритм и решаете посчитать метрику полноты для одной из категорий товаров – "электроника".
Для этого вы берете случайную выборку из 200 пользователей, которые просмотрели товары в категории "электроника" на вашем сайте за последний месяц. После того, как вы применили алгоритм рекомендаций, вы получили следующие результаты:
Из 200 пользователей 120 купили хотя бы один рекомендованный товар в категории "электроника" (TP).
Из 200 пользователей 80 не купили ни одного рекомендованного товара в категории "электроника" (FN).
Рассчитайте метрику полноты (recall) для категории "электроника".
Решение:
TP = 120 (пользователи, которые купили хотя бы один рекомендованный товар в категории "электроника") FN = 80 (пользователи, которые не купили ни одного рекомендованного товара в категории "электроника")
Recall = TP / (TP + FN) = 120 / (120 + 80) = 0.6 = 60%
Метрика полноты для категории "электроника" составляет 60%. Это означает, что ваш текущий алгоритм рекомендаций смог правильно найти 60% всех пользователей, которые купили товары в этой категории за последний месяц. Вам следует анализировать результаты и работать над улучшением алгоритма, чтобы повысить метрику полноты и увеличить долю пользователей, которым будут рекомендованы интересные товары в категории "электроника".
Метрика F1-score (F-мера)
Метрика F1-score (F-мера) – это совместная метрика для оценки качества алгоритма классификации, которая учитывает обе метрики Precision (Точность) и Recall (Полнота). F1-score является гармоническим средним между Precision и Recall, что делает эту метрику более сбалансированной, чем каждая из них по отдельности. F1-score особенно полезна в случаях, когда классы в данных несбалансированы или когда ошибки первого и второго рода имеют схожую важность.
Метрика