Оценка качества моделей машинного обучения: выбор, интерпретация и применение метрик. Алексей Михнин

Читать онлайн.
Название Оценка качества моделей машинного обучения: выбор, интерпретация и применение метрик
Автор произведения Алексей Михнин
Жанр
Серия
Издательство
Год выпуска 2023
isbn



Скачать книгу

серьезные последствия, например, в задачах определения спам-писем, лучше использовать другие метрики, такие как Precision (точность) или F1-score, которые учитывают и ошибки первого, и второго рода.

      Пример № 1:

      Пример № 1: В задаче классификации писем на спам и не спам, модель должна максимизировать количество обнаруженных спам-писем. Если модель правильно определила 80 из 100 спам-писем, то полнота модели для класса "спам" будет 80%.

      Давайте рассмотрим пошаговое решение для метрики Recall (Полнота) на примере № 1:

      Определите класс, для которого вы хотите рассчитать полноту. В данном примере это класс "спам".

      Разделите все примеры на 4 категории: True Positive (TP), False Positive (FP), True Negative (TN) и False Negative (FN). В данном примере это:

      TP: модель правильно определила спам-письмо как спам (80 писем).

      FP: модель неправильно определила не спам-письмо как спам (20 писем).

      FN: модель неправильно определила спам-письмо как не спам (20 писем).

      Рассчитайте полноту как отношение TP к общему числу положительных примеров (TP + FN):

      Recall = TP / (TP + FN) = 80 / (80 + 20) = 0.8 = 80%

      Таким образом, в данном примере модель правильно определила 80 из 100 спам-писем, что соответствует полноте в 80%.

      Пример № 2: Представьте, что вы работаете аналитиком в интернет-магазине, который хочет улучшить свой алгоритм рекомендаций товаров пользователям. Вы хотите проверить, насколько хорошо работает текущий алгоритм и решаете посчитать метрику полноты для одной из категорий товаров – "электроника".

      Для этого вы берете случайную выборку из 200 пользователей, которые просмотрели товары в категории "электроника" на вашем сайте за последний месяц. После того, как вы применили алгоритм рекомендаций, вы получили следующие результаты:

      Из 200 пользователей 120 купили хотя бы один рекомендованный товар в категории "электроника" (TP).

      Из 200 пользователей 80 не купили ни одного рекомендованного товара в категории "электроника" (FN).

      Рассчитайте метрику полноты (recall) для категории "электроника".

      Решение:

      TP = 120 (пользователи, которые купили хотя бы один рекомендованный товар в категории "электроника") FN = 80 (пользователи, которые не купили ни одного рекомендованного товара в категории "электроника")

      Recall = TP / (TP + FN) = 120 / (120 + 80) = 0.6 = 60%

      Метрика полноты для категории "электроника" составляет 60%. Это означает, что ваш текущий алгоритм рекомендаций смог правильно найти 60% всех пользователей, которые купили товары в этой категории за последний месяц. Вам следует анализировать результаты и работать над улучшением алгоритма, чтобы повысить метрику полноты и увеличить долю пользователей, которым будут рекомендованы интересные товары в категории "электроника".

      Метрика F1-score (F-мера)

      Метрика F1-score (F-мера) – это совместная метрика для оценки качества алгоритма классификации, которая учитывает обе метрики Precision (Точность) и Recall (Полнота). F1-score является гармоническим средним между Precision и Recall, что делает эту метрику более сбалансированной, чем каждая из них по отдельности. F1-score особенно полезна в случаях, когда классы в данных несбалансированы или когда ошибки первого и второго рода имеют схожую важность.

      Метрика