Предсказываем тренды. С Rattle и R в мир моделей классификации. Александр Фоменко

Читать онлайн.
Название Предсказываем тренды. С Rattle и R в мир моделей классификации
Автор произведения Александр Фоменко
Жанр Компьютеры: прочее
Серия
Издательство Компьютеры: прочее
Год выпуска 0
isbn 9785449663054



Скачать книгу

вероятности класса (или доверительное значение) не могли бы быть непротиворечивыми с дискретными предсказаниями класса при использовании неравных затрат. Заключительное предсказание класса для выборки является функцией вероятности класса и структуры издержек. Вероятности класса в терминальном узле могут заметно одобрять определенный класс, но также и иметь крупную ожидаемую стоимость. Поэтому есть разрыв между доверительным значением и предсказанным классом. Отсюда, простые вероятности класса (или доверительные значения) не должны использоваться при этих обстоятельствах.

      9.6. Функции R

      Приведем некоторые функции, которые могут быть использованы при работе над данным разделом.

      Приведено название функции, а в скобках название пакета, в котором функция расположена. Для использования функция необходима загрузка пакета, а если его еще нет, то и установка.

      Если названия пакета не приведено – это означает, что функция имеется в базовом пакете и не требуется предварительная загрузка пакета.

      Для реализации идей данного раздела могут быть использованы следующие пакеты: caret, C50, DMwR, kernlab, pROC и rpart.

      createDataPartition (caret)

      стратифицированная случайная выборка;

      coords (pROC)

      оптимизирует чувствительность и специфичность на кривой ROC;

      downSample (caret)

      upSample (caret)

      выравнивает классы;

      ksvm (kernlab)

      с параметром class. weights подгоняет модель SVM в режиме взвешивания.

      10. Значимость предикторов для целевой переменной

      Под значимостью предикторов понимается степень влияния предиктора на целевую переменную как самостоятельно, так в совокупности с другими предикторами.

      Функции оценки значимости предикторов могут быть разделены на две группы: те, которые используют информацию о модели и те, которые не используют информацию о модели. Преимущество подхода, основанного на модели, состоит в том, что в этом случае подход связан с результативностью модели и что он, скорее всего, включает структуру корреляции между предикторами при вычислении значимости. Независимо от того, как вычислена значимость для большинства моделей классификации у каждого предиктора будет отдельная значимость предиктора для каждого класса (исключения – деревья классификации, бутстрэп агрегированные деревья и усиленные деревья).

      10.1. Метрики значимости, полученной из моделей

      Величина значимости предикторов, полученная из сведений, входящих в результат подгонки моделей, ценна тем, что значимость предикторов тесно связана с другими параметрами модели. При оценке модели в целом мы всегда получаем оценку значимости предикторов, а произведя манипуляции с предикторами (объединение, удаление) всегда можно сравнить полученный результат по результативности модели в целом.

      В рамках R доступны следующие