Название | Максимизируйте эффективность машинного обучения. Полное руководство по информационной системе |
---|---|
Автор произведения | ИВВ |
Жанр | |
Серия | |
Издательство | |
Год выпуска | 0 |
isbn | 9785006251625 |
Иллюстрация шагов обучения алгоритмов на большом объеме данных
Обучение алгоритмов на большом объеме данных часто включает следующие шаги:
1. Предобработка данных: перед началом обучения необходимо предобработать данные.
В процессе предобработки данных необходимо выполнить следующие шаги:
1.1. Удаление выбросов: Выбросы – это экстремальные значения, которые сильно отличаются от остальных данных. Они могут искажать обучение модели и влиять на точность предсказаний. Удаление выбросов может быть выполнено путем нахождения значений, выходящих за пределы определенного порога или на основе стандартного отклонения данных.
1.2. Обработка пропущенных значений: Пропущенные значения в данных могут возникнуть из-за ошибок в сборе данных или отсутствия информации. Обработка пропущенных значений включает такие методы, как удаление записей с пропущенными значениями, заполнение пропущенных значений средними или медианами, использование методов машинного обучения для предсказания пропущенных значений или использование специальных методов, таких как множественная импьютация.
1.3. Нормализация признаков: Некоторые алгоритмы машинного обучения могут быть чувствительны к несбалансированным или различающимся по масштабу признакам. Нормализация признаков позволяет привести их значения к определенному интервалу или стандартному распределению. Популярными методами нормализации являются масштабирование на интервал [0,1], стандартизация с нулевым средним и единичной дисперсией или нормализация по Z-оценке.
1.4. Преобразование категориальных признаков в числовые: некоторые алгоритмы машинного обучения требуют числовых данных. Если у вас есть категориальные признаки, такие как «пол» или «страна», их можно преобразовать в числовые признаки, используя методы, такие как кодирование меток или кодирование с одним активным состоянием (one-hot encoding).
1.5. Разбиение данных на обучающую, проверочную и тестовую выборки: для оценки качества модели необходимо разделить данные на независимые наборы. Обучающая выборка используется для обучения модели, проверочная – для настройки гиперпараметров и выбора лучшей модели, а тестовая выборка – для оценки качества предсказаний на неизвестных данных. Разбиение данных может быть выполнено случайным образом или с использованием временных разделителей, в зависимости от типа данных и целей анализа.
Конец ознакомительного фрагмента.
Текст предоставлен ООО «Литрес».
Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.
Безопасно