Название | Интеллектуальный анализ данных. Учебник |
---|---|
Автор произведения | Вадим Николаевич Шмаль |
Жанр | |
Серия | |
Издательство | |
Год выпуска | 0 |
isbn | 9785005944801 |
Обнаружение аномалий
При анализе данных обнаружение аномалий (также обнаружение выбросов) – это идентификация редких элементов, событий или наблюдений, которые вызывают подозрения, поскольку значительно отличаются от большинства данных. Одним из применений обнаружения аномалий является безопасность или бизнес-аналитика как способ определения уникальных условий нормального или наблюдаемого распределения. Аномальные распределения отличаются от среднего тремя способами. Во-первых, они могут быть соотнесены с предыдущими значениями; во-вторых, существует постоянная скорость изменения (в противном случае они являются выбросом); и в-третьих, они имеют нулевое среднее значение. Регулярное распределение является нормальным распределением. Аномалии в данных могут быть обнаружены путем измерения среднего значения и деления на значение среднего значения. Поскольку не существует теоретического верхнего предела количества вхождений в наборе данных, эти множественные значения подсчитываются и представляют элементы, которые имеют отклонения от среднего, хотя они не обязательно представляют собой истинную аномалию.
Сходства аномалий данных
Понятие аномалии можно описать как значение данных, которое значительно отличается от среднего распределения. Но описание аномалий также достаточно общее. В наборе данных может возникнуть любое количество отклонений, если существует разница между наблюдаемыми отношениями или пропорциями. Эта концепция наиболее известна для наблюдения за отношениями. Они усредняются для получения распределения. Сходство наблюдаемого соотношения или пропорции гораздо меньше аномалии. Аномалии не обязательно редки. Даже когда наблюдения более похожи, чем ожидаемые значения, наблюдаемое распределение не является типичным или ожидаемым распределением (выбросами). Однако существует также естественное распределение возможных значений, в которое могут вписаться наблюдения. Аномалии легко обнаружить, наблюдая за статистическим распределением наблюдаемых данных.
Во втором сценарии известное распределение отсутствует, поэтому невозможно сделать вывод, что наблюдения типичны для какого-либо распределения. Однако может быть доступное распределение, которое предсказывает распределение наблюдений в этом случае.
В третьем сценарии имеется достаточно различных точек данных, чтобы использовать полученное распределение для прогнозирования наблюдаемых данных. Это возможно при использовании данных, которые не являются очень нормальными или имеют