Анализ данных предмет, порожденный компьютерной революцией, приведшей к накоплению огромного количества данных о всевозможных совокупностях объектов, таких как страны и регионы, веб-сайты и теннисные турниры, работодатели и работники, товары и их производители. В отличие от классической математической статистики, анализ данных не пытается непосредственно вывести свойства окружающего мира, исходя из специально собранных данных, а ориентирован на отыскание каких-либо паттернов, структур, закономерностей в тех данных, какие есть. Основная цель анализа данных – обогащение теоретических представлений в той области науки или практики, к которой относятся данные (извлечение и порождение знаний). Исходя из того, что теоретическое знание выражается, прежде всего, через понятия и утверждения об их связи, а понятия выражаются признаками, основное внимание уделяется двум базовым задачам анализа данных. Это суммаризация (агрегирование или порождение признаков) и коррелирование (исследование связей между признаками). Изложение содержит большое количество примеров применения рассматриваемых понятий к анализу реальных данных. Учебник предназначен, прежде всего, для использования в обучении студентов бакалавриата и магистратуры инженерно-технических специальностей, однако он может использоваться и как пособие для самостоятельного изучения.
Анализ данных предмет, порожденный компьютерной революцией, приведшей к накоплению огромного количества данных о всевозможных совокупностях объектов, таких как страны и регионы, веб-сайты и теннисные турниры, работодатели и работники, товары и их производители. В отличие от классической математической статистики, анализ данных не пытается непосредственно вывести свойства окружающего мира, исходя из специально собранных данных, а ориентирован на отыскание каких-либо паттернов, структур, закономерностей в тех данных, какие есть. Основная цель анализа данных – обогащение теоретических представлений в той области науки или практики, к которой относятся данные (извлечение и порождение знаний). Исходя из того, что теоретическое знание выражается, прежде всего, через понятия и утверждения об их связи, а понятия выражаются признаками, основное внимание уделяется двум базовым задачам анализа данных. Это суммаризация (агрегирование или порождение признаков) и коррелирование (исследование связей между признаками). Изложение содержит большое количество примеров применения рассматриваемых понятий к анализу реальных данных. Учебник предназначен, прежде всего, для использования в обучении студентов бакалавриата и магистратуры инженерно-технических специальностей, однако он может использоваться и как пособие для самостоятельного изучения.
В данном учебнике рассмотрены вопросы анализа и интерпретации связей между двумя количественными признаками, двумя качественными, а также качественным и количественным признаками. Из многомерных методов рассмотрены наивный Бэйесовский классификатор и метод K-средних для кластерного анализа. Изложение ориентировано на людей, предпочитающих не формулы, а вычисления, и содержит большое количество примеров применения рассматриваемых понятий к анализу реальных данных.