Название | BIG DATA. Вся технология в одной книге |
---|---|
Автор произведения | Андреас Вайгенд |
Жанр | Базы данных |
Серия | Top Business Awards |
Издательство | Базы данных |
Год выпуска | 2017 |
isbn | 978-5-04-094117-9 |
В 2002 году, когда я начал работать в Amazon, в числе прочих мы решали задачу перехода от анализа на уровне почтовых индексов к максимальному использованию всей информации о взаимодействии посетителей с сайтом. В итоге мы с командой определили пятьсот существенных признаков для каждого пользователя. А начиналась эта работа с того, что мы задались целым рядом вопросов, например: влияет ли расстояние между адресом доставки и ближайшим книжным магазином на то, как часто данный покупатель делает заказы в Amazon или на стоимость заказа? Можно ли прогнозировать покупательское поведение на основе типа его кредитной карты? Кто оставляет в Amazon больше денег за год – покупатели, делающие заказы в нескольких категориях, или те, кто заказывает только книги? Отличаются ли заказы какого-то конкретного покупателя, сделанные в утреннее время, от тех, которые он делает вечером? Результаты нашего анализа ложились в основу многих решений компании, например при выборе между затратами на рекламу и снижением цен на товары.
Этот анализ был полезен и для определения необходимого объема информации, которую посетитель должен предоставлять в ходе выбора покупок. Мы обнаружили, что на основе истории прошлых покупок можно с большей точностью прогнозировать вероятность покупок похожих видов продукции, а не одного конкретного продукта. Ассортиментные позиции связаны друг с другом по-разному, и просчитать эти связи можно различными способами. Судить о схожести товаров можно на основе сравнения спецификаций или анализа совпадений слов в описаниях, но самой важной информацией оказалось то, насколько часто две данные позиции просматривают или покупают вместе. Если можно было выявить тенденцию просмотра покупателями двух схожих позиций в течение одной сессии, их помечали как взаимозаменяемые. Когда покупатель рассматривал какую-то товарную позицию, ему предлагалось посмотреть на варианты ее заменителей («Какие другие товары покупают после просмотра этого?») и дополнений («С этим товаром часто покупают также»). Это делалось на основе анализа данных о прошлых запросах, просмотрах и покупках. Не менее полезными были и общие выводы о процессе принятия решений, которые можно было делать исходя из процентного соотношения просмотров и покупок конкретного товара.
Таким образом, система рекомендаций Amazon строилась на агрегированных данных просмотров и покупок. Кроме того, была создана платформа, позволяющая сторонним компаниям продавать свою продукцию на сайте с использованием складских мощностей Amazon, а это еще больше расширило область анализируемых данных. В отличие от рассылочных фирм с их «Пригородными наседками», «Селянами с дробовиками» и десятками прочих сегментов, Amazon могла прицельно обслуживать меняющиеся интересы и потребности каждого пользователя[34].
Само по себе сохранение информации не являлось чем-то революционным. Отличительной особенностью Amazon стало то, что
34
Такой подход к персонализации на основе каждого конкретного случая с сегментацией на уровне одной десятой родился в разговоре с моим частым сообщником в деле социальных данных Гэмом Диасом – руководителем и основателем MoData.