Что такое Big data, как это работает и почему все носятся с данными как с писаной торбой

Только ленивый не говорит о Big data, но что это такое и как это работает — понимает вряд ли. Начнём с самого простого — терминология. Говоря по-русски, Big data — это различные инструменты, подходы и методы обработки как структурированных, так и неструктурированных данных для того, чтобы их использовать для конкретных задач и целей.

Неструктурированные данные — это информация, которая не имеет заранее определённой структуры или не организована в определённом порядке.

Термин «большие данные» ввёл редактор журнала Nature Клиффорд Линч ещё в 2008 году в спецвыпуске, посвящённом взрывному росту мировых объёмов информации. Хотя, конечно, сами большие данные существовали и ранее. По словам специалистов, к категории Big data относится большинство потоков данных свыше 100 Гб в день.

Сегодня под этим простым термином скрывается всего два слова — хранение и обработка данных.

Big data — простыми словами

В современном мире Big data — социально-экономический феномен, который связан с тем, что появились новые технологические возможности для анализа огромного количества данных.

Для простоты понимания представьте супермаркет, в котором все товары лежат не в привычном вам порядке. Хлеб рядом с фруктами, томатная паста около замороженной пиццы, жидкость для розжига напротив стеллажа с тампонами, на котором помимо прочих стоит авокадо, тофу или грибы шиитаке. Big data расставляют всё по своим местам и помогают вам найти ореховое молоко, узнать стоимость и срок годности, а еще — кто, кроме вас, покупает такое молоко и чем оно лучше молока коровьего.

Кеннет Кукьер: Большие данные — лучшие данные

Технология Big data

Огромные объёмы данных обрабатываются для того, чтобы человек мог получить конкретные и нужные ему результаты для их дальнейшего эффективного применения.

Фактически, Big data — это решение проблем и альтернатива традиционным системам управления данными.

Техники и методы анализа, применимые к Big data по McKinsey:

Data Mining;
Краудсорсинг;
Смешение и интеграция данных;
Машинное обучение;
Искусственные нейронные сети;
Распознавание образов;
Прогнозная аналитика;
Имитационное моделирование;
Пространственный анализ;
Статистический анализ;
Визуализация аналитических данных.

Горизонтальная масштабируемость, которая обеспечивает обработку данных — базовый принцип обработки больших данных. Данные распределены на вычислительные узлы, а обработка происходит без деградации производительности. McKinsey включил в контекст применимости также реляционные системы управления и Business Intelligence.

Технологии:

NoSQL;
MapReduce;
Hadoop;
R;
Аппаратные решения.

Для больших данных выделяют традиционные определяющие характеристики, выработанные Meta Group ещё в 2001 году, которые называются «Три V»:

Volume — величина физического объёма.
Velocity — скорость прироста и необходимости быстрой обработки данных для получения результатов.
Variety — возможность одновременно обрабатывать различные типы данных.

Big data: применение и возможности

Объёмы неоднородной и быстро поступающей цифровой информации обработать традиционными инструментами невозможно. Сам анализ данных позволяет увидеть определённые и незаметные закономерности, которые не может увидеть человек. Это позволяет оптимизировать все сферы нашей жизни — от государственного управления до производства и телекоммуникаций.

Например, некоторые компании ещё несколько лет назад защищали своих клиентов от мошенничества, а забота о деньгах клиента — забота о своих собственных деньгах.

Сюзан Этлиджер: Как быть с большими данными?

Big data в мире

По данным компании IBS, к 2003 году мир накопил 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов). К 2008 году этот объем вырос до 0,18 зеттабайта (1 ЗБ = 1024 эксабайта), к 2011 году — до 1,76 зеттабайта, к 2013 году — до 4,4 зеттабайта. В мае 2015 года глобальное количество данных превысило 6,5 зеттабайта.

К 2020 году, по прогнозам, человечество сформирует 40-44 зеттабайтов информации. А к 2025 году вырастет в 10 раз, говорится в докладе The Data Age 2025, который был подготовлен аналитиками компании IDC. В докладе отмечается, что большую часть данных генерировать будут сами предприятия, а не обычные потребители.

Аналитики исследования считают, что данные станут жизненно-важным активом, а безопасность — критически важным фундаментом в жизни. Также авторы работы уверены, что технология изменит экономический ландшафт, а обычный пользователь будет коммуницировать с подключёнными устройствами около 4800 раз в день.

Как заставить большие данные работать на ваш бизнес

Data management platform (DMP) – система использования больших данных, делает ровно то же самое, но на основе информации из корпоративной CRM и программы лояльности и с помощью сбора открытых сведений о покупателе в сети.

DMP позволяет масштабировать экспертизу опытных продавцов, вести разговор с каждым покупателем индивидуально – даже если таковых миллионы. Она дает возможность предсказывать потребительское поведение точнее, чем это делают продавцы.

Как это работает?

Во-первых, ищет корреляцию между профилем потребителя – набором его социально-демографических/поведенческих характеристик и той или иной реакцией на бренд, модель, способы маркетинговых предложений. Цель аккумулирования больших данных – поиск статистически наиболее точных закономерностей.
Во-вторых, таргетирует потребителей в зависимости от их реакций. И выдвигает предположение, что потребитель с таким-то набором характеристик, скорее всего, отреагирует на предложение X позитивно при условиях A, B и C. Это и дает возможность делать ему индивидуальное предложение. Позитивный отклик на него составляет в хорошо работающей системе 50% и более.
В-третьих, DMP позволяет в реальном времени отработать большое число гипотез потребительской реакции на всех этапах продвижения товара, а также «собрать» из них маркетинговую стратегию. И, что не менее важно, постоянно ее совершенствовать – то есть учиться на потоке событий.

Это доступно всем

Крупные компании давно стремились к математически точному маркетингу: именно в их недрах была создана концепция data driven marketing – маркетинга, основанного на данных и точных цифрах, а не на ощущениях маркетинговых специалистов. Но о настоящем верифицируемом DDM стало возможно говорить только с практическим применением Big data в бизнесе.

Сегодня технологии на основе больших данных доступны не только гигантам, но среднему и даже малому бизнесу.

В нашей стране цифровые платформы, работающие с большими данными, применяются специализированными торговыми сетями: обувными, косметическими, продовольственными, которым важно контролировать эффективность маркетинговых кампаний.

DMP активно используют также поставщики автомобилей и электроники. По двум причинам:

С одной стороны, они обычно связаны с иностранными материнскими компаниями, которые быстрее внедряют перспективные новшества.
С другой на дворе кризис, а задачу продавать никто не снимал.

Все более широко применяют цифровые платформы розничные банки – они нуждаются в новых вкладчиках и надежных заемщиках, телекоммуникационные компании – им важно находить новые способы завоевания преимущества в конкурентных войнах. Появились первые кейсы в B2B.

Воронка релевантности

DMP очень эффективна при «активном» маркетинговом режиме поиска новых клиентов с помощью рекламных кампаний. Она позволяет сформировать более релевантную воронку продаж и постоянно ее совершенствовать. Воронка продаж подразумевает выявление максимума интересующихся брендом и перевод максимума из них в категорию покупателей.

По отношению к товару люди делятся на несколько категорий. Кто-то пока не знает о существовании бренда, кто-то знает и интересуется, кто-то уже что-то просматривал в интернет-магазине – но «положил» обратно, а кто-то и приобретал там товары.

Первым нужно сообщить о товаре, вторым — показать модели, которые с высокой вероятностью вызовут позитивный отклик, третьим — предложить скидки и другие дополнительные стимулы для покупки, а четвертых проинформировать о сопутствующих товарах и новых моделях взамен той, что они уже приобретали.

Пример 1. Как обувной бренд увеличил продажи в 2 раза

Вот как строил воронку продаж на основе больших данных один из обувных брендов. Он обратился для помощи в маркетинговое агентство, так как посчитал, что не обладает достаточной экспертизой, чтобы сделать эту работу своими силами.

Первым делом была разработана стратегия привлечения, цель которой — убедить целевую аудиторию, что бренд ей подходит. Были взяты данные из CRM, программы лояльности, на основе данных о покупателях самой компании и данных, найденных системой в сетевом «паблике», выделены основные типажи потребителей.

Далее, применительно к каждому из основных типажей:

Были выявлены каналы продвижения, которые для них наиболее релевантны;
Отобраны сети, которые умеют показывать баннеры именно в этих каналах;
Разработано несколько типов креативных решений. И стратегия привлечения начала реализовываться.

Данные о просмотрах баннеров стали поступать в DMP – появилась четкая картина того, какие каналы и креативные решения более эффективны, а какие – менее, какие группы потребителей наиболее заинтересованы в бренде, а какие вовсе не заинтересовались. Были отброшены группы и каналы, на которые не имеет смысла расходовать бюджет.

На основе этой информации разработана стратегия продаж, и компания совместно с рекламным агентством приступили к ее реализации.

Что сделала система:

Проанализировала тех, кто перешел на сайт — заинтересовался товарами (она просила потребителя оставить информацию о себе);
«Вычислила» индивидуальные предложения: потребителю предлагалась обувь, которая заинтересует именно его;
По реакции на эти предложения вырабатывались дополнительные стимулы — скидки.

Виды скидок определялись на основе статистики: она позволяет сказать, какой социально-демографический и потребительский типаж при каком уровне цены чаще всего покупал обувь.

Воронка с цифровой оптимизацией функционирует уже больше года, благодаря ей, обувной бренд увеличил объёмы продаж более чем в два раза.

Выбираем канал коммуникации

Потенциальный покупатель уже предпринял какие-то действия: скачал брошюру о бренде, задает вопросы по тем или иным моделям? Следовательно, он уже готов в коммуникации через email, смс, телефонные звонки.

DMP делает сегментацию: какой канал связи предпочтительнее для клиента. Для этого анализируются отклики: какой потребительский типаж по какому каналу склонен отвечать. За счет этого происходит оптимизация каналов коммуникации.

Это дает существенную экономию. Без сегментации нужно было бы обзвонить более 10 тыс. клиентов. Сегментация позволяет начать с тех, кто максимально склонен к покупке и готов общаться по телефону и отсечь тех, кому звонки могут нанести ущерб.

Большое значение имеет также сегментирование по каналам коммуникации. Оно позволяет понять, через какой канал лучше «доставлять» предложение. Важно также понимать правильный момент для предложения – это может быть не только время суток, но и время накануне или после некоего события в жизни потенциального покупателя. Если коммуникация делается в правильный момент, то эффект от нее максимален.

К «вычислению» формы и момента коммуникации предъявляется повышенные требования, ведь если потенциальному покупателю предложение донесено нерелевантным способом, это вызывает отрицательные эмоции.

Правило торговли: донесение нерелевантного предложения обходится дороже, чем недонесение релевантного.

Смотрите, кто пришел

В пассивном маркетинговом режиме – режиме ожидания клиентов DMP не менее эффективна. Она позволяет не только анализировать пришедших на сайт, «вычислять» для каждого посетителя индивидуальные маркетинговые предложения, но и понимать, кто в принципе является целевой аудиторией, сегментировать ее – и переходить к активным маркетинговым действиям не фронтально, а в отношении конкретных целевых аудиторий.

На корпоративных сайтах есть счетчики – они фиксируют лишь, со скольких IP-адресов заходили, сколько страниц посетили и так далее. Использование DMP позволяет получить более содержательную информацию.

Пример 2. Как отвоевать клиентов у конкурента

На сайте одного из поставщиков автомобилей была реализована тестовая рекламная кампания без таргетирования потребителей. Целью было собрать максимально широкий спектр данных о посетителях, а затем выделить их сегменты.

Кампания проводилась три месяца. За это время была собрана достаточно подробная информация о потребителях – те данные, которыми они сами были готовы делиться, дополненные сведениями из социальных сетей и других открытых источников.

Автомобильная фирма и ее маркетинговые консультанты увидели, на каких группах потребителей рекламная кампания действует лучше всего, а какие нуждаются в дополнительных стимулах. В результате была выполнена «нарезка» кластеров по типовым потребительским профилям.

На следующем шаге спроектировали рекламные каналы, чтобы найти потенциальных потребителей сходных типажей. Затем было запущено несколько рекламных программ, ориентированных на выделенные целевые аудитории. Продажи автомобилей, благодаря этому, не сократились, тогда как у других участников рынка они снизились примерно на 15%.

Кстати, при реализации кейса обнаружилось немало интересного – о чем ранее маркетологам не было известно. Например, выяснилось, что на сайт этого поставщика автомобилей приходит немало владельцев машин одной и конкурирующих марок. Оказалось, что это одна из самых перспективных целевых аудиторий – которая ранее не отрабатывалась.

Пример 3. Как использовать то, что люди хотят общаться

Один из поставщиков автомобилей отслеживал объявления на различных сайтах, где продаются автомобили. Он видел клиентов, которые продают его автомобили, и в этот момент делали ему предложение трейд-ин, предлагали тест-драйв новой модели. Отклик по таким коммуникациям доходил до 50%!

Человек, как правило, готов общаться, даже если он не готов покупать новую машину. Он говорит: «Почему я продаю? Потому что у меня деньги закончились». У него в этот момент нет негатива. В такой ситуации часто происходит запись на тест-драйв – даже если клиент не собирался покупать машину.

Пример 4. Поиск клиентов по аналогии

Одна из торговых сетей, продающая джинсы, сформировала с помощью цифровой платформы целевые профили потенциальных покупателей на информации, ранее собранной в рамках программы лояльности. Потом в Сети были найдены люди с аналогичными данными и сделана рассылка предложений.

Эффективность увеличилась на 25% по сравнению со «слепой» рассылкой, хотя таргетирование рассылки было очень поверхностное.

Пример 5. Как математечески вычислить лояльного клиента

Анализировалась база транзакций пользователей банковских услуг. Экспертным и математическим способами выделили критерии лояльного и заинтересованного в новых продуктах клиента, научили систему их искать. Продажи продуктов банка без привлечения новых клиентов выросли на 20%.

Система кросс-сейла была использована «в тандеме» с системой продаж банковских продуктов новым пользователям. Во внешней среде были найдены потребители, аналогичные по своим характеристикам тем, кого заинтересовал кросс-сейл, и по отношению к ним проведены целенаправленные маркетинговые кампании. Банк получил большое число надежных заемщиков и новых вкладчиков.

Меняйтесь данными

Базовые математические алгоритмы, используемые в DMP, общие. Например, это могут быть многоуровневые, ветвистые деревья решений. Или модные ныне нейронные сети – они выглядят загадочно, и для кого-то из заказчиков это плюс. Но при этом их трудно интерпретировать – в отличие от тех же деревьев решений, а понимать, что и как делает цифровая платформа, для заказчика важно, особенно на этапе внедрения системы.

Реализация алгоритмов – сугубо индивидуальная работа. Никакого единого для всех, масштабируемого решения для любых видов бизнеса не может быть.

Потребительская статистика очень специфична для каждой компании. На продажи влияет много факторов, которые порой даже трудно себе представить: расположение офиса, люди, которые работают в компании, логотип – у одних он вызывает доверие, у других — нет.

Потому главная проблема при создании эффективной цифровой платформы – дефицит данных. Им не страдают банки и телекоммуникационные компании, которые просто в силу требований регуляторов обязаны вести подробные пользовательские профили. Нет дефицита в сетях бутиков – они привыкли к индивидуальной работе с потребителями. Вообще, чем более персонифицировано компания работает с потребителями, тем лучше у нее обстоят дела с данными.

А вот в массовом сегменте торговли, как правило, дела обстоят хуже. У большинства же B2C-компаний информационно бедные профили клиентов. Даже в картах лояльности часто очень мало данных.

Если собственных данных недостаточно, нужно их собирать – в том числе с помощью цифровой платформы. На начальном этапе можно воспользоваться внешними данными. Это данные из социальных сетей, а также данные других компаний.

Обмен знаниями – очень перспективное направление, от которого выигрывают обменивающиеся. Например, одна компания говорит другой: у нас есть люди, которые купили наши товары, вполне вероятно, что они купят и ваш. Это, кстати, позволяет совместно найти маркетинговые события, которые позволят увеличить продажи обеим фирмам.

При этом речь не идет о передаче персональных данных. Для анализа нужны социально-демографические и потребительские характеристики покупателей. Важно, какое у него образование, семейное положение. Насколько он продвинут как потребитель определенных типов товаров, активен ли в интернете…

Но чужие данные не могут заменить собственные. Чтобы результат был релевантным, ядро данных должно быть «внутреннее».

Big data в маркетинге

Благодаря Big data маркетологи получили отличный инструмент, который не только помогает в работе, но и прогнозирует результаты. Например, с помощью анализа данных можно вывести рекламу только заинтересованной в продукте аудитории, основывая модели RTB-аукциона.

Big data позволяет маркетологам узнать своих потребителей и привлекать новую целевую аудиторию, оценить удовлетворённость клиентов, применять новые способы увеличения лояльности клиентов и реализовывать проекты, которые будут пользоваться спросом.

Сервис Google.Trends вам в помощь, если нужен прогноз сезонной активности спроса. Всё, что надо — сопоставить сведения с данными сайта и составить план распределения рекламного бюджета.

Применение данных в рекламных размещениях

В любом рекламном размещении маркетологи задают 2 основных вопроса: КОМУ и ЧТО.

Кому конкретно (какой целевой аудитории) показать рекламное сообщение и что именно должно содержаться в нем, чтобы достигнуть выполнения конкретной маркетинговой задачи, будь то повышение узнаваемости или повышение продаж с конкретного канала.

Технологии по работе с данными помогают отвечать на эти вопросы и достигать лучших маркетинговых результатов. На примере нашего кейса с компанией Asus по продвижению игровых видеокарт разберем несколько подходов, как технологии анализа больших данных позволяют ответить на вопрос «Кому показать рекламу».

Во-первых, это конечно использование собственных данных (1^st party data) рекламодателя для таргетинга в рекламных кампаниях. В случае с Asus в таргетинг попали пользователи с целевого промо-сайта и соответствующих разделов основного сайта.

Во-вторых, это применение данных для поиска целевой аудитории исходя из заданных заранее (сформулированных маркетологом или аналитиком) критериев. В случае Asus мы собрали две аудитории: тинейджеров и геймеров.

В-третьих, конечно же, это применение предиктивных алгоритмов для поиска похожей аудитории по обучающейся выборке, так называемый Look-alike. Для Asus мы на основе 1^st party данных сформировали look-alike аудиторию.

Ниже приведу сводную таблицу маркетинговых результатов в разрезе каждого типа таргетинга.

Данные также могут помочь ответить на вопрос «Что показать». Особенно ценность применения больших данных растет, когда нужно выбрать для каждого конкретного пользователя, какой именно товар или услугу нужно показать в баннере. Наиболее частые случае применения таких технологий – в динамическом ретаргетинге, товарных рекомендациях на сайте и в персонализации email-рассылок.

Применение алгоритмов персонализации позволяет увеличить ROI каждого канала на 15-100%+.

Кадровая голодовка

Еще в 2011 году McKinsey Global Institute в своем отчете «Big data: The next frontier for innovation, competition, and productivity» предсказал нехватку только в одних США 140-190 тысяч дата-аналитиков в области больших данных (Data Science специалистов) и более 1,5 млн руководителей, которые будут обладать необходимыми навыками для применения информации, добытой при помощи анализа больших данных, с целью повышения бизнес-показателей своей компании.

Этот факт предоставляет уникальный шанс многим специалистам, которые стремятся к профессиональному (и материальному) росту. Тем, кто готов учиться и не боится выходить из зоны комфорта. Это особенно актуально сегодня, поскольку в период кризиса спрос на специалистов, которые приносят понятный value для бизнеса, только растет.

Так кто же такой специалист в data-менеджменте – маркетолог или математик? Когда мне задают такой вопрос, я задаю встречный: «Как в наше время маркетолог может не знать математику?». В моем представлении data-специалист – это маркетолог с хорошим пониманием математики на уровне 2 курса университет. Еще неплохо бы иметь технический склад ума, чтобы понимать ограничения, накладываемые конкретными технологиями по работе с данными.

75% компаний заявили, что будут увеличивать инвестиции в большие данные.

– Avanade.

Для того чтобы стать частью элиты нового времени, тех, кто на «ты» с технологиями больших данных, необходимо начать с изменения своего сознания и сформировать подход к принятию решений, основываясь на цифрах. И, если вы решили встать на эту стезю, вам обязательно нужно прочесть книгу «Lean Analytics: Use Data to Build a Better Startup Faster».

Чтобы полноценно работать? нужно, как минимум, понимать несколько ключевых математических моментов: что такое стандартное отклонение и понятие доверительных интервалов (крайне важно для интерпретации результатов A/B тестирования) и, конечно же, базовых понятий теории вероятности. Для этих целей есть отличный сервис, который в доступной даже гуманитариям форме учит этим знаниями.

Далее следует разобраться в основных концепциях и кейсах Big Data. Для этих целей всем рекомендую к прочтению книгу «Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die».

Для тех же, кто хочет развиваться как хардкорный data-scientist, на известном сервисе Coursera есть много курсов, посвященных Data Science/Machine Learning, а сервис DataCamp вообще специализируется обучении «ученых по данным».

Поділіться з друзями - підтримайте проект

Міткиінтернет бізнес

Что такое Big data, как это работает и почему все носятся с данными как с писаной торбой