Big data: как отличить важные данные от неважных?

Андрей Семеркин Главный редактор, Москва

Ваша компания тонет в потоках данных? Сочувствуем, но будет еще хуже: информационная лавина растет. Как быть?

Разбираемся с Джоном Тиммерманом из Teradata.

Если вас терзает вопрос о том, как исследовать большие потоки данных, то Джон Тиммерман из компании Teradata – тот самый человек, с которым вы можете поделиться наболевшим. У него редкая для российского бизнеса должность: Global Industry Evangelist.

Это значит, что работа Джона состоит в том, чтобы смотреть в будущее, видеть больше и дальше других, и объяснять аудитории, что именно ее ждет. Big Data в понимании Джона означает не «много данных», но особый тип структуры данных, когда сведения коррелированы друг с другом, но связь эта неоднопланова.

Изучение этих данных – нетривиальная задача для менеджмента: их надо исследовать, потому что они могут содержать в себе очень ценную информацию для бизнеса. Или не содержать – в этом случае вы должны быть готовы к тому, что зря потратите деньги на расчеты.

Но вы не узнаете это, пока не попробуете:). Впрочем, результативность исследований зависит от того, как вы ставите цели и какие инструменты используете.

Sat: Выражение Big Data («Большие данные») стало весьма распространенным. Какие, на ваш взгляд, данные мы можем считать «большими»?

Джон Тиммерман: Из всех терминов на современном рынке термин «Большие данные», пожалуй, самый некорректный. Я предпочитаю использовать термины «неструктурированные» или «мультиструктурированные» данные, потому что речь в действительности идет не о фактическом объеме данных, а об их структуре или внутренних отношениях.

Рассмотрим, например, термин «интегрированные данные о клиенте». В общем случае, мы создали бы схему, определяющую клиента, а также набор атрибутов этого клиента, которые хранятся вместе с записью о клиенте на основе каких-то установленных взаимоотношений.

Эти атрибуты могут включать, например, номер счета, контактную информацию, историю транзакций, историю общения, демографические данные, финансовые модели, маркетинговый кластер и т. д. Вся эта информация имеет некую распознаваемую связь с клиентом и, как правило, хранится в реляционной базе данных. Но также существуют данные, которые в настоящее время являются неструктурированными или мультиструктурированными, и для которых нам еще неизвестны все возможные отношения.

Отличные примеры — подробные записи о телефонных разговорах, аудиозаписи и стенограммы звонков в службу поддержки, файлы изображений, видеофайлы, звуковые файлы, данные датчиков, веб-журналы и теги, которые просто еще не были связаны с какими-либо известными отношениями. Могут ли некоторые из этих файлов и источников быть большого размера?

Безусловно. Но мы называем их «большими» не из-за размера.

Мы называем их так из-за особой структуры и отношений, которые существуют в этих данных.

Sat: В одном из интервью вы сказали, что «большие данные» – не новое явление. Если так, в каком виде эти данные собирались и изучались прежде?

Д.Т.: Я думаю, «Big Data» — всего лишь модное словечко для явления, которое мы наблюдаем уже много лет… и сегодня у нас, наконец, появились лучшие способы хранения, управления и анализа этих источников и типов данных, которые помогают обнаруживать новые отношения, закономерности и связи. Мы использовали анализ тропов (от греч. tropos – поворот – слово или оборот речи, употребленные в переносном значении – Executive.ru) на протяжении десятилетий.

Точно так же, в течение многих лет мы собирали стенограммы и записи звонков в службу поддержки. Мы всегда сохраняли подробные записи о голосовых вызовах и веб-журналы.

До недавнего времени у нас просто не было собирательного понятия для всех этих мультиструктурированных данных. Что на самом деле ново, так это распространение разнообразных стандартизированных «песочниц» (средств обнаружения), которые помогают последовательно и с высокой повторяемостью обнаруживать значимые отношения во всех этих данных без помощи отряда аналитиков.

Sat: Человечество генерирует все больше и больше данных. У вас есть прогноз, сколько данных оно будет создавать, например, через десять лет?

Д.Т.: Как вы, наверное, знаете, компания Teradata уже давно создает решения, позволяющие управлять огромными объемами данных и последовательно выполнять бизнес-анализ самых различных видов данных из множества источников в масштабе предприятия. Вместо того чтобы прогнозировать, когда именно данные превысят определенный уровень, мы всегда старались выходить далеко за пределы прогнозов.

Когда 25 лет назад я начал работать в Teradata, люди спрашивали, откуда взялось такое название – Teradata… ведь никому никогда не понадобится терабайт информации. Теперь у меня дома есть терабайтный диск с резервными копиями одних только фотографий с моей цифровой камеры.

У нас есть много клиентов, которые уже вступили в клуб «мультипетабайтеров». Мы разработали архитектуру, которая позволяет обрабатывать чрезвычайно большие объемы данных сегодня и позволит делать это в не столь отдаленном будущем.

У меня есть очень и очень расплывчатый ответ на вашу просьбу спрогнозировать, сколько данных человечество создаст через 10 лет. Астрономы предсказывают, что в следующем десятилетии один телескоп SKA (Square Kilometre Array с матрицей площадью 1 кв. км.) будет обрабатывать и анализировать более 10 петабайт данных в час… или 1 эксабайт каждые четыре дня.

Я сомневаюсь, что население в более чем 7 млрд человек с целым набором цифровых датчиков и устройств будет создавать меньше данных. Хотя, безусловно, не все маркетинговые компании будут вынуждены собирать и анализировать данные о клиентах и бизнес-данные в таких астрономических масштабах, нетрудно представить, что лидеры отрасли и дальновидные компании уверенно достигнут рубежа в сотни эксабайт управляемых данных.

Важный Звонок XD Выживание В Бутылке (World in a Jar) №3


Sat: А сколько данных в потоке, создаваемом рынком, будут лишними или невостребованными?

Д.Т.: Множество факторов определяет долю того, что является лишним или ненужным в больших данных, я слышал оценки, значительно превышающие 90% — однако это очень сильно зависит от набора данных. Некоторые наборы больших данных даже близко не содержат такой доли лишних или ненужных данных, но вы не узнаете этого, пока не выполните ряд действий по обнаружению и не определите, какие значимые данные на самом деле присутствуют в конкретном наборе.

Опять же, количество данных не так важно, как закономерности и аналогии, которые могут быть найдены с помощью аналитики и помогут раскрыть действительную ценность всех данных. И то, что именно вы считаете необходимым или ценным, будет зависеть от вашей бизнес-стратегии использования данных в маркетинге.

Конечно, как раз тут абсолютно необходимы две вещи: раннее обнаружение в рамках нескольких моделей и размерностей и гибкая и расширяемая аналитическая среда больших данных. Поскольку данные могут содержать много «белого шума», важно иметь возможность быстро выполнять различные операции обнаружения данных, чтобы можно было быстро выяснить, что следует сохранять и анализировать в первую очередь.

Затем, поскольку размеры и сложность этих сред обработки данных могут резко изменяться, нужна среда больших данных, достаточно гибкая и расширяемая, чтобы приспосабливаться к вашим постоянно изменяющимся требованиям.

Sat: Это ставит менеджмент перед очень трудной задачей: компания не может определить ценность некого объема данных до тех пор, пока она их не исследовала. В свою очередь, она не может бесконечно исследовать «на всякий случай» большие объемы данных, потому что аналитика – дорогое удовольствие.

Как ей быть?

Д.Т.: В этом состоит вся суть среды обнаружения больших данных — с ее помощью можно определить, какие данные необходимо собирать и какими из них необходимо управлять. Без среды обнаружения вы идете вслепую и, вероятно, тратите слишком много денег на аналитику, не достигая сколько-нибудь ощутимого прогресса в повышении качества обслуживания клиентов.

В конце концов, разве не для этого мы все это затеяли? Не для того ли, чтобы понять, как мы можем лучше служить человеку?

По словам моего друга Стивена Бробста, главного технического директора Teradata, «иногда эта отрасль напоминает шестилетних детей, играющих в футбол… все сосредоточены на одном мяче… и бесцельно гоняют этот мяч по всему полю. У нас не получается сосредоточиться на мотивации и стратегии, на позиционировании и исполнении.

Конечно, все принимают участие, и полны энтузиазма, и носятся как сумасшедшие… но не работают как слаженная команда».

Sat: В публикациях вы используете термин Integrated Marketing Management? Какой смысл вы вкладываете в это понятие?

Д.Т.: Значимость интегрированного управления маркетингом двояка. Ее можно рассматривать с точки зрения маркетингового процесса и с точки зрения непрерывности отношений.

С точки зрения маркетингового процесса, чем более интегрированы все движущиеся части маркетинговой организации, тем лучше я могу привести программы и расходы в соответствие со стратегическими инициативами и бюджетами. Я вижу наиболее экономически эффективный способ быстро запускать программы для клиентов в различных каналах, используя общие компоненты, рабочие процессы и рекламные материалы.

С точки зрения непрерывности отношений, чем лучше интегрированы каналы, продукты и предложения, тем больше преимуществ получат мои клиенты благодаря согласованным возможностям и непрерывности процессов в рамках всех каналов продаж на моих предприятиях, а не только некоторых из каналов взаимодействия с клиентами. Интегрированное управление маркетингом приносит выгоду как компании, так и ее клиентам.

Sat: Какую цель в связи с этим должен ставить маркетолог, приступая к исследованиям? Как он должен формулировать, что именно хочет найти?

Д.Т.: Цель состоит в поиске новых шаблонов, новых моделей поведения, новых подходов и новых рычагов влияния. С помощью механизмов обнаружения они находят большие данные для получения полезных выводов, которые можно использовать для лучшего понимания бизнеса, поведения потребителей и атрибутов, которые могут оказывать влияние или указывать на вероятность каких-то действий.

После процесса обнаружения запускается процесс автоматизации выявления наличия конкретного показателя. В ходе комплексного процесса обнаружения вовсе не редкость, когда предварительная гипотеза опровергается или обнаруживается что-то совершенно непредвиденное (если только ваш процесс не достаточно обширен, чтобы обнаруживать аномалии и резко отклоняющиеся значения).

В области маркетинга мы ставим такой вопрос: «Что бы вы сделали, если бы знали?». Он относится к любому вопросу, который может задать маркетолог, полагая, что в данных есть ответы, которые помогут принимать более осведомленные маркетинговые решения.

Sat: Вы можете привести примеры, когда маркетологи искали одно, а нашли нечто другое?

Д.Т.: Мне сразу вспомнился один из наших клиентов из сферы финансовых услуг. В их компании проводили исследование каналов входа.

Инициаторы исследования хотели выйти за рамки простого и привычного создания отчетов об атрибуции по последнему клику. Они предположили, что заметное снижение коэффициента реагирования на одной из веб-страниц было связано с неудачным дизайном или размещением блока призыва к действию на лэндинговой странице.

А на самом деле они обнаружили связь между наличием определенного фрагмента динамической рекламы и снижением коэффициента реагирования. То есть проблема была не в визуальном оформлении, а в самом контенте, в управлении им.

Sat: Какие приложения маркетологи могут использовать для исследования «больших данных»?

Д.Т.: Полагаю, я не могу быть беспристрастным, с учетом того, где я проработал последние 25 лет, но я действительно верю, что наши клиенты получат максимальную выгоду, выбрав для обнаружения больших данных решение Teradata Aster. Существуют также механизмы для многоканального маркетинга, которые предназначены для интеграции анализа клиентов, сегментации и управления входящими и исходящими связями по всем каналам экосистемы клиентов.

Наконец, есть приложения для принятия решений о лучшем предложении в режиме онлайн, а также для оценки и оптимизации предложений для всех взаимодействий с клиентами в режиме реального времени.

Sat: Какое содержание вы вкладываете в термин Data-Driven Marketing?

Д.Т.: Маркетинг на основе данных – подход, позволяющий маркетологам использовать глубокий анализ данных о своих клиентах, чтобы точно направлять маркетинговые усилия. В рамках этого подхода лучшие данные должны определять и обосновывать все ваши маркетинговые решения.

Какие клиенты являются самым ценными или выгодными? Какие клиенты обладают наибольшим потенциалом роста?

Какие кампании были наиболее успешными?

Какие предложения лучше всего подходят именно для этого клиента? На каком этапе наших отношений находится клиент, и как я могу лучше всего его обслуживать?

На что я трачу большую часть своих денег? Что работает хорошо?

Что самое лучшее я могу сказать этому клиенту прямо сейчас?

Для точных ответов на все эти вопросы нужны маркетинговые данные. Чем лучше вы сможете интегрировать поток маркетинговых данных и данных о клиентах в свои процессы и инициативы, тем лучше вы сможете автоматизировать и направлять свою организацию, и тем более последовательное и индивидуальное обслуживание вы сможете предлагать своим клиентам.

Sat: Каким будет маркетинг через 25 лет?

Д.Т.: Я уже говорил в своем блоге, каким будет маркетинг в 2020 году, но я понятия не имею, как это будет выглядеть через 25 лет. Через 25 лет мне будет 75, и я уйду на пенсию.

Но я могу спросить у моего сына. Он будет оказывать большее влияние на будущее маркетинга, чем я!

Впервые интервью было опубликовано

Наиболее подходящая Вам статья…

Понравилась статья? Поделиться с друзьями: