Блог Эвотора

Что такое «большие данные»?

Аналитическое агентство «МакКинси» выпустило доклад о роли «больших данных» в современном бизнесе. Говорят, скоро «большие данные» увеличат прибыль компаний на 4-10%. Бизнес будет зарабатывать больше без инвестиций в производство или рекламу — а просто на анализе каких-то данных. Бери и богатей! Но не всё так просто.

«Большие данные» — это популярная, но сложная тема. Мы разобрались в этих данных: рассказываем, зачем они нужны и почему некоторые люди их боятся.

Что такое данные

Доклад «МакКинси», 2017 год

Данные — это конкретные, измеряемые величины, цифры.

В мире природы данные — это температура или количество осадков. В мире бизнеса — сумма платежа, количество транзакций, остаток на складе, в мире пользователей — возраст, пол, ежемесячный доход, количество друзей в социальных сетях. Данные — измеряемые и объективные.

Представим, что предприниматель хочет узнать свой доход. Для этого он должен оперировать данными: посчитать количество платежей и умножить на сумму каждого платежа. Если он поленится считать и просто прикинет доход на глаз, то данных не получится, будут только предположения. Предположения — неизмеряемые и субъективные.

Человечество окружает очень много данных, целый океан цифр. Это и есть «большие данные». На самом деле термин big data правильней переводить как «много информации», однако у нас уже есть устоявшийся термин. Большие так большие.

Информации может быть действительно очень много. Например, «Шевроле» устанавливает датчики в обычные легковые автомобили. В 2016 году они накопили и передали в компанию более 4200 терабит информации — хватит, чтобы полностью забить 14 тысяч ноутбуков. Это сотни видов данных: температура масла в двигателе и воздуха в салоне, скорость движения, давление в шинах, работа подвески. Это типичные «большие данные». «Шевроле» использует их, чтобы совершенствовать будущие модели автомобилей.

Почему «большие данные» стали так популярны

Данные полезны клиентам. С помощью «больших данных» реклама становится точнее. Такая реклама нравится клиентам: она не раздражает и рекламирует действительно полезные товары.

Стоит зайти в интернет-магазин обуви, как обувь начнет преследовать в рекламе на всех сайтах. Это не меняется, даже если купишь ботинки. Глупое дело: если я купил ботинки, зачем мне дальше их показывать? Вряд ли я куплю еще одни.

С «большими данными» магазин узнает, что вы купили обувь. Вместо ботинок вам предложат водоотталкивающий крем — при этом сообщат, что через пару дней будут недельные дожди. А вместе с ним предложат плащ по распродаже и зонтик. Вы же давно не покупали плащей.

С «большими данными» реклама перестанет быть инструментом тупого впаривания товаров, а превращается в полезного советчика.

Данные помогают компаниям конкурировать. Раньше маркетологи опирались на «маленькие данные»: пол, возраст, место жительства потенциальных клиентов. Со временем такие данные появились у всех конкурентов в отрасли. Выделиться было трудно, реклама стала массовой и раздражающей.

С «большими данными» компании научились конкурировать лучше. Они больше не тратят огромные маркетинговые бюджеты на «ковровые бомбардировки» рынка, а точно вычисляют своего клиента по множеству параметров.

Кроме того, бизнес видит, как реклама работает. Раньше у рекламщиков была знаменитая байка про «босс-билборд». Нужно ставить рекламные щиты вдоль дороги, по которой начальник едет на работу, чтобы создать видимость работы. А сегодня бизнесмен может измерить эффективность каждого рекламного сообщения, пробовать разное и корректировать рекламу «на лету».

«Маленькие данные» «Большие данные»
До 20 лет Молодые люди от 17 до 20 лет, которые учатся в техническом университете и испытывают проблемы с учебой
Женщины из Москвы Незамужние москвички, которые не состоят в постоянных отношениях и в ближайшее время собираются в отпуск в Таиланд

«Большие данные» помогают бизнесу сделать рекламу полезнее и эффективнее, чем у конкурентов.

Большие данные научились собирать. Технологии добычи больших данных совершенствуются.

Раньше Сейчас
В больнице врач ставил пациенту градусник и записывал температуру в журнал К пациенту крепят десятки датчиков: они замеряют пульс, температуру тела и дыхания, состав физиологических жидкостей
Водитель раз в год смотрел на счетчик пробега автомобиля. Если наездил 20 тыс км, то вез машину в сервис Датчики автоматически отправляют пробег и сотни других показателей в сервис, автоматически (как с «Шевроле»). Если что-то сломалось или скоро сломается, то сервис сам шлет сообщение на приборную панель: «Пора к нам»
В магазине просили заполнить анкету: имя, пол, возраст. Потом поздравляли с днем рождения по смс В магазине связывают платежные данные с профилями в соцсетях, а потом — с историей поиска. Если женщина гуглит «Уход за новорожденными», ей предлагают подгузники со скидкой

Считается, что раньше все было теплое, аналоговое и родное, а сейчас появились какие-то большие данные. Но это ерунда, «большие данные» были всегда — просто их раньше не умели собирать, или это было слишком дорого. Технологии их сбора и обработки будут улучшаться, данных станет еще больше. Вы удивитесь тому, что будет через несколько лет.

Высший пилотаж — получать «больше данные» необычным способом. Так в компании «Джабон» смогли определить эпицентр землетрясения в Калифорнии. Они исследовали данные с фитнес-браслетов тысяч пользователей и выяснили, во сколько они проснулись во время землетрясения (чем раньше, тем ближе к эпицентру). Трудно навешать на людей кучу современных датчиков — специалисты по «большим данным» будут придумывать, как добыть то, что уже есть.

Большие данные научились обрабатывать. Данные сами по себе — это просто цифры. Чтобы получить от них пользу, их нужно проанализировать: найти закономерности, научиться делать выводы. Это сложная математическая задача, которая требует компьютерных мощностей.

Мощности становятся все дешевле. С 2000 года стоимость хранения гигабайта информации снизилась в 450 раз. Компании пользуются этим. Например, Яндекс обрабатывает 10 терабайт «больших данных» в сутки, и с их помощью мгновенно реагирует на поведение людей в поиске. А «Ай-Би-Эм» построил специальный дата-центр, который может сохранить 192 Гб данных в секунду. Вжух и он «всосал» за секунду все данные с вашего компьютера.

Большие данные — это этично?

Мы привыкли считать, что данные принадлежат нам. Наши аудиозаписи, фотографии — они наши, но почему кто-то может использовать данные с фитнес-трекера, историю поиска или финансовые транзакции? Ну и вообще страшно жить в мире, где все всё про тебя знают.

Обработкой больших данных занимаются алгоритмы. Они работают автоматически, перерабатывают сотни миллионов, миллиарды записей — находят закономерности, связывают данные друг с другом, делают предсказания. Подсмотреть за этим процессом очень трудно.

Работа с большими данными похожа на работу современной фотолаборатории. Тысячи клиентов сдают пленку на проявку и оцифровку. Каждой пленке выдается свой номер, за которым прячут имя, почту и телефон. Когда лаборант проявляет пленки, он не знает, чьи они. Сканирует пленки и отправляет их клиентам машина, человек за этим не следит. Система настроена так, чтобы человек не подсматривал. А в системе обработки «больших данных» обрабатывается в миллионы раз больше информации — подсмотреть еще сложней.

Компании обмениваются большим данными друг с другом и продают их. Автопроизводитель передает данные в страховую компанию, авиакомпания сообщает информацию о полетах сотовому оператору. Данные передаются обезличенно. Словно из одной фотолаборатории катушки под номерами передаются в другую, а потом — в третью. Алгоритмы работают «в темноте», подсмотреть за ними очень трудно.

⌘ ⌘ ⌘

Возможно, через несколько лет технологии разовьются еще сильнее, чем сейчас. Мы научимся получать, сохранять и обрабатывать тысячи, миллионы параметров «на лету». Представьте рекламный сервис, который в режиме реального времени анализирует ваш пульс, настроение музыкальных треков и характер личной переписки. В результате он советует товары, которые подходят под эмоциональное состояние. Бездушная машина понимает, что человек недавно расстался с любимым и, возможно, хочет сбежать подальше из города, чтобы развеяться — хотя человек еще никому не успел об этом рассказать.

Автор Сергей Король

Иллюстратор Ivan Might