{IF(user_region="ru/495"){ }} {IF(user_region="ru/499"){ }}


Игорь Кузнецов 20 августа 2015г.
Big Data в e-commerce
59 важных вещей, о которых нужно знать при работе с Big Data!

Александр Михеев

- Добрый день, друзья! Сегодня четверг, 4 часа дня и снова с вами Александр Михеев в рубрике «Бизнес в Рунете». Сегодня мы поговорим о Big Data - зачем это надо, как это можно использовать, что это такое. И нам расскажет об этом наш гость Игорь Кузнецов, Chief information officer, в простонародье - директор по IT, группа компании “Unilead”. Игорь, здравствуй.

Игорь Кузнецов

- Приветствую, друзья, коллеги.

Александр Михеев

- Да, и слушатели.

Игорь Кузнецов

- И слушатели.

Александр Михеев

- Игорь, начнём с базового. Big Data (большие данные) - что это такое?

Игорь Кузнецов

- Начнём с того, что само слово Big очень относительно. Многие понимают по-разному значение термина Big - что считать большими данными, а что считать не очень большими данными. Определений в интернете, Рунете, на Wikipedia, в зарубежных статьях очень много. Лично мне импонирует больше всего такое определение: можно охарактеризовать большие данные тем, что, если вы задумываетесь о накладных расходах на передачу этих данных, если вам тяжело эти данные просто так передать из одного места в другое, а проще обработать их уже на месте (там, куда они поступают), и если скорость поступления этих данных достаточно высока, и объем этих данных достаточно большой, - тогда эти данные считаются большими.

Александр Михеев

- То есть просто информация о том, что я мужчина 35 лет - это не Big Data вообще.

Игорь Кузнецов

- Да. Или, например, Александр, ваш любимый альбом группы «Руки вверх», который сейчас вам проще из интернета скачать, чем ехать ко мне домой, например, за 20 километров, и на жёсткий диск его перекачивать.

Александр Михеев

- Тырить твои бобины, да.

Игорь Кузнецов

-Да. Вот раньше, в 97 году, когда мы так делали, ездили к друзьям, вот это были большие данные. Сейчас эти данные уже перестали быть большими. Сейчас большие данные - это данные, которые копятся на серверах где-то в Дата-центрах.

Александр Михеев

- Ну, это же копится, в принципе, о каждом пользователе, который что-либо делает в интернете. То есть в принципе всё, что появилось в интернете, оно уже оттуда не пропадает и вот весь этот массив информации, который есть - это Big Data? Или всё-таки это что-то другое?

Игорь Кузнецов

- Очень интересный вопрос, Александр. Вам, наверное, задали его, да?

Александр Михеев

- Нет, нет, это я сейчас отсебятину…

Игорь Кузнецов

- А, вы хотите получить приз за лучший вопрос? Во-первых, копятся ли данные в интернете обо всех наших действиях, или не копятся - это большой вопрос, это зависит от стороны, которая эти данные собирает и обрабатывает. Понятно, что данные невозможно собирать бесконечно и серверные мощности всё-таки не бесконечные - данные приходится в какое-то время удалять или как-то их сжимать, терять. Поэтому мы можем не волноваться, что всё, что мы делали в интернете когда-либо, где-то хранится.

Александр Михеев

- Молния может ударить в Data Center (помнишь, у «Google» была проблема).

Игорь Кузнецов

- Было, было.

Александр Михеев

- Хорошо, есть данные, есть история о пользователях. Вообще, кому это надо, зачем?

Игорь Кузнецов

- Это очень большой и хороший вопрос: «Зачем нужны данные?». Каждый на этот вопрос, каждая сторона, я считаю, отвечает себе самостоятельно. Дело в том, что в Рунете и в нашей среде общения есть несколько стереотипов, о которых я хотел бы сегодня тоже поговорить. Один из этих стереотипов состоит в том, для чего нужны данные. И стереотип сам гласит, что данные нужны для того, чтобы предсказывать что-то, т.е. для predict. Это далеко не всегда так и predict – это всего лишь одна из задач, которую решают данные. Я бы сказал даже: «ребят, не надо заморачиваться над predict, не надо пытаться предсказать будущее, пока вы не понимаете настоящего, пока вы не разобрались в объективной реальности».

Александр Михеев

- При этом не покопались ещё в своём прошлом, да?

Игорь Кузнецов

- Да.

Александр Михеев

- Без этого тоже никак.

Игорь Кузнецов

- Это один из стереотипов. Я сейчас отвечаю на вопрос «зачем нужны данные?». Первое - это получить структурированное понимание картины, происходящей в различной системе. Я сейчас не говорю о конкретике, о том, что посетители делают в интернете (данные ведь могут описывать не только то, что посетители делают в интернете), данные могут описывать всё что угодно. Если мы говорим сейчас о бизнесе (я так понимаю, тема передачи «Бизнес в Рунете»), данные могут собираться о любых бизнес-активностях, в любых компаниях совершенно, и эти данные описывают какую-то объективную реальность. Так вот, первой задачей данных, я считаю, должно быть описание и подача адекватной, структурированной, аргументированной, подтверждённой фактами информации о том, что происходит сейчас у вас в системе, которую вы контролируете. Потому что очень часто люди, которые принимают решения, склонны принимать их слишком субъективно и склонны недооценивать то, что происходит у них в системе (это показывает и анализ, это показывает и наш опыт работы в нашей компании).

Александр Михеев

- Как пример, допустим. Как пример субъективности.

Игорь Кузнецов

- Да, как пример. В нашей рекламной сети есть партнёры, которые поставляют нам трафик (поставщики трафика). На протяжение нескольких месяцев работы с этими партнёрами, наши менеджеры по работе с партнёрами и руководство этих менеджеров по работе с партнёрами имели определённое представление о том, кто из этих партнёров является ключевым поставщиком, а кто является не ключевым поставщиком.

Александр Михеев

- На чём основывалось такое видение? Не знаю, суммы контрактов?

Игорь Кузнецов

- Суммы контрактов, на объемах их поставок, на субъективных взаимоотношениях с этими партнёрами, на общении с этими партнёрами. И в работе с этими партнёрами мы, принимая определённые решения (допустим, о выплатах, или о предоставлении каких-то эксклюзивных условий, или о предоставлении новых рекламных компаний, открытии новых рекламных компаний для этих партнёров), мы основывали своё мнение на этих субъективных данных, на субъективных мыслях этих людей, которые с ними работали. Конкретный кейс состоит в том, что несколько месяцев назад в нашей компании мы провели анализ работы различных партнёров, работы различных рекламодателей, провели свод-аналитику по тем данным, которые у нас имелись в рекламной сети, и выявили свои слабые стороны, выявили свои сильные стороны. Если говорить о партнёрах, то мы провели когортный анализ этих партнёров и разбили их на различные когорты, определив таким образом реально ключевых партнёров, не основываясь на субъективном мнении менеджеров, а основываясь на объективной реальности.

Александр Михеев

- Насколько вообще всё изменилось? То есть было совпадение или всё подтвердилось, менеджеры правильно воспринимали: кто платит больше всех денег того и тапки, да? Либо этот когортный анализ всё поменял в компании?

Игорь Кузнецов

- Сейчас менеджеры, которые меня слушают, конечно, очень сильно обидятся, если я скажу им, что они полностью ошибались. На самом деле, они, конечно же, не ошибались полностью, но было несколько кейсов, когда мы на самом деле ошибочно считали ключевыми тех, кто таковыми не являлся. Перераспределив вот эти когорты партнёров, поставщиков трафика, мы получили новые результаты. Во-первых, каждый из наших менеджеров стал сопровождать меньшее количество партнёров, таким образом, повысив качество общения, качество работы с имеющимися ключевыми партнёрами. На 35% примерно мы повысили доход в расчёте на одного менеджера, доход в отработке одним партнёром. И где-то примерно на 20% снизилось количество обращений заявок в наш технический support (наш support менеджеров внешних) - таким образом, мы повысили эффективность работы своих сотрудников.

Александр Михеев

- Отлично. Понятно, что это оптимизация бизнес-процессов, фактически, внутри компании, они экономят деньги, повышают доход, но это же один только кусок процесса. Если мы говорим о работе с данными (именно в том понимании Big Data) - это же совокупность каких-то процессов в конечном итоге. Давай поговорим об этом.

Игорь Кузнецов

- Да, действительно, надо понимать, опять же, о чём мы говорим. Сам термин «Big Data», на мой взгляд, в последнее время (в последний год или два года) стал неким, скажем, хэштегом или ярлыком, который очень…

Александр Михеев

- Не, хэштег – отлично.

Игорь Кузнецов

- Хэштегом, который очень модно сейчас лепить на себя.

Александр Михеев

- Привет, я хэштег Big Data.

Игорь Кузнецов

- У меня всё Big Data.

Александр Михеев

- Всё отлично.

Игорь Кузнецов

- Да. И если раньше несколько лет назад таким хэштегом было 3D, например (когда вот только-только появились 3D кинотеатры), тут же все кинопродакшн компании ринулись в эти 3D и начали делать 3D фильмы. Все аналитики, весь мир, все медиа гудели о том, что 3D - это взрыв, это новые технологии, что скоро все фильмы абсолютно будут 3D. Потом все начали заявлять: «Ребята, а у нас тут 4D, а у нас 5D, а у нас 7D». И, в общем-то, уже, грубо говоря, если ты не 3D, то всё - к тебе больше на фильм никто не пойдёт.

Александр Михеев

- Не, а что плохого?

Игорь Кузнецов

- Где 3D сейчас?

Александр Михеев

- Ведь классно же. Ну почему, есть же 3D фильмы, здорово все, хорошая картинка, всем нравится.

Игорь Кузнецов

- Но тем не менее…

Александр Михеев

- То есть ты хочешь сказать, что есть просто 3D, когда оно действительно надо и это хорошо воспринимается, а есть 3D, которое просто для галочки «у меня есть 3D», причём там, где это абсолютно не надо?

Игорь Кузнецов

- Да.

Александр Михеев

- То есть (подведу до конца) получается, что на сегодняшний день на рынке e-commerce (не важно, рекламном рынке или в Рунете) все говорят о Big Data, все говорят о том, что она у них есть, они ею пользуются, но мало кто реально понимает, что это такое, и выдаёт какую-то эффективность с этого процесса. Это так?

Игорь Кузнецов

- Александр, вы сказали о том, что 3D заняло своё место (если мы говорим об аналогии с 3D). Абсолютно то же самое, я считаю, будет происходить и с любой новой технологией, которая резко бросается на рынок, в том числе и с Big Data. Ещё одна аналогия, которая прямо сейчас мне в голову приходит: лет 5 назад все говорили о CPA.

Александр Михеев

- Ужас.

Игорь Кузнецов

- Все считали, что CPA - это вещь, которая перевернёт рынок, и что через лет 5 или 7 все только и будут работать, что по CPA. Ну и что, разве так произошло?

Александр Михеев

- Ну, сдвиг какой-то произошёл.

Игорь Кузнецов

- Сдвиг какой-то произошёл, она заняла свою нишу, эта технология. То же самое произойдёт и с Big Data технологией: эта технология просто займёт свою нишу, она не станет никогда панацеей, той, о которой сейчас такая шумиха развивается.

Александр Михеев

- Смотри (я предлагаю на «ты» перейти, мы знакомы очень давно уже), в конечном итоге это не может объясняться тем, что в принципе с данными не умеют у нас работать? Данные - они есть, они все на поверхности, иди, бери в соцсетях, иди, бери поисковые запросы, анализируй, что человек читал, какие сайты посещал, кредитную историю бери, паспортные данные. Что нароешь - всё твоё, да? Это один процесс. Но ведь проблема заключается в том, что с этими данными люди работать не умеют. Ценность ведь в том - как правильно, не важно, мы говорим про predict или… Фактически, опять же, если мы про e-commerce, про рекламу, там всё-таки ключевая вещь – это увеличить эффективность при использовании данных. Сидит какая-то девочка 16 лет в «ВКонтакте», буду ей показывать конкретные вещи про котиков, мимишные какие-то штучки, она, наверное, кликнет с большей вероятностью. Но первый вопрос заключается в следующем: действительно ли у нас умеют эффективно работать с данными и алгоритмы составлять работы с данными? Это первое. Второе - окупается ли весь этот процесс?

Игорь Кузнецов

- Первый вопрос – да, конечно, умеют. Вопрос в том, после того, как люди работают с данными, что они с ними делают и (вот тут мы подходим ко второму вопросу) какую финансовую эффективность они из неё вытаскивают? Категорически что-то заявлять о том, что «нет, у нас в России (или, может быть, вообще в мире) никто не умеет на самом деле работать с данными» я не буду, потому что это, конечно, явно не так. Люди, конечно же, занимаются этим, люди посвящают этому огромное количество времени, люди изучают специальные курсы, проходят программы в интернете (и где только не проходят) на тему анализа данных и вообще «Data science», поэтому – да, конечно, люди умеют работать с данными. Вопрос в целях, опять же. Сама дисциплина, science анализа данных - в ней таким явным лейтмотивом проходит мысль: «Ребята, для того, чтобы анализировать данные, задайте сами себе сначала вопрос - а зачем, что вы хотите от этого получить? Что конкретно, кроме самого процесса, который приносит вам удовольствие, вы от этого получите? Для чего?». Перед тем, как собирать данные какие-то, копить на серверах все посещения всей аудитории, ответьте себе на вопрос: а что вы будете собирать, для чего вы будете это собирать и как вы потом будете это использовать? Попробуйте сначала на маленьких кейсах, потренируйтесь сначала на небольших данных, на маленьких объемах данных сделать какие-то предположения, понять систему как-то лучше. Научитесь правильно задавать вопросы: что вы хотите получить от этих данных? Включайте мозг, включайте…

Александр Михеев

- Ключевой момент - включайте мозг.

Игорь Кузнецов

- Да.

Александр Михеев

- Это понятно. Давай вернёмся к e-commerce. Фактически, есть компании, которые заявляют о том, что они научились работать с данными, так называемые DMP (Data Management Platform), и «ребята, давайте подключайте нас, берите наши алгоритмы, у нас сидят мега мозги-математики, которые при использовании данных научились делать классные predict и для e-commerce это всё очень выгодно и всё это работает». Скажу про себя: мы тестировали несколько таких систем - эффективность равнялась нулю. Был какой-то выхлоп, но в любом случае, это внешний подрядчик, которому ты платишь деньги и это снижает твою маржинальность фактически, и тот результат, который даже чуть более лучше, чем при не использовании DMP, он не покрывал тех затрат, которые ты платишь.

Игорь Кузнецов

- Скажу про себя - у нас та же самая картина. Во-первых, такое происходило из-за специфики наших клиентов: всё-таки мы сейчас performance сетка и рекламодатели – это те, кто работают по performance модели. Общаясь с ними мы до сих пор так и не нашли ни одного человека, который готов был бы заплатить за эти данные, который готов был бы сказать: «Да, ребята, я готов вам дополнительно платить ещё 1$ свыше за конверсию, вот вы мне, пожалуйста, притаскивайте именно конкретно мужчин от 35 до 37 лет, которые живут в таком-то районе города Москвы». До сих пор мы так и не нашли для себя хорошую математику и финансовую эффективность при работе с DMP, хотя тоже анализировали несколько партнёров и пробовали несколько кейсов. На данный момент, сейчас у нас есть кейсы успешные только с собственными данными и с так называемыми «first party data» - данными от рекламодателя.

Александр Михеев

- Друзья, я напоминаю, что сегодня мы говорим о больших данных, как это использовать. В гостях у нас Игорь Кузнецов - директор по IT аналитике «Unilead». Кстати, к радиослушателям у меня вопрос. Мы сейчас с Игорем - два скептика, которые уверены, что в принципе такая Big Data никому не нужна (с точки зрения бизнеса). Если у вас были примеры – пишите о том, что использование именно внешних DMP, в принципе, данных, повышали эффективность вашего бизнеса (в чистом виде без всего того, о чём говорит Игорь, то есть более широкого некого спектра действий, с анализом собственных действий, собственных данных, эффективности повышения в компании). Вот чисто вы взяли, у вас кейс был: один случай - вы работали без DMP, получали 100 рублей, завтра подключили DMP - стали получать 200 рублей, 102 рубля, 105 рубля. Окупалось это или нет? У нас – нет. Расскажите вы. Поехали дальше. В конечном итоге, если я задаю себе вопрос «зачем это надо?», я определил - мой мозг сработал правильно, да?

Игорь Кузнецов

- Угу.

Александр Михеев

- Я дальше начал брать данные. Какие источники? Где данные можно взять на сегодняшний день, кроме DMP? Вот я - умный программист, я готов это сделать всё сам, я сам не субъективная личность, я прям все хорошо алгоритмы напишу. Какие источники данных существуют на сегодняшний день?

Игорь Кузнецов

- Первый источник данных - это серверы, которые, собственно, обрабатывают. Если мы говорим, конечно, сейчас о e-commerce, об интернете - это серверы, которые обрабатывают пользовательские запросы и пишут log файлы в определённые системы.

Александр Михеев

- Хорошо, а какой тип данных хранится на серверах более точно, можешь сказать?

Игорь Кузнецов

- Big Data (термин сам по себе) характеризуется ещё одним интересным свойством - это вариативность, скажем так, высокая вариативность. Данные, которые собираются для анализа, для Data science технологий, они обладают очень разной структурой - это могут быть как текстовые файлы, так и записи в базе данных, как слабо структурированные данные, так и сильно структурированные данные: логи, JSon файлы, текстовые файлы, записи в базе данных - всё, что угодно. То есть это совершенно разнородные источники данных, которые, тем не менее, как правило, складываются в какое-то общее хранилище, где дальше алгоритмы их определённым образом обрабатывают, разворачивают и сворачивают.

Александр Михеев

- Смотри, получается (я пытаюсь сейчас шаговость выстроить), первое - мы собрали данные, у нас огромный массив данных, пусть мы собрали с разных источников (собственных, внешних - не важно). Следующий шаг? Что мы делаем с ними? Категоризируем как-то, систематизируем? Что мы с этими данными делаем?

Игорь Кузнецов

- А цель какая? Еще раз.

Александр Михеев

- А вот, не знаю, давай е-commerce интернет-магазин. У нас есть очень хороший вопрос от Екатерины: «Каким способом интернет-магазин может воспользоваться Big Data?». Я, может быть, кривым способом пытался к этому вопрос подвести, но смысл такой - есть интернет-магазин.

Игорь Кузнецов

- Хорошо, давай я тогда расскажу…

Александр Михеев

- Конкретный кейс.

Игорь Кузнецов

- Расскажу, как я вижу этот процесс. Пример приведу явный, простой. Big Data в e-commerce. Задача Big Data (вернее, даже будем говорить сейчас опять же о Data science) в e-commerce, в типичном e-commerce - это предсказать вероятность какого-то события. Любая задача сводится всё равно к одному: есть какое-то успешное событие (будь то клик, будь то конверсия, будь то покупка - всё что угодно, не важно), мы должны предсказать вероятность этого события в зависимости от какого-то объекта, креатива какого-то рекламного или какого-то контента, который мы пользователю, посетителю, аудитории покажем. Так вот, у нас есть, допустим, несколько вариантов этого креатива - 100 разных баннеров рекламных (или 200 - не важно), для каждого из них мы должны посчитать определённую вероятность, того, что, показав сейчас, в данный момент этот баннер, мы получим вот такую вероятность успешного события. Дальше мы должны собрать постфактум случившиеся, достоверно нам известные данные о показах тех или иных креативов тем или иным посетителям в тех или иных условиях (то есть на тех или иных площадках, в то или иное время суток, время года, погоду - всё что угодно).

Александр Михеев

- Какая музыка играла.

Игорь Кузнецов

- Какая музыка играла в данный момент, какие новости были в данный момент актуальны в мире, в политике, в экономике - всё что угодно. Собирать или не собирать эти данные - выбор каждого из нас, каждой сети конкретно. Но какие данные мы должны собирать однозначно, 100% - это данные о посетителе, данные о площадке (то есть, в каком контексте были показаны рекламные баннера) и данные о том оффере, о той рекламной компании, которая была ему показана. Так вот, каждое из этих данных (данные о посетителе, о площадке и о креативе) дадут некое смещение коэффициента вероятности в этой модели и, таким образом, мы можем натренировать определённую модель, как правило, эта модель называется линейная регрессия (можно просто погуглить, почитать статьи на эту тему, я думаю, что сейчас не буду рассказывать, как она работает).

Александр Михеев

- Не надо, не надо.

Игорь Кузнецов

- Самый простой и самый классический инструмент (более того, он уже был десятки лет назад изобретён, десятки лет назад уже использовался) - это предсказание определенной вероятности с помощью линейной регрессии, с помощью логистической регрессии на основе алгоритмов. Основываясь на каких-то уже заранее собранных, заранее известных фактах, мы можем понять модель. Грубо говоря, какие… Мне, конечно, было бы проще на доске это нарисовать.

Александр Михеев

- Нет, для слушателей придется объяснять. Ну, попробуй, знаешь (у меня к тебе такая маленькая просьба будет) более приземлёнными и простыми словами, потому что я смотрю сейчас вопросы, которые падают к нам… Людей все-таки в первую очередь (я тебя ещё до эфира, помнишь, предупреждал) будет интересовать, как это руками делать -  раз. Второе - если потрачу на это столько денег, сколько мне на это выдаст. Это два. Третье - есть бизнес, допустим… Вот Сергей Кравцов спрашивает: «Расскажите, как бигдата применяется сегодня. Есть бизнес, который, что-то должен сделать - куда идти, какие кнопки нажимать?». Здесь Сергей, наверное, не имеет в виду, где DMP. Как к ним прийти и как к ним подключиться - это, конечно, всё… ты можешь что-то об этом сказать?

Игорь Кузнецов

- Приходите к DMP, рассказывайте о своём кейсе, спрашивайте, какую эффективность они смогут вам дать. Они, вероятно, будут заявлять какие-то цифры определённые, говорить, что вот мы…

Александр Михеев

- А какие цифры? Что они говорят? Они говорят: «Мы можем предсказать людей, которые кликнут на вашу рекламу с большей вероятностью» или «Это повысит вашу эффективность рекламы, чем если бы вы нас не использовали». Да?

Игорь Кузнецов

- Да.

Александр Михеев

- А вот другой приземлённый вопрос. Есть от Ленара вопрос: «Есть одностраничники, стандартные кейсы - ИП какой-нибудь с Китая возит какие-то товары, наклепал себе странички, закупает рекламу. Вот ему надо вообще с бигдатой заморачиваться?». Оно ему чем-то поможет или та добавочная эффективность, которую даст Big Data, она просто не окупится для него?

Игорь Кузнецов

- Надо считать. Я не уверен. Если бы я был человеком, который содержит сайт-одностраничник и пытается как-то оптимизировать эффективность конверсии, я бы воспользовался просто А/Б тестами. И, кстати, А/Б тесты и задачи А/Б тестов – это, по большому счёту, тоже одно из применений Big Data. То есть вы просто собираете информацию о том, какая кнопочка - зелёненькая или красненькая - у вас работала больше. Скажем так, если у вас будет, грубо говоря, больше тысячи успешных конверсий, если вы наберёте статистику в тысячу успешных конверсий, вы сможете уже с хорошей долей вероятности (процентов на 95) быть уверенными, что да, действительно, А или Б тест страницы работает лучше. В общем-то, это уже тоже Big Data. То есть обычный А/Б тест - это тоже Big Data.

Александр Михеев

- Давай вернёмся к самому началу. Я на 100% уверен, что всё-таки люди не до конца понимают, что такое Big Data. У всех как раз в голове этот хэштег Big Data, то есть «У меня данные соцсетей, у меня данные, что он читал, что он видел». То, что я перечислял - все считают, что вот эти данные, и они пытаются их переложить на собственный бизнес. Мы с тобой уже полчаса пытаемся объяснить, что Big Data - больше, чем всё это. Big Data - не с точки зрения объема данных, а с точки зрения, что может являться бигдатой. Даже то, что ты сейчас говоришь - простой постанализ, фактически, любого… Вот берём интернет-магазин. Ну, вы же обладаете, ребята, данными о том, что вы продали за последний месяц - смотрите на эффективность. Вы же знаете, если вы размещали собственные рекламные материалы, вы смотрели, какие конверсии были у вас по тем или иным рекламным материалам - это уже Big Data. Пользуйтесь этими данными, повышайте эффективность. Если вы сами арбитражите трафик, вам не нужны ещё внешние источники данных. Я на 90% уверен, что эффективность будет смешная, если вы это сделаете или, опять же, я ошибаюсь?

Игорь Кузнецов

- Ты задал сейчас очень много вопросов. Я не знаю, на какой из них отвечать.

Александр Михеев

- Смотри, достаточно ли интернет-магазинам e-commerce заниматься анализом собственных действий….

Игорь Кузнецов

- Я считаю, что вполне достаточно.

Александр Михеев

- Или нужно подключать внешние источники данных для того, чтобы увеличить эффективность?

Игорь Кузнецов

- На месте интернет-магазина я бы подключал внешние источники данных тогда, когда я бы уже вдоль и поперёк распахал собственные источники данных, вдоль и поперёк распахал картину и полностью знал бы всё, что происходит в собственной системе, основываясь на собственных данных. То есть тогда, когда мне уже не хватит собственных данных, вот тогда я бы стал закупать эти данные где-то ещё. При этом, как показывает практика, DMP платформы имеют свойство покупать данные друг у друга, или же покупать данные у ещё более крупных DMP, или же покупать данные у рекламодателей, или просто бесплатно брать их у рекламодателей, у клиентов, тогда как мы (если мы говорим о нас, как о рекламных сетях), скажем, в принципе, можем эти же самые данные взять у рекламодателей бесплатно. Вопрос - зачем за них платить DMP.

Александр Михеев

- С нами, с сетками немного попроще, мы всё-таки пылесосим большие объёмы трафика, через нас очень много проходит, мы сами можем собирать очень большие объёмы данных и здесь немножко другая история. Всё-таки для е-commerce совет ключевой: господа, дамы, начните с анализа собственной эффективности, то, что вы делаете, для вас это - Big Data, для вас это уже даст какой-то эффективный результат в конечном итоге, если вы научитесь с этим работать; если вы автоматизируете процессы, если вы сами пропишете алгоритмы, то это уже даст какой-то эффект.

Игорь Кузнецов

- И ещё один важный момент здесь (продолжая твою мысль, Александр) - если вы сами, как владелец бизнеса, как менеджер, как руководитель отдела какого-то направления в компании, не будете понимать, что происходит у вас в данных и какую картину эти данные отражают, вы не сможете эффективно эти данные применять, вы не сможете задавать к этим данным правильные вопросы и получать на них правильные ответы. Никакой внешний специалист не сделает это лучше, чем вы сами.

Александр Михеев

- Абсолютно верно. Мы определились с тем, что нужно е-commerce, с чего начинать. Вторым этапом (как мы уже сказали) после того, как вы проанализируете самих себя и увидите, что, в принципе, это работает и вы повысили эффективность, действительно начинайте привлекать внешние данные. Но здесь одно есть «но». Данные – это, конечно, всё хорошо (косвенно мы уже упоминали момент), но всё упирается ведь в алгоритмы. Я на 100% уверен, что всё это субъективно. Именно сами алгоритмы - они очень субъективны, с той точки зрения, что они отражают мнение, восприятие реальности только того человека, который составлял эти алгоритмы, особенно с точки зрения predict (если мы говорим об этом). Или это не так?

Игорь Кузнецов

- Нет, всё же это не совсем так. Вопрос, конечно, в том, какой конкретно алгоритм был составлен и как конкретно он был применён. Да, я понимаю, Александр, ты, наверное, говоришь о тех случаях, когда сам алгоритм составляется из какого-то уже имеющегося предположения того человека, кто его составляет. Но, как правило, в аналитике данных всё же процесс происходит (по крайней мере, как учит классическая наука анализа данных) более, скажем так, абстрагировано: для начала нужно просто разложить… грубо говоря, у нас есть данные какие-то, у нас есть несколько переменных, которые имеют разный разброс значений. Мы должны выявить, какие из этих переменных зависят от каких других переменных, какие корреляции в системе у нас есть. Например, мы видим, что возраст человека влияет на процент его конверсии в каком-то интернет-магазине, мы начинаем думать: «Так, а что ещё влияет? Какие ещё параметры, какие ещё из имеющихся у нас в данный момент данных коррелируют с тем процентом успеха, который мы хотим повысить?». В классическом подходе мы должны зависимость каждой переменной от каждой попарно представить на графике и посмотреть, как каждая переменная зависит от каждой из них.

Александр Михеев

- О, ужас! Только сейчас у меня мозг лопнул, и я боюсь, что у всех остальных там вообще ужас какой-то произошёл. Смотри, то есть в режиме онлайн это сделать возможно или нет? Или всё равно мне нужно взять сначала, грубо говоря, переменную возраст, посмотреть: угадал - не угадал.

Игорь Кузнецов

- Да.

Александр Михеев

- Не брал переменную - было так, взял переменную - стало лучше. Класс, замечательно. Дальше – благосостояние. И вот потихоньку я начинаю усложнять и усложнять алгоритм.

Игорь Кузнецов

- Да.

Александр Михеев

- А насколько надо усложнять?

Игорь Кузнецов

- Отличный вопрос. Александр, ты опять сегодня, похоже, очень хочешь получить приз за…

Александр Михеев

- За лучший вопрос?

Игорь Кузнецов

- за лучший вопрос, да. Есть тоже очень интересный миф в анализе данных, вернее, среди, скажем, масс-медиа, что мегапродвинутые, мегасложные, мегакрутые алгоритмы – они, собственно, являются тем фактором успеха, и суперкрутые математики действительно являются ключевой вещью, которая нужна для того, чтобы реализовать анализ данных, чтобы получить от этого очень большой хороший выхлоп. Не всегда так, далеко не всегда так, потому что…

Александр Михеев

- Давай скажем - никогда так не бывает. Давай будем честными перед самими собой и слушателями.

Игорь Кузнецов

- Как правило, более простые алгоритмы на большем количестве данных работают лучше, чем сложные алгоритмы на небольшом количестве данных. То есть ключевым здесь параметром является то количество данных, то количество фактов, которые вы уже насобирали и тот процент конверсии для каждого из этих фактов, которые вы уже достоверно знаете, то знание о среде, в которой вы оперируете.

Александр Михеев

- Угу.

Игорь Кузнецов

- Вот чем больше фактов вы знаете, тем меньше у вас процент ошибки по математической статистике.

Александр Михеев

- Ну, это понятно, да.

Игорь Кузнецов

- По теории вероятности. И простых алгоритмов, работающих с этими данными, будет уже вполне достаточно, выше крыши. Это как принцип Парето - вы применяете 20% усилий и получаете 80% результата. Все последующие ваши усилия, направленные на улучшение алгоритмов, на усложнение алгоритмов, они дадут вам относительно небольшой прирост в эффективности. Начните с простого, начните с обычной линейной регрессии, с логистической регрессии.

Александр Михеев

- Я, как представил - голова взрывается.

Игорь Кузнецов

- Погуглите, почитайте.

Александр Михеев

- Друзья, сегодня мы говорим о Big Data - тема достаточно сложная и интересная. В гостях у нас Игорь Кузнецов - директор по IT-аналитике «Юнилид групп». Игорь, давай перейдём к конкретным кейсам. Мы, в принципе, обсудили, что нужно делать е-commerce. Есть помимо того, как вы подняли эффективность у себя в компании при использовании, грубо говоря, пост-анализа действий с рекламодателями, эффективность работы менеджеров и всё остальное, вот качественные кейсы по применению бигдата были?

Игорь Кузнецов

- Были. Я бы пока не сказал сейчас, что мы достигли здесь каких-то супер ошеломительных результатов. Во-первых, это происходит потому, что мы сейчас только перешли к задаче именно predict, сейчас только в нашей рекламной сети перешли к predict CTR и конверсии. До этого мы целиком и полностью концентрировались на тех вещах, о которых я в начале нашего разговора говорил -  о том, что данные должны, во-первых, дать нам объективную реальность. На данный момент (я догадываюсь, что всех интересуют цифры какие-то определённые на какие-то кейсы) было несколько кейсов, которые показывали прирост в нашей базовой рекламной модели, прирост конверсий, прирост эффективности на 20%, на 30% (около того), но всё это очень сильно зависит от многих факторов. Далеко не всегда аналитика данных и те действия, которые вы применяете к вашей рекламной модели (к показу рекламы на посетителя), далеко не всегда это единственный фактор, который влияет на эффективность. На разных площадках применение данных может влиять по-разному на эффективность, с разными оферами.

Александр Михеев

- Извини, перебью, даже скажу больше - разный текст написания рекламного объявления, разные картинки, разные площадки, разное время, разная аудитория.

Игорь Кузнецов

- Да.

Александр Михеев

- Разные новости, которые шли параллельно, музыка, звёзды не сошлись. В принципе, факторов просто огромное количество.

Игорь Кузнецов

- Да, поэтому тоже, кстати, важный ещё один момент, о котором нужно помнить каждому аналитику или каждому человеку, который занимается анализом данных - оставайтесь критичными к полученным результатам, никогда не верьте даже самим себе, даже тем результатам, которые вы видите, всегда задавайте как можно больше вопросов, потому что если вы получили 20%-ный или 50%-ный выхлоп от применения аналитики данных в бизнес-модели, это не значит, что именно это повлияло на этот выхлоп, может быть что-то ещё сыграло свою роль, и если вы видите, что так произошло, не нужно делать вывод, что так будет происходить и дальше. То есть единичные кейсы - это всего лишь единичные кейсы, в общем-то.

Александр Михеев

- Давай так. Вы полгода назад Big Data только изучали. Я сейчас утрирую, ну пусть год назад.

Игорь Кузнецов

- Два года назад.

Александр Михеев

- Два года назад, не важно, не придирайся, я не к этому веду. Сейчас вы это применяете.

Игорь Кузнецов

- Да.

Александр Михеев

- Эффективность вообще, в принципе, с точки зрения бизнеса, она выросла. Давай «в среднем по больнице». Представим, вы ничего больше не делали: звёзды так же располагаются, музыка такая же играет. Вы начали пользоваться Big Data. Сколько у вас прирост по бизнесу пришёл?

Игорь Кузнецов

- Александр, если я сейчас в прямом эфире это скажу, то, вернувшись обратно в офис, я увижу рассерженные лица коллег…

Александр Михеев

- Нет, они очень эффективно работали, но всё равно, понимаешь, это же совокупность действий. Понятно, ребята хуже работать не стали, может даже лучше. Давай так - мы отбросим все эти моменты. Вот до Big Data и после Big Data, ну, по-честному.

Игорь Кузнецов

- Эта цифра будет…

Александр Михеев

- Понимаешь, это реально людей интересует.

Игорь Кузнецов

- Эта цифра будет очень субъективной.

Александр Михеев

- Я знаю, но давай мы хоть немножко субъективности внесём в эфир. Сколько конкретно?

Игорь Кузнецов

- Я бы сказал 20-25%.

Александр Михеев

- Отлично, супер, это ребята работают. Все уволены.

Игорь Кузнецов

- Но эффект чувствуется на очень долгосрочном периоде. То есть это должен быть ряд мероприятий, это должен быть комплекс мероприятий. То, о чём мы говорили с тобой в начале разговора: сами по себе данные, да и сами по себе методики обработки и анализа этих данных - это не панацея, это не даст вам просто так, без определённых усилий по внедрению новых механизмов, это не даст вам никого прироста эффективности.

Александр Михеев

- Получается, в конечном ведь итоге, использование сторонних DMP платформ,  не даёт такого эффекта, если ты больше ничего не делаешь.

Игорь Кузнецов

- Конечно.

Александр Михеев

- Мы сейчас сделали небольшую такую подсказку создателям, тем людям, которые управляют DMP-ишками: ребята, измените свой рекламный подход, хватит ходить по рынку и рассказывать, что «нажмите кнопку, и завтра вам будет счастье» - не будет этого никогда. Это в принципе невозможно, потому что очень мало того, что даёт DMP, очень большую работу нужно проделать всем над самими собой. И в первую очередь (опять же мы возвращаемся к этому), начинается работа над самими собой с использования только собственных данных. И когда вы получили максимальную, по вашему мнению, эффективность, начинайте использовать внешнее. Дмитрий Баронов у нас спрашивает: «На сколько может снизиться энергопотребление в датацентрах после внедрения технологии Data mining?». Это, по-моему, после первого получаса этого твоего мозгового давления.

Игорь Кузнецов

- Шикарный вопрос.

Александр Михеев

- Да, получайте ответ.

Игорь Кузнецов

- Давайте я скажу цифру: на 7,8%.

Александр Михеев

- Дмитрий, попробуйте оспорить.

Игорь Кузнецов

- Попробуйте проверить, да. Ребята, я не знаю на сколько.

Александр Михеев

- Вот это как раз, опять же, только что был небольшой монолог - невозможно.

Игорь Кузнецов

- «А какой у вас Data Center?». Это то же самое, если бы я задал вопрос уважаемым нашим слушателям сейчас: «Ребята, а на сколько процентов у вас повысится конверсия вашего сайта, если вы сделаете редизайн, вот на сколько?». Ответ зависит от массы параметров: от того, какая конверсия была до этого, что за веб сайт, кто будет делать редизайн…

Александр Михеев

- Ты сейчас замучаешься факты перечислять.

Игорь Кузнецов

- Да, факторов масса.

Александр Михеев

- Абсолютно.

Игорь Кузнецов

- Поэтому нужно включать мозг и просто анализировать все, все, все заслуживающие внимание факторы.

Александр Михеев

- И не забывайте, на самом деле, отвечать на вопрос ключевой: «Зачем вам это всё надо?»

Игорь Кузнецов

- Да.

Александр Михеев

- Вот вы живёте без Big Data, вы зарабатываете денег, вы е-commerce, у вас идут продажи, допустим, вы хорошо получаете feedback от контекстной рекламы. Замечательно же, здорово, да? Всё приходит. Не лезьте туда, где, в принципе, вы не уверенны, что получите эффективность.

Игорь Кузнецов

- Есть ещё один очень хороший ответ на вопрос: «зачем это всё надо, Big Data?». Вот, Саш, сейчас, на данный момент рекламные агентства или рекламная сеть, которые у себя в презентации для клиентов и партнёров не пишут слово Big Data - это, в общем-то, не круто.

Александр Михеев

- Не Big Data.

Игорь Кузнецов

- Не Big Data, да. Как-то нужно иногда сейчас написать слово Big Data, просто потому что это сейчас такой хэштег хороший. Как мы используем эту Big Data - какая разница, всё равно никто проверять не будет, но мы её используем, потому что если мы не напишем слово Big Data, у нас никто не купит. Это уже превращается в такое подобие того, что на бутылке подсолнечного масла писать «без холестерина». Да, ребят, понятно.

Александр Михеев

- А какие можешь привести кейсы или случаи, когда «мистер очевидность» - сделали глубокий анализ и получили такой результат, просто действительно работа ради работы, которая вообще тебе, в принципе, ничего не даёт.

Игорь Кузнецов

- Да, да.

Александр Михеев

- Есть такие случаи?

Игорь Кузнецов

- Есть в анализе данных интересный кейс, я относительно недавно о нём читал. Как вы, наверное, догадываетесь, в США, зарубежом тоже очень активно работают с данными. В 2014 году ребята из Принстонского Университета, исследователи, проделали очень большую научную работу - они исследовали активности аудитории в социальных сетях, исследовали динамику изменений этих активностей, анализировали тренды запросов в различных поисковых сетях, в социальных сетях, анализировали то, как эти тренды коррелировали с событиями, которые происходили на рынке. В частности, они проанализировали то, как сервис «MySpace» снижал свою активность, и пытались посмотреть какие факторы, возможно, влияли на это. Они обнаружили, что запрашиваемость сервиса «MySpace» в «Google» очень сильно падала на протяжение нескольких месяцев и, соответственно, этот тренд очень хорошо, явно коррелировал с тем, что, действительно, сам сервис «MySpace» упал.

Александр Михеев

- Давай упрощу. То есть количество поисковых запросов со словом MySpace снижалось…

Игорь Кузнецов

- Да.

Александр Михеев

- Аудитория MySpace снижалась, и эти господа сделали…

Игорь Кузнецов

- Эти господа натренировали модель на этот конкретный параметр, они увидели эту явную корреляцию (то, что эти два параметра друг с другом явно коррелируют очень хорошо) и применили тот же самый алгоритм, хорошо натренированный, на запросы в «Facebook». Сделали определённые выводы: «в общем-то, в ближайшие годы, скорее всего, мы будем наблюдать резкий отток аудитории с сервиса «Facebook», так как, ребята, посмотрите, действительно количество запросов слова «Facebook» в «Google» очень резко падает, и, так как этот фактор явно в нашем алгоритме был предсказан, и он явно коррелирует (посмотрите, с MySpace произошло то же самое), на основе этого конкретного фактора мы делаем такие выводы». Ребята из «Facebook» немного, конечно, приуныли, слегка обиделись.

Александр Михеев

- Встали все, ушли, закрылись.

Игорь Кузнецов

- Да, у «Facebook» очень большой отдел, который занимается анализом данных и Big Data технологиями. Кстати, ещё что интересно (я немного отойду от темы)

Александр Михеев

- Да, конечно.

Игорь Кузнецов

- «Facebook», «Google», «Yahoo» и другие подобные западные компании, в отличие от наших компаний, очень активно занимаются тем, что публикуют свои результаты и не боятся их раскрывать (свои научные работы, свои результаты работы над данными). То есть они делают это достаточно открыто.

Александр Михеев

- Не, «Facebook», «Google», в принципе, мало, чего стоит бояться. Боюсь, что в ближайшей перспективе не найдётся тот, кто сможет это использовать против них. А наши компании… я понимаю, чего они боятся. У нас, в принципе, рынок весь такой: я всё до последнего держу в секрете, потому что, это моё - самое ценное. Но данные, в конечном итоге, - это всё, да?

Игорь Кузнецов

- Я закончу тот кейс, о котором я рассказывал. Ребята из «Facebook» провели аналогичный анализ данных, аналогичный алгоритм применили примерно и сказали: «Ребят, раз вы считаете, что корреляция параметров - это взаимозависимость (раз вы делаете такое предположение), мы сделаем точно такой же анализ, где сравним поисковые запросы Принстонского Университета с другими университетами, где сравним в собственной социальной сети «Facebook» динамику лайков страницы Принстонского университета». И ребята из «Facebook» сделали такой анализ, такой вывод, опубликовали, направили очень встревоженное письмо в Принстон и сказали: «Ребят, мы очень за вас волнуемся, потому что наш анализ показывает, что в 2021 году ваш университет, скорее всего, исчезнет, потому что у вас очень плохой тренд запроса». Чуть дальше они пошли, совсем уж стали утрировать.

Александр Михеев

- Ну, потролили. Тут не утрирование, просто троллинг банальный.

Игорь Кузнецов

- Да. Они посмотрели тренды запроса «air» (воздух) в «Google», увидели нисходящий тренд и сделали такой явный вывод, что, скорее всего, в 2060 году на земле не останется воздуха.

Александр Михеев

- OK.

Игорь Кузнецов

- Какие выводы мы делаем из этого всего?

Александр Михеев

- Да, я хочу подвести как раз. У нас е-commerce, всё-таки, - это наше всё на сегодняшний день, учитывая, особенно, стремление Алибабы сюда зайти, GD и всех остальных (все же хотят, рынок-то хороший, вкусный, желающих много). Стоит ли вообще е-commerce заморачиваться на тему Big Data или живите, как жили?

Игорь Кузнецов

- Да, конечно, стоит, конечно, стоит. Но стоит делать это аккуратно, стоит делать это правильно и грамотно и помнить о нескольких важных вещах.

Александр Михеев

 - Правильно, грамотно. Помнишь, мы заявили «59 важных моментов работы с данными». Давай пошагово, пусть не 59…

Игорь Кузнецов

- Это маркетинговая уловка - 59

Александр Михеев

- Давай хотя бы штук 5 назовём вещей, которые действительно нужно е-commerce делать для того, чтобы повысить эффективность при работе и использовать Big Data, как таковую.

Игорь Кузнецов

- Во-первых (то, о чём мы говорили в начале) - ставьте себе конкретную цель. Не собирайте данные и не делайте анализ просто ради того, чтобы собирать данные и делать анализ.

Александр Михеев

- Вот заняться им больше нечем.

Игорь Кузнецов

- Да.

Александр Михеев

- Понятно, цель ясна: увеличить продажи. Я надеюсь, любой е-commerce хочет…

Игорь Кузнецов

- Задавайте себе правильные вопросы, нужные вопросы, копайте дальше.

Александр Михеев

- Давай, опять же, на конкретном примере. Мы поставили цель. Я - е-commerce, ставлю цель повысить продажи. Какие вопросы мне себе задать?

Игорь Кузнецов

- Где мои сильные стороны, где мои слабые стороны?

Александр Михеев

- То есть SWOT-анализ банально?

Игорь Кузнецов

- Да. Или «five whys»  его ещё называют (не его, а другой, похожий метод бизнес-анализа).

Александр Михеев

- Ну, понятно, да.

Игорь Кузнецов

- Когда ты задаёшь себе вопрос: «Почему у меня плохие продажи?», следующее - ты отвечаешь себе на этот вопрос, задаёшь следующий вопрос.

Александр Михеев

- У меня хорошие продажи, я хороший е-commerce.

Игорь Кузнецов

- Где мои слабые стороны, почему эта сторона у меня слабая, что не так? Какие данные ещё мне можно собрать, чтобы получить ответ на следующий вопрос, на следующий вопрос, на ещё один вопрос и так далее, и далее, пока вы не научитесь сами оперировать этими вопросами. То есть первая сфера применения больших данных и анализа данных Data science, я бы сказал, - это ваш собственный бизнес. И первый человек, который будет это применять - это вы сами.

Александр Михеев

- Дальше. Я задал себе вопросы, наотвечал.

Игорь Кузнецов

- Следующее: оставайтесь критичными, скажем так, не верьте никогда полученным результатам.

Александр Михеев

- Вот тут бы я, скорее всего, скорректировал.

Игорь Кузнецов

- Будьте скептиками.

Александр Михеев

- Ну, подожди. Не верить самому себе - тогда зачем я всем этим занимаюсь? Здесь, наверное, может быть, «перепроверяйте себя».

Игорь Кузнецов

- Да, да.

Александр Михеев

- С определённой периодичностью и подтверждайте или опровергайте те результаты, которые вы получили. Потому что всё меняется, у тебя, может, товар вышел из моды.

Игорь Кузнецов

- Да, я перефразирую, действительно, это заявление. Скажем, не будьте слишком категоричными, и, получив два раза какой-то кейс, увидев два раза, что применение какой-то новой технологии повысило вашу эффективность на 20%, не будьте уверены, что так всегда будет. Да, вы можете с определённой долей вероятности утверждать, что в следующий раз прирост тоже будет 20%, но он может быть 0, а может быть 50%.

Александр Михеев

- А может быть и отрицательным.

Игорь Кузнецов

- Да.

Александр Михеев

- Согласен.

Игорь Кузнецов

- Ещё один важный момент: корреляция не всегда означает взаимозависимость. То, что два параметра идут вместе на графике, далеко не всегда означает, что один от другого зависит. Может быть, ответ, где-то еще. Как правило, анализ данных показывает (это тоже очень интересный момент, кстати), что ответы находятся в тех местах, где даже сложно было предположить.

Александр Михеев

- Ну, например. Ты сейчас сказал, я задумался: а где?

Игорь Кузнецов

- Мне сложно сейчас…

Александр Михеев

- Ну, на твоей практике было такое? Я всегда считал, что эти две вещи взаимосвязаны, одна влияет на другую, а тут оказалось, третья какая-то.

Игорь Кузнецов

- Скажем, не всегда параметры зависят непосредственно от самих параметров, иногда параметры зависят от изменения других параметров, иногда параметры зависят от скорости изменения других параметров, иногда несколько параметров в сумме, умноженные друг на друга и перемноженные и возведённые в квадрат, влияют на что-то другое. То есть тут, как правило, анализ данных и те технологии анализа данных, которые сейчас есть в классических дисциплинах, которые можно, в общем-то, изучить в интернете, погуглив элементарно, они позволяют эти закономерности раскрыть.

Александр Михеев

- Мне нужно обладать какими-то дикими математическими способностями, чтобы вообще вникнуть во все эти процессы, даже заняться самообразованием. И насколько сложно это самообразование? Не забывай, я же обычный е-commerce, я сейчас никого не хочу обидеть, но каждый должен заниматься своим делом: аналитика - это одно, а я умею продавать, я хороший бизнесмен. Конечно, без аналитических каких-то способностей это сделать сложно, но всё равно, я - не аналитик, я - не математик. Я смогу или мне нужен специально обученный человек, которого я посажу, и он будет этим всем заниматься?

Игорь Кузнецов

- Лучше всего, если вы, конечно, сами не хотите вникать или времени нет…

Александр Михеев

- Нет, я, конечно, хочу, но смогу ли я? Насколько это сложно? Давай так - базового среднего образования и математического…

Игорь Кузнецов

- Хорошей классической школы.

Александр Михеев

- …достаточно, чтобы, почитав материалы в интернете…

Игорь Кузнецов

- За полгода.

Александр Михеев

- За полгода, да.

Игорь Кузнецов

- Сообразить и начать что-то? Да, я считаю, что да.

Александр Михеев

- Отлично. А нужно ли обладать какими-то навыками программирования, ещё чего-то, либо это всё можно на листочке в Excel выстраивать (какие-то тренды, ещё что-то)?

Игорь Кузнецов

- Лучше, конечно, обладать определёнными знаниями.

Александр Михеев

- А чем?

Игорь Кузнецов

- Языков для работы с данными сейчас достаточно много, но есть два таких столпа - это язык R и язык Python. Язык R - достаточно простой, достаточно гибкий, у него низкий порог входа и изучить его можно элементарно, пройдя несколько курсов за несколько месяцев в интернете.

Александр Михеев

- А дальше что? Я критичен, я ответил на вопросы, я собрал данные собственные, посмотрел, вроде полетело, даёт какую-то большую эффективность. Это всё? Что-то нужно ещё мне делать?

Игорь Кузнецов

- Это процесс итеративный.

Александр Михеев

- То есть бесконечный по-русски.

Игорь Кузнецов

- Да. Есть ещё один, кстати, важный фактор. Есть такой термин «overfitting» - это такой эффект, когда ваша модель, натренированная на данные, начинает слишком хорошо объяснять реальность и слишком хорошо делать predict. Вот этого нужно избегать.

Александр Михеев

- Почему?

Игорь Кузнецов

- Потому что реальность имеет такое свойство меняться. Если ваша модель…

Александр Михеев

- А модель не адаптируется под новую реальность? Ты же, фактически, сформировал по определённым условиям алгоритм.

Игорь Кузнецов

- Ты сейчас, Александр, как раз и отвечаешь на этот вопрос.

Александр Михеев

- Я молчу, всё.

Игорь Кузнецов

- Да. Во-первых, нужно всегда иметь в голове мысль, что модель не должна быть статичной, она должна меняться, и она не должна слишком хорошо объяснять реальность, она не должна слишком хорошо предсказывать, потому что любая реальность имеет свойство меняться, и модель в этом случае будет ошибаться, когда внешние условия будут меняться, а ваша модель будет предсказывать все те же самые результаты.

Александр Михеев

- Есть ли какие-то на сегодняшний день сервисы, которые действительно могли бы либо помочь, либо выполнить весь этот функционал совокупный? Я не говорю сейчас о DMP, потому что мы уже обсудили, что это некий урезанный функционал в предоставлении тебе внешних данных, которые не факт, что дадут тебе какую-то эффективность. А вот, может, опять же, я, как е-commerce, пойти в www.какой- то сайт…

Игорь Кузнецов

- Есть. Я сейчас не буду их рекламировать.

Александр Михеев

- Нет, ну, назови, интересно просто, один, два. Вот куда мне сейчас пойти, кроме «Google»?

Игорь Кузнецов

- Да наберите просто, поищите какие-то сервисы для бизнес-анализа. Поищите. Есть даже плагины к 1С, если я не ошибаюсь, которые позволяют какие-то аналитические выкладки делать. Эти системы, тем не менее, в любом случае будут работать только тогда, когда вы будете уметь их применять.

Александр Михеев

- И обогатите данными.

Игорь Кузнецов

- Да.

Александр Михеев

- Я просто к тому, чтобы не изучать язык программирования, не писать это всё, можно использовать какие-то сторонние уже готовые решения, которые ты обогатил данными, и он уже начинает выстраивать тебе модель. Нет?

Игорь Кузнецов

- Есть такие решения, но я сейчас не назову их, потому что мы сами пошли другим путём.

Александр Михеев

- Я понимаю, что вы делаете всё сами, я считаю, это более правильный момент. Но опять же, исходя из масштабов: вы всё-таки очень крупная рекламная сетка, вам нужно это для ваших рекламодателей - это одна история. Но если это е-commerce, здесь всё-таки что-то хочется готовое. Друзья, мы сегодня говорили про Big Data (наверное, слишком много было терминологии, попытались в конце упростить), процесс этот непростой (это точно), не утрируйте всё до использования просто внешних данных, учитесь анализировать самих себя, начинайте всегда с этого, учитесь правильно задавать себе вопросы: «Зачем вам это надо?» и всё время перепроверяйте те результаты, которые вы получаете. В гостях у нас сегодня был Игорь Кузнецов - директор по IT-аналитике «Unilead Group». Игорь, огромное тебе спасибо за столь подробный и точный рассказ о том, что такое Big Data.

Игорь Кузнецов

- Спасибо и вам. Буду рад ещё раз зайти.