Аналитика вне Google Analytics на основе баз данных: где брать и как чистить базу данных?
Популярные источники данных для аналитики — Google Analytics и Яндекс.Метрика. Но работая с этими инструментами, можно столкнуться с проблемами.
Какие проблемы могут возникнуть:
- Что-то не успел внедрить или внедрил недавно;
- Что-то внедрил некорректно, поэтому данные с ошибками;
- Столкнулся с лимитами инструментов аналитики (например, семплирование — анализ полной базы на основе части данных).
В Google Analytics нет кнопки «отменить». Если данные собраны неправильно, пересчитать их невозможно.
Поэтому аналитикам стоит дополнять данные из систем аналитики и другими источниками:
- Базы данных о товарах, заказах и Клиентах (CMS, ERP, CRM);
- Рекламные аккаунты (Google Adwords, Яндекс.Директ);
- Статистика сервиса (MailChimp, Youtube, Google Webmaster, Яндекс.Вебмастер).
Каждая система и сервис собирает свою статистику. Выгружай эти данные, чтобы анализировать и улучшать работу проекта. Но выгрузить — это ещё не все. Базу данных нужно подготовить к работе.
Содержание
Очистка данных
1. Ненужные сегменты
Розничные и оптовые покупатели ведут себя по-разному. Если анализировать пользователей вместе, получим кашу. Отфильтруй Клиентов по принципу розница/опт. И анализируй только один из сегментов.
2. Заказы от сотрудников и тестовые заявки
Клиент набрал по телефону. Менеджер получил заказ. И оформил его через свой email. Заказ есть. Но стоит ли брать его в анализ? Сотрудник знает, как устроен сайт. И ведёт себя не так, как покупатели. Слушай в подкасте о том, как сотрудники искажают данные для анализа.
Отфильтруй заказы менеджеров и тестовые заявки программиста. Удали из анализа корпоративные email, которые содержит домен сайта.
Если корпоративных адресов нет, смотри на список самых частых покупателей. Выделите топ-100 Клиентов, которые покупали больше всего. Все технические аккаунты попадут в список. И ты сможешь отфильтровать сотрудников вручную.
3. Статусы заказов
Обязательно фильтруй заказы по статусу. Отменён или выполнен.
4. Период времени
Помни, когда и что тобой внедрено. Когда данные начали фиксироваться правильно. Когда появилось новое поле в базе.
Отфильтруй базу по 4 пунктам. На выходе после очистки ты получишь узкий сегмент: выполненные розничные заказы только от Клиентов за 2015 год.

Добавляй другие критерии для сегментации, которые подойдут твоему бизнесу.
Просмотри базу еще раз. В ней могут быть ошибки, которые невозможно определить автоматически. Например, программист настроил, что по умолчанию в базе фиксируется неправильный параметр. Поэтому проверяй данные вручную.
Принципы очистки
Выгрузи данные в Excel. Это самый простой инструмент. В Excel включи автофильтры:
- сортируй по самым большим и маленьким значениям;
- удали пустые ячейки;
- определи неправильные данные.
Дальше стоит найти «жирафов».
Что такое жирафы? Средний рост всех животных Африки, включая жирафов — около 2 метров. Но если жирафов не считать — 1,5 метра.
Жирафы могут поселиться и в твоей выборке. Это нетипичные потребители — сотрудники, оптовые Клиенты, посредники. Они искажают картину при анализе.
Ты вручную выгрузил и очистил данные. Понял, кого нужно отсегментировать или отфильтровать. В будущем тебе много раз нужно будет проделывать такую работу. Поэтому лучше поставить задачу программистам на автоматическую очистку. И экономить время в будущем.
Как собирать сырые данные корректно?
1. Валидизировать данные на входе
Например, в поле телефон можно писать только цифры. А чтобы привести номер в правильный формат, пропишите начало номера. Для Украины «+380…», для России «+7…».
2. Добавить признак «сотрудник» в базе данных
3. Завести причину отмены заказа — «тестовый»
4. Продумать «склейку» профилей
Один и тот же человек для покупок на сайте авторизируется через профиль в Facebook, email и телефон. Получаешь 3 разных Клиента, вместо одного. Картина смазывается.
Склеивай пользователей по номеру телефона, адресу доставки, ФИО.
5. Импортировать исправления в базу данных
Если ты исправил ошибки в базе данных, не забудь их импортировать.
6. Ввести в процесс обработку новых ошибок коллегами
Например, менеджер принимает заказ по телефону. В админке ему высвечивается «проверь email этого Клиента».
Обогащение данных
Базу данных легко обогатить. Дописать характеристики на основе информации, которая у тебя уже есть.
- Из Goole Analytics → CRM (ключ — номер заказа в e-commerce);
- Из IP → город, регион, страна (по базе GeoIP);
- Из имени и отчества → Пол;
- Из адреса → Расстояние (по API карт);
- Из товаров в заказе → Размер;
- Из социальных сетей → Интересы, чекины, друзья, возраст;
- Из товаров → Характеристики, отзывы (по API Яндекс.Маркета).
Хороший сервис для структурирования и обогащения базы — dadata.ru.
Заливаем в dadata такие данные:

На выходе получаем структурированную таблицу:
Доработка структуры БД
- Разнеси поле
- ФИО на отдельные поля — фамилия, имя, отчество.
- Заведи отдельные поля для параметров, вместо «комментарий к заказу».
- Структурируй ввод данных — в этом поле можно ввести только текст или только цифры.
- Настрой связь по API c другими сервисами. Например, Яндекс.Карты.
База данных готова к анализу.
Смотри презентацию.
Выводы
Используй базы данных для аналитики. Перед анализом базу нужно:
- выгрузить сырые данные;
- очистить от лишней информации;
- обогатить дополнительными данными;
- структурировать.
Нужна настройка веб-аналитики?
Мы знаем как рассчитать рентабельность инвестиций в маркетинг