»Семплирование: когда возникает и как от него избавиться?
Roman.ua
16 февраля 2016, обновлено — 22 мая 2020 9 мин на прочтение
Семплирование: когда возникает и как от него избавиться?
Создать отчёт в Google Analytics. Простая задача, пока не увидишь такое уведомление:
Что это значит? Google Analytics берёт 10% данных. Домножает их на 10. И говорит, что 100% так бы себя и вели.
Это классно, когда работаешь с большими цифрами. Отчёт готовится быстро.
Но есть и недостатки. Представьте, что вы получили 1 из 10 кусочков торта. И нужно понять, сколько на торте свечек. Если вам попался кусок без свечки — вы скажете, что 0. Если с 1 свечкой — то 10. А если 2 — то 20.
Так же и в аналитике. Вы выгружаете статистику по ключевым словам. Analytics построил отчёт на 10% данных. В эти данные вошёл запрос, который ввёл только 1 человек. Но в семплированном отчёте вы увидите, словно этот запрос привел 10 людей.
Семплирование искажает данные. Как от него избавиться?
Решение 1. Google Analytics Premium Инструмент стоит $150 000 в год. Будет полезен, если проект посещаемый и вы сталкиваетесь с семплированием постоянно. Либо если вы делаете сложные выборки.
Проблема в том, что в GA Premium тоже есть семплирование. Но можно выгрузить выборку на сторонний ресурс. Например, в Excel. И там уже обрабатывать сырые данные.
Плати, не плати. Excel все равно понадобится.
Решение 2. Попытаться обойти семплирование Чтобы обойти семплирование, нужно понимать, как оно возникает.
Когда возникает семплирование?
1. Нестандартный отчёт Например:
Пользовательские отчёты — Custom Reports;
Расширенные сегменты — Advanced Segments;
Использование дополнительных переменных — Secondary Dimensions.
2. Много данных Если в отчёте за период:
1 000 000+ строк — уникальных параметров (dimensions). Например, рефералов или ключевых слов.
Чем больше информации нужно выгрузить — тем чаще встречается семплирование.
Как обойти семплирование?
1. Короткие периоды времени Например, вы создаёте отчёт за год. Возникает семплирование. Вместо 1-го большого создайте 12 маленьких отчетов. На каждый месяц. Выгрузка данных займёт больше времени. Зато семплирование может отключиться.
2. Высокая точность вместо быстрой обработки При создании отчётов в Google Analytics кликните по такой иконке:
И порог семплирования умножается в 2 раза. Отчёт строился на 10% данных? После выбора «Высокой точности» он будет дольше грузиться, но захватит уже 20% выборки.
3. Отфильтрованные заранее представления (Views) Что такое отфильтрованные представления? Например, это представления с посещениями только из контекстной рекламы. Или с посещениями только по какой-то конкретной кампании.
Если вы планируете создать отчет и сегментировать в нём данные, поменяйте порядок действий. Создайте заранее отсегментированные представления. И выгружайте отчёты отдельно для каждой части данных.
Но это не всегда работает. Сложные отчёты даже в фильтрованном представлении могут быть семплированными.
4. Упрощённый запрос Сделайте выборку проще, чтобы меньше нагружать Analytics. Например, вы привыкли фильтровать какой-то параметр по регулярному выражению. Попробуйте профильтровать по точному. Возможно, часть данных будет уже проще обработать в Excel.
5. Решения на основе API — Google Analytics Query Explorer 2
Это песочница от Google. Она использует тот же язык запросов. Здесь вы можете строить запросы. Делиться ссылкой с коллегой.
Преимущества
Можно использовать больше Dimentions — максимум 7.
Данные можно стягивать из разных профилей. Удобно если у вас несколько сайтов.
Данные после выгрузки можно объединять с другими базами — CRM-система, SQL-база.
Ограничения Все API
50 000 для проекта в день
10 запросов в секунду на IP
Core Reporting API
10 показателей
7 параметров
10 000 строк данных как результат запроса
10 000 запросов для профиля в день
10 параллельных запросов для профиля
Как работает? Строите запрос — какие данные хотите получить. Даёте ссылку на отчёт программисту. Просите выгрузить данные по API.
И порог семплирования умножается в 2 раза. Отчёт строился на 10% данных? После выбора «Высокой точности» он будет дольше грузиться, но захватит уже 20% выборки.
3. Отфильтрованные заранее представления (Views) Что такое отфильтрованные представления? Например, это представления с посещениями только из контекстной рекламы. Или с посещениями только по какой-то конкретной кампании.
Если вы планируете создать отчет и сегментировать в нём данные, поменяйте порядок действий. Создайте заранее отсегментированные представления. И выгружайте отчёты отдельно для каждой части данных.
Но это не всегда работает. Сложные отчёты даже в фильтрованном представлении могут быть семплированными.
4. Упрощённый запрос Сделайте выборку проще, чтобы меньше нагружать Analytics. Например, вы привыкли фильтровать какой-то параметр по регулярному выражению. Попробуйте профильтровать по точному. Возможно, часть данных будет уже проще обработать в Excel.
5. Решения на основе API — Google Analytics Query Explorer 2
Вытягивает данные из Google Analytics, Google AdWords, Google Webmasters Tools, Bing Ads, Facebook, Youtube, Twitter, Database.
Стоимость: бесплатно, 49-99$ в месяц.
Платная версия частично решает проблему семплирования. Бесплатная — нет.
Как работает? В Google Docs появляется колонка справа. В ней можно выбрать, по каким параметрам строить отчет. Выгружает до 100 000 строк.
Big Analytics Data
Дополнение к Google Sheets.
Стоимость: бесплатно.
Как работает? Импортирует данные без семплирования в таблицы Google.
Максимальное количество строк на запрос — 10 000. Если нужно выгрузить больше данных, можно создать сразу несколько запросов и импортировать данные порциями.
Преимущество. Можно запланировать выгрузку данных. Вы 1 раз создаете шаблон для выгрузки, прописываете график импорта и получаете готовые данные по графику.
Как работает? Выгружает данные из Google Analytics в Google BigQuery.
Преимущества. Позволяет объединять данные из Google Analytics с другими источниками, например, CRM-системой. А чтобы построить отчет, не нужно ограничиваться 7 переменными. Pipeline позволяет быстро создавать отчеты любой сложности.
Импорт данных происходит ежедневно и при изменении данных за предыдущие периоды в Google Analytics, они автоматически обновятся в Google BigQuery.
Программа, которая работает на Windows XP, Vista, 7, 8
Вытягивает данные из Google Analytics, Bing Ads, файлы Excel, Database (SQL etc.)
Стоимость — 49-798$ в месяц
Преимущества. Экспортирует затраты в Google Analytics.
Как работает? Как база данных. Выгружает информацию из Google Analytics. Может объединять разные куски данных между собою. Например, из CRM выгрузили номер заказа и сумму. А из Google Analytics — номер заказа и рекламный источник. Инструмент объединят данные в единую таблицу.
Язык программирования «R» + дополнение RGA
Работает с Windows, Mac.
Вытягивает данные из Google Analytics.
Преимущества. Бесплатный инструмент.
Как работает? Специальный скрипт подгружает несколько библиотек. Идёт к API на Google Analytics.
Чтобы обойти семплирование, обратите внимание на 2 параметры: batch и walk.
Batch. Делит выборку на группы по 10 000 строк. Выгружает данные порциями. Как Google Analytics Query Explorer.Потом склеит все в один файл.
Walk. Полезен, когда выгружаете данные за большой период. Параметр делит данные по дням. Если вы создаёте отчёт за 1 год, параметр walk поделит его на 365 отдельных блоков. Выгрузка данных займет больше времени, зато вы избавитесь от семплирования.
Файлы для установки, инструкцию по настройке и скрипт для R+RGA можно посмотреть по ссылкам: