16 февраля 2016 Roman.ua 13 мин на прочтение

Семплирование: когда возникает и как от него избавиться?

В статье подробно рассказываем, что такое семплирование и даем несколько рабочих способов, как решить эту проблему.

Создать отчёт в Google Analytics — простая задача, пока не увидишь такое уведомление:

Отчет основан на 10% данных

Что это значит? Google Analytics берёт 10% данных. Домножает их на 10. И говорит, что 100% так бы себя и вели.

Это классно, когда работаешь с большими цифрами. Отчёт готовится быстро.

Но есть и недостатки. Представьте, что вы получили 1 из 10 кусочков торта. И нужно понять, сколько на торте свечек. Если вам попался кусок без свечки — вы скажете, что 0. Если с 1 свечкой — то 10. А если 2 — то 20.

Так же и в аналитике. Вы выгружаете статистику по ключевым словам. Analytics построил отчёт на 10% данных. В эти данные вошёл запрос, который ввёл только 1 человек. Но в семплированном отчёте вы увидите, словно этот запрос привел 10 людей.

Семплирование искажает данные. Как от него избавиться?

Решение 1. Google Analytics Premium

Смотрите видео о возможностях Google Analytics Premium.

Инструмент стоит $150 000 в год. Будет полезен, если проект посещаемый и вы сталкиваетесь с семплированием постоянно. Либо если вы делаете сложные выборки.

Проблема в том, что в GA Premium тоже есть семплирование. Но можно выгрузить выборку на сторонний ресурс. Например, в Excel. И там уже обрабатывать сырые данные.

Плати, не плати. Excel все равно понадобится.

Screenshot_2

Решение 2. Попытаться обойти семплирование

Чтобы обойти семплирование, нужно понимать, как оно возникает.

Когда возникает семплирование?

1. Нестандартный отчёт

Например:

  • Пользовательские отчёты — Custom Reports;
  • Расширенные сегменты — Advanced Segments;
  • Использование дополнительных переменных — Secondary Dimensions.

2. Много данных

Как использовать веб-аналитику в крупных проектах.

Если в отчёте за период:

  • 1 000 000+ строк — уникальных параметров (dimensions). Например, рефералов
  • или ключевых слов.
  • 500 000+ сессий пользователей на уровне ресурса (property).

Чем больше информации нужно выгрузить — тем чаще встречается семплирование.

Как обойти семплирование?

1. Короткие периоды времени

Например, вы создаёте отчёт за год. Возникает семплирование. Вместо 1-го большого создайте 12 маленьких отчетов. На каждый месяц. Выгрузка данных займёт больше времени. Зато семплирование может отключиться.

2. Высокая точность вместо быстрой обработки

При создании отчётов в Google Analytics кликните по такой иконке:

Screenshot_3

И порог семплирования умножается в 2 раза. Отчёт строился на 10% данных? После выбора «Высокой точности» он будет дольше грузиться, но захватит уже 20% выборки.

3. Отфильтрованные заранее представления (Views)

Что такое отфильтрованные представления? Например, это представления с посещениями только из контекстной рекламы. Или с посещениями только по какой-то конкретной кампании.

Если вы планируете создать отчет и сегментировать в нём данные, поменяйте порядок действий. Создайте заранее отсегментированные представления. И выгружайте отчёты отдельно для каждой части данных.

Но это не всегда работает. Сложные отчёты даже в фильтрованном представлении могут быть семплированными.

4. Упрощённый запрос

Сделайте выборку проще, чтобы меньше нагружать Analytics. Например, вы привыкли фильтровать какой-то параметр по регулярному выражению. Попробуйте профильтровать по точному. Возможно, часть данных будет уже проще обработать в Excel.

5. Решения на основе API — Google Analytics Query Explorer 2

Google Analytics Query Explorer 2

Это песочница от Google. Она использует тот же язык запросов. Здесь вы можете строить запросы. Делиться ссылкой с коллегой.

Преимущества

  • Можно использовать больше Dimentions — максимум 7.
  • Данные можно стягивать из разных профилей. Удобно если у вас несколько сайтов.
  • Данные после выгрузки можно объединять с другими базами — CRM-система, SQL-база.

Ограничения

Все API

  • 50 000 для проекта в день
  • 10 запросов в секунду на IP

Core Reporting API

  • 10 показателей
  • 7 параметров
  • 10 000 строк данных как результат запроса
  • 10 000 запросов для профиля в день
  • 10 параллельных запросов для профиля

Как работает? Строите запрос — какие данные хотите получить. Даёте ссылку на отчёт программисту. Просите выгрузить данные по API.

Google Analytics Query Explorer 2
Нажми на изображение, чтобы увидеть его полностью

Обратите внимание! Google Analytics Query Explorer выгружает до 10 тыс. строк за один раз.
Что делать, если выборка имеет больше 10 тыс. строк? Чтобы выгрузить все данные, можно построить несколько запросов:

Какие бывают источники данных для интернет-проекта, кроме Google Analytics.

  • Запрос 1. Выгрузить 10 000 строк (max-results) от строки 1 (start-index)
  • Запрос 2. Выгрузить 10 000 строк (max-results) от строки 10 001 (start-index)
  • Запрос 3. Выгрузить 10 000 строк (max-results) от строки 20 001 (start-index)…


Существуют другие инструменты, с помощью которых можно выгружать данные с Google Analytics. Они защищают от семплирования. А для особо крупных проектов — значительно уменьшают его.

Supermetrics Data Grabber

Это дополнение к Excel. Работает с Windows Excel 2003+ и с Mac Excel 2011.

Вытягивает данные из 
Google Analytics, Google AdWords, Bing Ads, Facebook, Youtube, Twitter.

Стоимость: 39-174$ в месяц.

Как работает? Выбираете период, метрики и ставите галочку «Попытаться избавиться от семплирования». И выгружаете отчёт.

Supermetrics Data Grabber
Нажми на изображение, чтобы увидеть его полностью

Supermetrics 
for Google Docs

Дополнение к Google Docs, Google Sheets.

Вытягивает данные из 
Google Analytics, Google AdWords, Google Webmasters Tools, Bing Ads, Facebook, 
 Youtube, Twitter, Database.

Стоимость: бесплатно, 49-99$ в месяц.

Платная версия частично решает проблему семплирования. Бесплатная — нет.

Как работает? В Google Docs появляется колонка справа. В ней можно выбрать, по каким параметрам строить отчет. Выгружает до 100 000 строк.

Supermetrics 
for Google Docs
Нажми на изображение, чтобы увидеть его полностью

Big Analytics Data

Дополнение к Google Sheets.

Стоимость: бесплатно.

Как работает? Импортирует данные без семплирования в таблицы Google.

Максимальное количество строк на запрос — 10 000. Если нужно выгрузить больше данных, можно создать сразу несколько запросов и импортировать данные порциями.

Преимущество. Можно запланировать выгрузку данных. Вы 1 раз создаете шаблон для выгрузки, прописываете график импорта и получаете готовые данные по графику.

OWOX BI Pipeline

Стоимость: от $115/ месяц.

Как работает? Выгружает данные из Google Analytics в Google BigQuery.

Преимущества. Позволяет объединять данные из Google Analytics с другими источниками, например, CRM-системой. А чтобы построить отчет, не нужно ограничиваться 7 переменными. Pipeline позволяет быстро создавать отчеты любой сложности.

Импорт данных происходит ежедневно и при изменении данных за предыдущие периоды в Google Analytics, они автоматически обновятся в Google BigQuery.

Analytics Canvas

Программа, которая работает на Windows XP, Vista, 7, 8

Вытягивает данные из
 Google Analytics, Bing Ads, файлы Excel,
 Database (SQL etc.)

Стоимость — 49-798$ в месяц

Преимущества. Экспортирует затраты в Google Analytics.

Как работает? Как база данных. Выгружает информацию из Google Analytics. Может объединять разные куски данных между собою. Например, из CRM выгрузили номер заказа и сумму. А из Google Analytics — номер заказа и рекламный источник. Инструмент объединят данные в единую таблицу.

Analytics Canvas
Нажми на изображение, чтобы увидеть его полностью

Язык программирования «R» + дополнение RGA

Язык программирования «R» + дополнение RGA
Нажми на изображение, чтобы увидеть его полностью

Работает с Windows, Mac.

Вытягивает данные из Google Analytics.

Преимущества. Бесплатный инструмент.

Как работает? Специальный скрипт подгружает несколько библиотек. Идёт к API на Google Analytics.

Чтобы обойти семплирование, обратите внимание на 2 параметры: batch и walk.

Язык программирования «R» + дополнение RGA

Batch. Делит выборку на группы по 10 000 строк. Выгружает данные порциями. Как Google Analytics Query Explorer. Потом склеит все в один файл.

Walk. Полезен, когда выгружаете данные за большой период. Параметр делит данные по дням. Если вы создаёте отчёт за 1 год, параметр walk поделит его на 365 отдельных блоков. Выгрузка данных займет больше времени, зато вы избавитесь от семплирования.

Файлы для установки, инструкцию по настройке и скрипт для R+RGA можно посмотреть по ссылкам:

[emaillocker] [/emaillocker]

Не довольствуйтесь малым. Анализируйте все данные!

Нужно настроить веб-аналитику?

Мы можем быть полезны, если ты не хочешь переплачивать за секретарш, а общаться напрямую со специалистами и экспертами в интернет-маркетинге.

Подпишись, чтобы не пропустить свежие материалы

Новые статьи, видео, подкасты о performance-маркетинге, интернет-бизнесе и продуктивности 3-4 раза в месяц. Уже 7963 подписчиков.

Сертификаты
и награды

Meta Business Partner. Таких всего ~16 в Украине

eSputnik Partner с 2019 г.

UpWork Top Rated

Clutch TOP-1000 компаний в мире за 2022 г.

TechBehemoths Awards 2022. Лучшие рекламные агентства в Украине.

Клиенты

С 2008 года мы работали с 263 Клиентами и помогли им сделать интернет-маркетинг эффективнее и заработать больше.

Клиенты
О НАС

Почему мы выбрали Roman.ua?
Потому что в хорошем смысле они задроты.