Канн С.К. Насколько статистика Google Analytics подвержена искажениям?
Навигация
АКТУАЛЬНЫЕ ВОПРОСЫ ОБРАЗОВАНИЯ И НАУКИ*30.11.2015  
 
Обложка

КАНН С.К. (ГПНТБ СО РАН, Новосибирск)
 
НАСКОЛЬКО СТАТИСТИКА GOOGLE ANALYTICS
ПОДВЕРЖЕНА ИСКАЖЕНИЯМ?

Несмотря на изысканный интерфейс и продвинутую функциональность, статистический сервис Google Analytics (GA) далеко не безупречен. Механизм сбора и анализа статистики GA основан на перехвате данных с использованием внедренного в страницы сайтов JavaScript-кода («страничных тегов» и веб-маяков). В результате «на стороне клиента» собирается служебная информация от веб-браузеров пользователей, затем она аккумулируется на серверах сбора данных и служит материалом для генерации отчетов по отдельным сайтам. Такие внешние сетевые решения поставщиков услуг относятся к типу SaaS - software as а service («программное обеспечение как услуга»).

Недостатки использования «страничных тегов» состоят в следующем. Во-первых, требуется постоянная работа с кодами на всех страницах сайта - любая ошибка в тегах или настройке ведет к потере данных без возможности возврата и повторного анализа. Во-вторых, тормозом для целостной обработки тегов являются брандмауэры пользователей, которые искажают или ограничивают реализацию JS-кода. Так как его выполнение осуществляется в момент запроса страницы или файла, то, в-третьих, невозможно отследить завершение загрузки страниц. В-четвертых, не обрабатываются данные о роботах - из-за того, что большинство из них игнорируют теги GA. Наконец, особый подход требуется для учета статистики документов в форматах pdf, doc, ppt и пр. Как правило, ссылки на них модифицируются вручную, чтобы их можно было отследить в момент клика - иногда это называют «виртуальным просмотром страницы».

На крупных сайтах достаточно сложно избежать синтаксических ошибок в кодах, и они часто возникают при настройке и добавлении скриптов на каждой странице. Многие страницы (по опубликованным данным от 20 до 70%) оказываются и вовсе пропущенными, то есть лишенными кода, даже несмотря на использование автоматизированных систем управления контентом (CMS).

Наиболее серьезную проблему для обработки кодов GA и достоверности статистики представляет реализация JavaScript в браузерах. Любая ошибка или сбой не только в кодах Аналитики, но и вообще в сторонних скриптах, ломают работу механизма сценариев браузера и останавливают выполнение тега страницы. Мало того, до 3% пользователей вовсе отключают поддержку JS, а постоянно увеличивающееся число противников отслеживания активности используют множество свободно распространяемых плагинов (disallow script button, frigate, ghostery, noscript) для блокировки полноценной реализации JS.

Еще одной проблемой достоверности трекерной статистики GA являются корпоративные и персональные брандмауэры, препятствующие передаче данных о страничных тегах серверам SaaS. Некоторые браузеры и брандмауэры настроены так, что автоматически останавливают, а иногда и сразу удаляют файлы cookie, необходимые для отчетов GA. Опросы пользователей из разных стран мира показывают, что 30-50% из них вручную удаляют файлы cookie не реже одного раза в месяц. Между тем, эти файлы жизненно важны для веб-аналитики и их очистка существенным образом влияет на итоговые показатели.

Таким образом, если учесть все факторы, влияющие на точность данных сервиса Google Analytics, то станет ясно, что ориентироваться на абсолютные цифры веб-статистики достаточно бессмысленно.

Необходимо всегда иметь в виду, что при настоящем уровне технологий получить идеально точные данные совершенно невозможно. Трудно вычислить даже доверительные интервалы и погрешности. Вместе с тем, продвинутые сайты отличаются большой устойчивостью показателей и, следовательно, величина ошибок остается примерно одинаковой на протяжении недель и даже месяцев. При отсутствии существенных изменений в технологии или поведении пользователей можно легко сопоставлять многолетние данные за разные годы. В конечном счете важны не столько те или иные численные показатели, сколько их соотношение и динамика. Поэтому если использовать одни и те же критерии измерений или применять одну и ту же методику анализа, то объективные тренды развития сайта обнаружатся сами по себе.

 

Опубликовано в журнале:Юком ВЕСТНИК НАУЧНЫХ КОНФЕРЕНЦИЙ. - Тамбов, 2015. - N 3-1(3): Актуальные вопросы образования и науки: по матер. междунар. науч.-практ. конф. 30.11.2015 г.: в 6 частях. Часть 1. - С.70-71. - ISSN 2412-8988. - DOI: 10.17117/cn.2015.03.01
 
 ПубликацииПубликации С.Канна
[О библиотеке | Академгородок | Новости | Выставки | Ресурсы | Библиография | Партнеры | ИнфоЛоция | Поиск | English]
  Пожелания и письма: branch@gpntbsib.ru
© 1997-2024 Отделение ГПНТБ СО РАН (Новосибирск)
Статистика доступов: архив | текущая статистика
 

Документ изменен: Wed Feb 27 14:57:26 2019. Размер: 12,901 bytes.
Посещение N 1088 с 11.01.2016