Собранные и проанализированные данные веб-статистики сайта являются основанием для принятия управленческих решений по его развитию. Несмотря на новизну темы, немногочисленные работы по вопросам библиотечной веб-аналитики все чаще говорят о необходимости подробной разработки теоретико-методологических основ сбора и анализа данных посещаемости библиотечных сайтов в интересах улучшения качества библиотечного веб-обслуживания [1]. Однако видимая легкость решения этой задачи (хорошо известны метрики KPI, есть богатый набор инструментов измерения, анализа и пр.), тем не менее, не может заслонить серьезных проблем. Наиболее существенное значение, причем не только в библиотечной веб-отрасли, а, вообще, в интернет-среде, приобрела проблема так называемого рефспама, т.е. автоматического обращения специализированных спам-ботов к наиболее популярным страницам, имеющим хороший «вес» с точки зрения поисковой оптимизации (SEO). После этих визитов в логах сервера обнаруживаются адреса «рефереров», не имеющих никакой тематической близости со страницами, на которых боты оставили свои следы. Так, например, в логах библиотечного сайта Отделения ГПНТБ СО РАН www.prometeus.nsc.ru в большом количестве возникают адреса сервисов бытовой и офисной техники, интернет-магазинов детской и женской одежды, диетического питания и пр. Выглядит это примерно так (см. Рис.1): Рис.1. Фрагмент лог-файла сервера с рефспамом (URL в правой части). Рефспам, как метод «черной» оптимизации и продвижения коммерческих интернет-структур появился достаточно давно. На сайте www.prometeus.nsc.ru его первые ростки были замечены приблизительно в 2005 году и выращивали их зарубежные спам-боты. Около 2008-2009 гг. к данному методу «раскрутки» сайтов подключились отечественные «оптимизаторы», и объемы рефспама стали расти как стога на полях. В поисках всевозможных способов улучшения позиций в «серпе» (SERP - search engine result page) создатели подставных веб-ресурсов, напичканных ключевыми словами и разработанных с единственной целью попасть в топ-10, стали добавлять в них ссылки, ведущие на хорошо посещаемые, но тематически не связанные сайты, особенно если там имелись системы статистики, такие как WebAlizer или AWStats, учитывавшие источники трафика и генерировавшие списки рефереров в порядке убывания количества запросов. После индексирования роботами рефереры попадали в базу данных поисковиков и также начинали набирать популярность и «вес». На сайте Отделения ГПНТБ СО РАН статистическая система AWStats долгое время носила открытый характер, но в 2014 г. ее посещаемость взлетела очень резко, почти в 1,5 раза к уровню предыдущего года, и доступ пришлось закрыть. Стало ясно, что все методы противодействия рефспаму не могут считаться стопроцентно эффективными. Установка паролей, «капчи», запрета на посещение ботов в файле robots.txt или фильтрах .htaccess не могут принести желаемого результата, потому что это «зло» развивается гораздо быстрее. Например, создатели Хрумера (XRumer) обещают своим покупателям «в кратчайшие сроки увеличить посещаемость сайта в сотни, тысячи раз» [2]. Этот программный продукт, оснащенный интеллектом, способен обходить 500 видов графических защит, отвечать на 170 тыс. каверзных вопросов, складывать и вычитать, проникать в социальные сети под видом недоучившегося школьника. Само собой разумеется, что такая программа может обманывать и Гугл, и Яндекс. Хрумера пропагандируют в сети, у него есть свой вики-проект и обучающие ролики на Youtube. Кто бы сомневался, что рефспам от Хрумера максимально эффективен - это подтверждает и наша ежедневная статистика, в которой доля ботов достигает, а, быть может, и превышает 85% (Рис.2). Подобная ситуация привела к тому, что рефспам уже подмял под себя все разумные статистические оценки настоящих, «живых» обменов в сети. Как вопль отчаяния воспринимается реплика блогера: «Надо что-то с этим делать, невозможно так жить... Ну бомбят же все сайты подряд» [3]. Рис.2. Структура обращений к библиотечному сайту www.prometeus.nsc.ru. По меткому замечанию А.А.Леонтьева, «инструмент анализа общей статистики посещений дает, прежде всего, картину столкновений и борьбы неких автоматических технологий на фронте компьютерных, т.е. тоже автоматических, информационных технологий» [4, с.34]. Но следующий тезис автора, что «человек как родоначальник компьютерного прогресса оказывается, по сути дела, на периферии данной методологии», пока что вызывает серьезные возражения, хотя, возможно, и станет частью нашего будущего.
|
[О библиотеке
| Академгородок
| Новости
| Выставки
| Ресурсы
| Библиография
| Партнеры
| ИнфоЛоция
| Поиск
| English]
| |||||
| |||||