Канн С.К. Рефспам и искажение библиотечной веб-статистики

СОВРЕМЕННОЕ ОБЩЕСТВО, ОБРАЗОВАНИЕ И НАУКА30.11.2016
	КАНН С.К. (ГПНТБ СО РАН, Новосибирск) РЕФСПАМ И ИСКАЖЕНИЕ БИБЛИОТЕЧНОЙ ВЕБ-СТАТИСТИКИ

Собранные и проанализированные данные веб-статистики сайта являются основанием для принятия управленческих решений по его развитию. Несмотря на новизну темы, немногочисленные работы по вопросам библиотечной веб-аналитики все чаще говорят о необходимости подробной разработки теоретико-методологических основ сбора и анализа данных посещаемости библиотечных сайтов в интересах улучшения качества библиотечного веб-обслуживания [1]. Однако видимая легкость решения этой задачи (хорошо известны метрики KPI, есть богатый набор инструментов измерения, анализа и пр.), тем не менее, не может заслонить серьезных проблем.

Наиболее существенное значение, причем не только в библиотечной веб-отрасли, а, вообще, в интернет-среде, приобрела проблема так называемого рефспама, т.е. автоматического обращения специализированных спам-ботов к наиболее популярным страницам, имеющим хороший «вес» с точки зрения поисковой оптимизации (SEO). После этих визитов в логах сервера обнаруживаются адреса «рефереров», не имеющих никакой тематической близости со страницами, на которых боты оставили свои следы. Так, например, в логах библиотечного сайта Отделения ГПНТБ СО РАН www.prometeus.nsc.ru в большом количестве возникают адреса сервисов бытовой и офисной техники, интернет-магазинов детской и женской одежды, диетического питания и пр. Выглядит это примерно так (см. Рис.1):

Рис.1. Фрагмент лог-файла сервера с рефспамом (URL в правой части).

Рефспам, как метод «черной» оптимизации и продвижения коммерческих интернет-структур появился достаточно давно. На сайте www.prometeus.nsc.ru его первые ростки были замечены приблизительно в 2005 году и выращивали их зарубежные спам-боты. Около 2008-2009 гг. к данному методу «раскрутки» сайтов подключились отечественные «оптимизаторы», и объемы рефспама стали расти как стога на полях. В поисках всевозможных способов улучшения позиций в «серпе» (SERP - search engine result page) создатели подставных веб-ресурсов, напичканных ключевыми словами и разработанных с единственной целью попасть в топ-10, стали добавлять в них ссылки, ведущие на хорошо посещаемые, но тематически не связанные сайты, особенно если там имелись системы статистики, такие как WebAlizer или AWStats, учитывавшие источники трафика и генерировавшие списки рефереров в порядке убывания количества запросов. После индексирования роботами рефереры попадали в базу данных поисковиков и также начинали набирать популярность и «вес».

На сайте Отделения ГПНТБ СО РАН статистическая система AWStats долгое время носила открытый характер, но в 2014 г. ее посещаемость взлетела очень резко, почти в 1,5 раза к уровню предыдущего года, и доступ пришлось закрыть. Стало ясно, что все методы противодействия рефспаму не могут считаться стопроцентно эффективными. Установка паролей, «капчи», запрета на посещение ботов в файле robots.txt или фильтрах .htaccess не могут принести желаемого результата, потому что это «зло» развивается гораздо быстрее.

Например, создатели Хрумера (XRumer) обещают своим покупателям «в кратчайшие сроки увеличить посещаемость сайта в сотни, тысячи раз» [2]. Этот программный продукт, оснащенный интеллектом, способен обходить 500 видов графических защит, отвечать на 170 тыс. каверзных вопросов, складывать и вычитать, проникать в социальные сети под видом недоучившегося школьника. Само собой разумеется, что такая программа может обманывать и Гугл, и Яндекс. Хрумера пропагандируют в сети, у него есть свой вики-проект и обучающие ролики на Youtube. Кто бы сомневался, что рефспам от Хрумера максимально эффективен - это подтверждает и наша ежедневная статистика, в которой доля ботов достигает, а, быть может, и превышает 85% (Рис.2).

Подобная ситуация привела к тому, что рефспам уже подмял под себя все разумные статистические оценки настоящих, «живых» обменов в сети. Как вопль отчаяния воспринимается реплика блогера: «Надо что-то с этим делать, невозможно так жить... Ну бомбят же все сайты подряд» [3].

Рис.2. Структура обращений к библиотечному сайту www.prometeus.nsc.ru.

По меткому замечанию А.А.Леонтьева, «инструмент анализа общей статистики посещений дает, прежде всего, картину столкновений и борьбы неких автоматических технологий на фронте компьютерных, т.е. тоже автоматических, информационных технологий» [4, с.34]. Но следующий тезис автора, что «человек как родоначальник компьютерного прогресса оказывается, по сути дела, на периферии данной методологии», пока что вызывает серьезные возражения, хотя, возможно, и станет частью нашего будущего.

...

[1]		Маслакова М.В. Применение веб-аналитики при анализе библиотечных сайтов // Десятые Макушинские чтения: материалы науч. конф. (Томск, 12-14 мая 2015 г.). Новосибирск: ГПНТБ СО РАН, 2015. С.519-523.
[2]		Botmaster.Ru: XRumer [сайт]. URL: http:// botmasterru.com.
[3]		Что такое рефспам [обсуждение в блоге] // Devaka: персональный seo блог Сергея Кокшарова. URL: https://devaka.ru/articles/refspam-info.
[4]		Леонтьев А.А. Статистика посещаемости библиотечного сайта и квантовый принцип неопределенности // Научные и технические библиотеки. 2016. № 4. C.30-34.

Опубликовано в журнале:

ВЕСТНИК НАУЧНЫХ КОНФЕРЕНЦИЙ. Тамбов, 2016. № 11-3(15): Современное общество, образование и наука: по матер. междунар. науч.-практ. конф. 30.11.2016 г.: в 6 частях. Часть 3. С.68-70: 2 рис. Библиогр.: с.70 (4 назв.). - ISSN 2412-8988. - DOI: 10.17117/cn.2016.11.03

Статья в формате pdf

Публикации С.Канна

Пожелания и письма: branch@gpntbsib.ru
© 1997-2024 Отделение ГПНТБ СО РАН (Новосибирск)
Статистика доступов: архив | текущая статистика

Документ изменен: Wed Feb 27 14:57:32 2019. Размер: 17,481 bytes.
Посещение N 1060 с 09.01.2017