Сурина Н.В. Реализация проекта "Электронная библиотека диссертаций" в Российской государственной библиотеке (Тезисы доклада)
Навигация
ПРОГРАММА КОНФЕРЕНЦИИ | СПИСОК УЧАСТНИКОВ  
ГПНТБ СО РАН
Электронные ресурсы региона:
проблемы создания и взаимоиспользования
Региональная научно-практическая конференция
(Новосибирск, 25-28 октября 2004 г.)
Тезисы доклада
 

    РЕАЛИЗАЦИЯ ПРОЕКТА «ЭЛЕКТРОННАЯ БИБЛИОТЕКА ДИССЕРТАЦИЙ» В РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКЕ
    Ильина Е.П., Сурина Н.В., Российская государственная библиотека, г. Москва
Масштабные работы по оцифровыванию документов из своих фондов Российская государственная библиотека начала осенью 1999 года. Для координации этой деятельности в Библиотеке был создан отдел поддержки электронных библиотек.
В 2002 году рабочей группой сотрудников научного комплекса, при участии специалистов всех служб Библиотеки была разработана и в 2003 г. утверждена Советом Директоров «Концепция электронной библиотеки РГБ».
В концепции определены основные цели электронной библиотеки (ЭБ):
- создание электронных коллекций для обеспечения доступности документов, предоставление которых читателям затруднено или невозможно;
- обеспечение доступа к информации, существующей исключительно в электронной форме;
- предоставление пользователям качественно новых возможностей работы с большими объемами информации.
Концепция определяет и функциональные требования к ЭБ, ее целевое и читательское назначение, состав и источники формирования, отражает правовые вопросы и экономические основы создания ЭБ.
В 2003 году Библиотека приобретает высококачественную технику, позволяющую переводить документы в цифровую форму в соответствии с целями и задачами, стоящими перед РГБ. После чего были реорганизованы службы, обеспечивающие работу ЭБ.
Основные функции на сегодняшний день распределены между двумя отделами:
- комплектование фонда ЭБ, каталогизация электронных ресурсов и обслуживание электронными документами будет осуществлять отдел электронной библиотеки (ОЭБ);
- резервное копирование полученных файлов, их размещение на сервере и регистрация файлов в соответствии с действующей технологической документацией - отдел поддержки электронной библиотеки (ОПЭБ).
Достаточно остро стоит вопрос об обеспечении качества электронных копий документов, включаемых в ЭБ. Именно поэтому в апреле 2004 г. в РГБ создан отдел технического контроля качества сканирования (ОТК).
Электронная библиотека РГБ формируется как единая база данных, состоящая из электронного каталога (ЭК) электронной библиотеки и фонда (ЭФ) электронной библиотеки. Программным обеспечением ЭК электронной библиотеки до 2004 года являлось ПО «Библиотека - 2000». В настоящее время принято решение о переводе процесса обработки электронных документов на ПО Aleph 500, которое используется на централизованном пути обработки. В целях обеспечения единого технологического подхода к организации процессов обработки новых поступлений была принята следующая схема обработки электронных документов (ЭД):
Схема обработки ЭД
Д - документ - первоисточник
ЭД - электронная копия документа - первоисточника
БО - библиографическое описание первоисточника
БО ЭД - библиографическое описание электронной копии документа - первоисточника
Хочется особо подчеркнуть, что мы придерживаемся принципа распределенной каталогизации: библиографическое описание на первоисточник для ЭК РГБ составляет отдел каталогизации (если документы прошли централизованную обработку) или отдел фондодержатель (если документы обрабатывались в специализированных отделах), а библиографическое описание на электронную копию в обоих случаях составляет отдел электронной библиотеки.
На сегодняшний день электронная библиотека РГБ включает более 50000 файлов:
- около 45000 файлов насчитывает электронная библиотека диссертаций;
- около 5000 полных текстов (orel.rsl.ru), получены в результате сканирования или заимствования из Интернета.
Принципы и условия доступа к различным частям и коллекциям ЭБ определяет Совет директоров РГБ. Читатели в стенах Библиотеки могут пользоваться электронной библиотекой свободно и бесплатно. Для пользователей Интернет пока существует ряд ограничений на право доступа к ЭБ РГБ.
А теперь поподробнее об ЭБД, которая является результатом сканирования документов из фонда диссертаций РГБ, ведущего свою историю с 1944 года, когда в соответствии с приказом Всесоюзного комитета по делам Высшей школы при СНК СССР (ВК ВШ) был создан Всесоюзный фонд диссертационных работ.
С тех пор он собирается по всем отраслям знания, кроме медицины и фармации, и хранится на правах рукописного в Государственной библиотеке СССР им. В.И. Ленина (в настоящее время - РГБ). По медицинским и фармацевтическим наукам - в центральной научно-медицинской библиотеке Московской медицинской академии им. И.М.Сеченова (ЦНМБ ММА). РГБ и ЦНМБ ММА как общероссийские депозитарии диссертаций постоянно хранят фонд диссертаций страны.
Фонд диссертаций РГБ, насчитывающий более 820 тыс. единиц хранения, является специализированной частью основного фонда. В целях рационального использования он разделен на две части: активную (за последние 10 лет) и пассивную (депозитарную - за более ранние годы); а организован в хронологически - систематическом порядке в соответствии с номенклатурой специальностей научных работников, утвержденной приказом Министерства промышленности, науки и технологий РФ от 31.01.2001 г. N 47.
До 1988 года диссертации и авторефераты размещались в основном комплексе зданий Библиотеки, а в 1989 г. состоялся переезд отдела диссертаций в г. Химки, а фонд авторефератов остался в основном хранилище. В результате чего разделились и каталоги: каталог диссертаций уехал вместе с фондом диссертаций в г. Химки, а каталог авторефератов остался с фондом авторефератов в основном здании библиотеки. Чтобы ускорить получение читателями информации о защищенных диссертациях, с 1987 г. РГБ приступила к автоматизации процессов обработки авторефератов и диссертаций. На 01.10.2004 г. общий объем электронного каталога «авторефераты и диссертации» составляет 472 274 записи, из них:
- 301 011 авторефератов (с 1987 года),
- 171 263 диссертаций (с 1995 года).
С 1995 года в России начался образовательный бум, который в корне изменил ситуацию с обслуживанием в Библиотеке вообще, и в отделе диссертаций в частности. Уже в 2001 году в зале, рассчитанном на 200 посадочных мест, в день обслуживалось до 600 человек.
Добавила масла в огонь и затянувшаяся реконструкция основного книгохранилища РГБ, проходившая с 2000 по 2003 год. Отдел был одним из немногих доступных специализированных фондов, и ему в течение трех лет пришлось выдерживать натиск основного потока читателей. А в 2002 году начался ремонт и в Химкинском комплексе РГБ: хранилище отдела было переоснащено передвижными стеллажами, по индивидуальному проекту был переоборудован и читальный зал отдела диссертаций, но увеличить количество читательских мест в нем не удалось. По-прежнему, катастрофически не хватало места для новых поступлений, ведь ежегодно в "Ленинку" поступает около 17 тыс. кандидатских и 8 тыс. докторских диссертаций. А это примерно один железнодорожный вагон печатной продукции. Текущий год приходится штабелировать на полу у читального зала, чтобы обеспечить оперативное обслуживание, а что потом?
Традиционные формы обслуживания читателей исчерпали себя. Необходимо либо строительство нового хранилища и читального зала, либо переход на иные формы обслуживания. Бурное развитие компьютерных технологий делает более дешевым и предпочтительным второй путь, при котором диссертации могут быть оцифрованы и сохранены в машиночитаемой форме, стать доступными для читателей.
Именно поэтому руководство РГБ пришло к выводу о целесообразности разработки проекта по созданию Электронной библиотеки диссертаций (ЭБД).
Реализация проекта осуществляется по трем направлениям:
  • формирование фонда оцифрованных диссертаций;
  • хранение фонда в Электронном депозитарии диссертаций;
  • обслуживание читателей полными текстами диссертаций.
Библиотекой были определены основные источники формирования ЭБД:
- передача в ЭБД электронных версий диссертаций и авторефератов авторами с заключением договора между автором и РГБ (типовой договор согласован с юридической службой);
- передача в ЭБД электронных версий диссертаций и авторефератов организациями (вузами, библиотеками и т. д.), которые берут на себя решение вопросов авторского права и другие аспекты взаимодействия с авторами, в соответствии с условиями договора с РГБ (http://www.rsl.ru/text/pub/10_5.doc);
- легитимное заимствование электронных версий диссертаций и авторефератов из других электронных библиотек по договорам с держателями этих библиотек (не исключается вариант формирования ссылок на другие сайты, поддерживающие электронные коллекции диссертаций);
- сканирование текстов диссертаций и/или авторефератов из фонда РГБ (по определенным отраслям знаний и за определенный период времени). Сканирование может осуществляться подразделениями Библиотеки и/или сторонними исполнителями за счет привлеченных инвестиций или по договорам.
Как показал опыт, сканирование текстов диссертаций является самым продуктивным источником комплектования ЭБД.
Оцифровывание диссертаций и авторефератов в рамках проекта «Электронная библиотека диссертаций» проходит в два этапа:
Первый этап - 2003 год
    Создание первичного массива для ЭБД, состоящего из наиболее часто спрашиваемых читателями диссертаций по экономике, юриспруденции, педагогике и психологии за последние 5 лет.
Второй этап - с 2004 года
    Оцифровка новых поступлений всех диссертаций, поступающих в РГБ (около 25 тыс. документов в год).
Теперь более подробно остановимся на технологии создания ЭБД.
Отдел диссертаций РГБ составляет списки и осуществляет подбор документов для передачи их сканирующей организации.
Оцифровку диссертаций осуществляет компания «ПроСофт-М» (Компания)- одна из ведущих российских компаний в области разработки комплексных решений, предназначенных для преобразования больших массивов информации в электронный вид, которая по итогам проведенного РГБ в 2003 г. открытого конкурса была признана победителем. Оцифровка производится на территории Компании. Ее представители получают диссертации и несут ответственность за сохранность документов, выданных отделом диссертаций для оцифровывания.
Одновременно с диссертациями-первоисточниками Компания получает компакт-диски с библиографическими записями, выгруженными из базы данных электронного каталога «авторефераты и диссертации» в формате MARC21, для соединения с ними электронных образов диссертаций.
Собственно, сам технологический процесс оцифровывания диссертаций Компанией состоит из четырех этапов:
1. Подготовка документа.
  • Подготовка бумажного носителя к сканированию.
Эта процедура состоит из расшивки переплета диссертации и односторонней обрезки левого края листов с целью удаления остатков клея с корешка.
  • Создание библиографического описания электронного документа.
Библиографическое описание в дальнейшем должно быть связано с результатами сканирования, для чего осуществляется поиск нужной библиографической записи и конвертирование ее в вид записи для электронного документа без изменения содержания полей.
2. Сканирование.
  • Преобразование информации с бумажного носителя в электронный вид.
  • Создание электронного образа диссертации.
  • Формирование электронного титульного листа.
  • Связывание электронного образа диссертации с библиографическим описанием электронного документа.
3. Контроль качества и сохранение данных.
  • Автоматическое распознавание.
  • Проверка результатов автоматического распознавания.
  • Архивирование массива графических образов документов на компакт-дисках.
  • Формирование пользовательской базы данных, генерирование выходных форматов электронных документов и электронных библиографических записей для них.
Но, принимая во внимание, что никакой сканер не дает стопроцентного качества изображения, неотъемлемой частью обработки большого потока данных является повторное сканирование. Оператор вручную отмечает отдельные страницы, требующие пересъемки, и после их пересканирования система автоматически вставляет данные страницы на их место в пакете данных. Данный этап наиболее трудоемкий в процессе обработки и сканирования документов.
4. Восстановление исходного состояния бумажного носителя.
Заключительная стадия всего процесса. Расшитые листы скрепляются и переплетаются на финишном полиграфическом оборудовании в соответствии с требованиями отдела диссертаций, после чего диссертации возвращаются в хранилище.
Отдел диссертаций проверяет целостность и сохранность документов, возвращаемых после сканирования. На каждую диссертацию, прошедшую сканирование, ставят штамб «ЭБ», который указывает на существование электронной версии этого документа. Документы, имеющие электронную копию, не подвергаются повторному сканированию в целях сохранности документа.
Центр информационных технологий РГБ выгружает диссертации на сервер сразу после получения компакт-дисков с электронными образами диссертаций, чтобы читатель смог получить к ним доступ как можно скорее. После чего электронные библиографические описания с указанными в них электронными адресами переносят на сервер ЭК РГБ, и только после этого передают диски для проверки качества сканирования.
Отдел технического контроля качества сканирования:
- проверяет соответствие электронного титульного листа библиографическому описанию в текстовом файле описания диссертации,
- просматривает тексты диссертаций на предмет обнаружения некачественных или пропущенных страниц, включая титульный лист,
- выборочно сверяет PDF-файлы с печатными оригиналами в целях выявления ошибок сканирования,
- копирует на сетевой компьютер диссертации, в которых при проверке не выявлено ошибок, формируя таким образом «чистый массив», который постоянно пополняется.
Техническое задание данного проекта предусматривает предельно допустимое количество трудно читаемых образов - 0,01 % - т.е. 1 страницу на 10000 страниц. Для оценки данного показателя в процессе выполнения работ был произведен выборочный подсчет по 50-ти сверенным с оригиналами дискам, который дал такие результаты:
- общее количество просмотренных страниц - около 500000,
- количество страниц с недочетами, не обусловленным качеством оригинала - 820,
- процент ошибок - 0,16%.
Как видно из вышеприведенных чисел, допустимый процент ошибок превышен, поэтому основным вопросом на сегодня является исправление брака сканирования. Исправление брака производится без повторной расшивки диссертации, причем на территории отдела диссертаций, чтобы еще раз не изымать документ из обслуживания.
В результате первого этапа в электронную форму было переведено около 28 тыс. диссертаций, поступивших в РГБ с 1996 г. по 2003 г. На этот "костяк" приходится более 80% всех читательских запросов. Финансовые затраты на этом этапе составили около 0,5 млн. $, при этом стоимость обработки диссертаций равнялась 1,96 руб. за страницу текста.
Эти затраты можно было бы значительно сократить, если бы ВАК, регламентирующая правила и порядок защиты научных работ, согласилась бы внести соответствующие изменения в правила предоставления работ к защите. Однако переговорный процесс не дал пока никаких результатов.
Тем не менее, уже более полутора лет РГБ предлагает всем авторам, защитившим свою работу в СССР или Российской Федерации вне зависимости от года защиты, опубликовать свои диссертации и/или их авторефераты в открытом доступе на Web-сайте РГБ (http://orel.rsl.ru/plakat_dis.htm). Для этого РГБ заключает договоры непосредственно с авторами или с организациями, где проходила защита, в соответствии с законом РФ "Об авторском праве и смежных правах" (1993 г.).
Если договор заключается непосредственно с автором, ему необходимо:
  1. скопировать форму договора с сайта (http://www.rsl.ru/text/pub/10_4.doc) или получить ее в Отделе диссертаций (г. Москва, ул. Воздвиженка, 1/14, тел. 202 90 87), оформить текст договора и переслать его по обычной почте или доставить в РГБ в 2-х экземплярах (один возвращается автору после подписания);
  2. в соответствии с условиями договора передать в Библиотеку электронные версии диссертации и/или автореферата в любом формате или оплатить стоимость их сканирования и обработки в соответствии с действующим в РГБ прейскурантом цен на платные услуги.
За все это время, по самым приблизительным подсчетам, было защищено около 40 тыс. диссертаций, из которых в электронном виде РГБ получила лишь 268 работ.
В 2004 г. стартовал второй этап оцифровывания диссертаций в рамках проекта, в ходе которого сканируются новые поступления диссертаций. На 01.10.2004 г. оцифровано и выгружено на сервер около 20000 диссертаций. Из них было проверенно более 12000 диссертаций.
Средний процент диссертаций, в которых не было обнаружено недочетов (по отношению к общему количеству проверенных диссертаций) - около 85 %. Как показала сверка электронных образов с оригиналами, обнаруженные в ходе проверки недочеты примерно в 50 % случаев обусловлены плохим качеством оригиналов (пропущенные страницы, нечеткий текст оригинала и т. п.).
Все проверенные диссертации должны передаваться в электронный депозитарий, который в настоящий момент находится в стадии разработки и будет представлять собой технологический комплекс по приему полных текстов, их хранению, копированию и переводу из одного формата хранения в другой при смене оборудования и/или программного обеспечения. Электронный депозитарий должен обеспечить сохранность текстов диссертаций сколь угодно долгое время.
18 декабря 2003 г. в РГБ состоялась торжественная церемония открытия доступа к ЭБД, в которой приняли участие представители Архива Президента РФ, комиссии по информатизации и автоматизации судов Совета судей РФ, Российской Академии государственной службы при Президенте РФ, Министерства науки России, Министерства образования России и Министерства культуры России.
Воспользоваться ЭБД могут все читатели РГБ, которых условно можно разделить на две категории: внутренние - те, кто пользуется читальными залами РГБ, и внешние.
Первая категория читателей может просматривать полные тексты диссертаций и авторефератов в читальном зале отдела диссертаций в г. Химки и/или в зале использования электронных ресурсов (ИЭР) в основном здании, где для этой цели пока выделено 19 рабочих мест. На 01.10.2004 г. ЭБД содержит более 45 тыс. полных текстов, при чем 4600 из них докторские. По статистике за 9 месяцев 2004 года только в зале ИЭР этой возможностью воспользовались 4356 читателя, было просмотрено 65228 диссертаций. Мы надеемся, что открытие читального зала ЭБ позволит обеспечить наших читателей достаточным количеством читательских мест, высокоскоростными каналами связи и необходимым сервисом.
Для второй категории читателей Российская государственная библиотека открыла в 2004 году программу создания Виртуальных читальных залов в библиотеках и организациях регионов России. Под виртуальным читальным залом, мы понимаем, рабочие места зарегистрированных пользователей, оборудованные персональными компьютерами с постоянными IP-адресами и имеющие доступ в Интернет. Регистрация виртуального читателя представляет собой процедуру получения информации о виртуальном читателе и присвоения ему уникального имени и пароля для доступа к ЭБД РГБ.
Таким образом, виртуальные читатели получают сервис с учетом ограничений закона об авторских и смежных правах и в рамках той пропускной способности каналов связи, которая им доступна. Поиск диссертации будет производиться в ЭК диссертаций, содержащем помимо библиографической информации, тематических рубрик и ключевых слов прямую ссылку на файл с полным текстом диссертации. В зависимости от прав доступа читатель может либо прочитать текст диссертации с экрана, либо скопировать текст на свой компьютер, либо заказать печатную копию.
На сегодняшний день открыто 46 виртуальных читальных залов в 29 городах России и 4 зала готовятся к открытию. ЭБД могут воспользоваться жители Астрахани, Барнаула, Белгорода, Владивостока, Казани, Кемерово, Курска, Магадана, Магнитогорска, Майкопа, Москвы, Орла, Оренбурга, Новокузнецка, Новосибирска, Омска, Пятигорска, Саратова, Самары, Санкт-Петербурга, Ставрополя, Тольятти, Улан-Удэ, Усть-Каменогорска, Уфы, Хабаровска, Тюмени, Челябинска, Южно-Сахалинска. На 01.10.2004 г. зарегистрировано 3135 пользователей, которые просмотрели 58 907 диссертаций.
Получить более подробную информацию, узнать контактные сведения, задать интересующие вас вопросы, посмотреть образцы документов вы можете на нашем сайте: http://diss.rsl.ru или по адресу: diss@rsl.ru, а также на презентации «Электронная библиотека диссертаций», которую РГБ будет проводить в рамках секции «Электронные библиотеки» на международной конференции «Либком - 2004».
В заключение хотелось бы всех вас пригласить в гости, на Международную конференцию «Румянцевские чтения - 2005», которая пройдет в РГБ 5-7 апреля 2005 г. под девизом: «Электронные библиотеки России: доступ к информации как условие развития социокультурных коммуникаций».

Источник: Сурина Н.В. Реализация проекта «Электронная библиотека диссертаций» в Российской государственной библиотеке [Электронный ресурс] // Электронные ресурсы региона: проблемы создания и взаимоиспользования: Материалы науч.- практ. конф. (г. Новосибирск, 25-28 окт. 2004 г.): Тез. докл. - Новосибирск, 2004. - 1 дискета
 
ПРОГРАММА КОНФЕРЕНЦИИ | СПИСОК УЧАСТНИКОВ   Вверх
[О библиотеке | Академгородок | Новости | Выставки | Ресурсы | Библиография | Партнеры | ИнфоЛоция | Поиск]
  Пожелания и письма: branch@gpntbsib.ru
© 1997-2024 Отделение ГПНТБ СО РАН (Новосибирск)
Статистика доступов: архив | текущая статистика
 

Документ изменен: Wed Feb 27 14:31:14 2019. Размер: 44,153 bytes.
Посещение N 3743 с 01.11.2004