На главную  |  Полнотекстовый поиск  |  Сайт ГПНТБ России  |  Оформление подписки  |  Архив

Залужская М.В. Интернет в библиотеке, 2003 год
Содержание:


Бредихин О.Д.
Реализация доступа к полнотекстовым базам данных на примере фонда авторефератов диссертация ГПНТБ России

Волкова К.Ю.
Проблема измерения качества в библиотеках: применение к оценке Web-сайтов

Евстигнеева Г.А.
Зарубежный опыт развития альтернативных структур создания и распространения электронных научных публикаций

Елфимова Г.С.
Рекомендации по созданию информационных ресурсов Интернет, доступных для незрячих пользователей

Залужская М.В.
Анализ обслуживания пользователей ГПНТБ России электронными ресурсами в Интернет-среде (на примере Научной Электронной Библиотеке)

Линдеман Е.В.
Особенности организации и технологии корпоративных работ по созданию информационных ресурсов в развивающемся Московском библиотечном консорциуме на современном этапе

Лобанова Э.Ш.
Еще раз о международных машиночитаемых форматах

Маршак М.Б.
Возможности использования базовых принципов работы поискового апарата систем автоматизации библиотек в информационно-поисковых системах Интернета

Рагимова М.А.
Все, что вы можете узнать о Сводном каталоге в Интернет

Сбойчаков К.О.
Автоматизированная система смысловой обработки текстов в Интернет

Скородумов В.А., Соколовский В.В.
Обзор задач и методов смысловой обработки электронных данных

Юдин В.В., Соколова Ю.В.
Обучение с использованием дистанционных технологий: перспективы и реалии


УДК 028.34:65.011.56

О.Д. Бредихин
зав. сектором НТО-33 ГПНТБ России

Реализация доступа
к полнотекстовым базам данных
на примере фонда авторефератов диссертация ГПНТБ России

Проведен анализ современных технологий для построения систем обслуживания читателей библиотек полнотекстовыми базами данных. Описана реализация системы обслуживания полнотекстовыми авторефератами диссертаций на основе современных WEB и internet технологий. Даны перспективы дальнейшего развития системы.

Выбор программного обеспечения и технологии

В настоящее время в ГПНТБ России накоплен большой фонд графических образов авторефератов диссертаций в формате TIFF. Возникает потребность в обеспечении доступа читателей ГПНТБ к данному виду электронных документов на основе современных программных технологий, с использованием локальных, а еще лучше, глобальных сетей.

Существует самое очень большое число архитектур, технологий и программного обеспечения, а также их комбинаций, для организации доступа к полнотекстовым базам данных. Условно полнотекстовые базы данных можно разбить на 2 класса:

  1. Базы, в которых хранится сам исходных текст документа. На основе этих данных строится полнотекстовый индекс, который используется для обработки поисковых запросов, и выборки нужных документов. Большинство современных реляционных СУБД поддерживают такую возможность, при этом единого стандарта на обработку полнотекстовых индексов не существует. В каждой СУБД реализована своя технология построения индексов, включая своеобразный синтаксис для поисковых запросов с применением полнотекстовых индексов. Среди таких СУБД следует выделить ORACLE, SQL Server, MySQL и т.д.

  2. Базы, в которых используется несколько атрибутов для описания образов полнотекстовых документов. Эти атрибуты используются для организации поисковых запросов. Сами образы документов могут храниться вне базы в файловой системе на жестких дисках или на других носителях информации, например, CD-ROM , DVD и др. либо в самой базе данных в виде полей типа BLOB. Возможна гибридная технология, в которой для поисковых атрибутов строится полнотекстовый индекс. Выше упомянутые СУБД подходят и для этого класса баз. Фонд авторефератов диссертаций можно отнести к этому типу полнотекстовых баз данных

В недалеком прошлом самой распространенной архитектурой для организации многопользовательского доступа к базам данных была двухуровневая архитектура Клиент-Сервер. В этой архитектуре выделялось 2 уровня программного обеспечения. На уровне клиентского ПО реализовывались функции бизнес-логики и представления данных. Клиентское ПО создавалось с применением инструментария быстрой разработки RAD для языков высокого уровня С, С++, Паскаль и т.д. и компилировалось в машинный код. Серверный уровень использовался для централизованного или распределенного хранения данных и обработки пользовательских запросов по извлечению или записи информации. Подобные системы строятся и строились на базе локальной сети организации.

Существенными недостатками такой архитектуры являются сложность администрирования, развертывания и поддержки на рабочих местах. Повышенная нагрузка на СУБД, связанная с необходимостью поддерживания постоянных соединений между клиентами и СУБД, сложность построения территориально распределенных систем, не ограниченных одной локальной сетью.

Наиболее перспективными в настоящее время являются системы, построенные по 3х уровневой архитектуре Клиент->Сервер приложений->Сервер баз данных. Одной из реализаций подобной архитектуры является применение Internet технологий. В этом случае клиентское ПО строится на основе Internet Браузера, например IE Microsoft, Netscape Navigstor, Mosilla, Opera и т.д. Internet Браузер изображает текстовую и графическую информацию, подготовленную на языке разметки HTML, а также может выполнять скрипты на языке JavaScript. На Браузер возложена задача представления данных, полученных от Сервера приложений в виде текста HTML/JavaScript, и отправки собранных данных на Сервера приложений. В силу ограничений, возложенных на Клиента задач, подобное клиентское ПО можно отнести к классу «тонкий клиент».

На Сервере приложений реализуется бизнес-лигика системы по обработке поступающих от клиента запросов, а также подготовка HTML ответа для клиента. Сервер приложений строится на современных Web серверах, например Apache, IIS Microsoft и др. Программное обеспечение разрабатывается на современных скриптовых языках PHP, ASP, и т.д. либо на компилируемых языках Java, C, C++, C#.NET, VisualBasic.NET и т.д. Подход со скриптовыми языками во многих случаях может быть предпочтительнее, т.к. не требует дополнительного этапа компиляции при модификации кода программы. Программа Сервера приложений исполняется Web сервером, который и отсылает ответ в виде HTML по сети TCP/IP по протоколу HTTP/HTTPS (протокол безопасного соединения при повышенной секретности данных) Браузеру клиента.

Сервер приложений взаимодействует с Сервером баз данных как и в старые добрые времена, с тем существенным отличием, что возможно использование одного и того же соединения с СУБД для обработки запросов с нескольких клиентов. Если эти запросы не пересекаются во времени.

Сервер баз данных использовался для централизованного или распределенного хранения данных и обработки запросов Сервера приложений по извлечению или записи информации, как и в 2х уровневой модели.

Существенными достоинствами 3х уровневой архитектуры являются простота администрирования, развертывания и поддержки системы, т.к. основным местом для размещения ПО является Web сервер. Все клиенты получают новую или модифицированную функциональность автоматически через свои Браузеры. В этом смысле, подобные системы можно отнести к классу систем с «нулевым администрированием». Другим огромным достоинством такой реализации 3х уровневой архитектуры является ее «встроенная» территориальная распределенность, ограниченная только рамками сети Internet.


Общая структура системы

В настоящее время система включает свыше 5000 авторефератов. Доступ осуществляется со всех рабочих станций локальной сети, на которых настроен протокол TCP/IP.

Адрес системы http://cdar.gpntb.ru

Система обслуживания авторефератами диссертаций представлена на рис. 1. Система построена на современной 3 уровневой модели разработки приложений. Система включает:

  1. Тонкие клиенты на основе современных веб браузеров IE 5.0-6.0, netscape Navigator, Mozilla 5.0 и т.д.

  2. Web server IIS 5.0 в качестве промежуточного слоя обработки бизнес логики. Этот слой работает на основе технологии ASP с набором скриптов на языке VBScript.

  3. База данных MSSQL для хранения данных об авторефератах диссертаций. А также кэш сканированных изображений страниц авторефератов на жестком диске сервера.


 Рис. 1. Рабочие станции с тонкими клиентами IE 5.0-6.0, Netscape Navigator



Клиентские рабочие места. Тонкие клиенты

В качестве рабочих мест используются современные веб браузеры. Фактически система готова к работе на любой машине, подключенной к Интернет, и не требует каких либо дополнительных настроек и установок со стороны обслуживающего персонала.

Логически система разбита на 2 приложения:

  1. По адресу http://cdar.gpntb.ru расположена информационно-поисковая система, доступная всем желающим работать с авторефератами. В настоящее время система обеспечивает поиск по автору и названию автореферата. Возможно также проведение поиска по шаблонам, например запрос автор: И* выдаст всех авторов на букву И. Результатом поиска является, список авторефератов. Для просмотра автореферата нужно кликнуть левой клавишей мыши на название автореферата. В отдельном окне появится список страниц автореферата. При клике на страницу система загрузит выбранную страницу. Изображения страниц авторефератов хранятся в формате TIFF. В среднем одно изображение занимает 10-20 кб памяти, что позволяет загружать его менее чем за 1 сек. для модемов со скоростью соединения 28.8 кб сек. Для локальной сети скорость загрузки не заметна глазу. К сожалению, браузеры IE для Windows 9X,ME не способны просматривать изображения TIFF. Эта возможность появилась только в OC Windows 2000, XP, 2003. Для просмотра применяется бесплатный ActiveX компонент alternatiff, который устанавливается автоматически при первом обращении. Этот компонент позволяет улучшить качество изображения за счет внутреннего алгоритма сглаживания, осуществляет масштабирование, печать и много другое.

  2. По адресу http://cdar.gpntb.ru/admin расположена административная часть системы. Здесь можно производить автоматическое обновление база данных новыми авторефератам на основе файла REFFERATS.TXT, который сопровождает каждый диск, проводить необходимые административные операции по настройке доступа к конкретным дискам авторефератов, редактировать информацию для отдельных авторефератов. В данной системе выбран подход по копированию исходных CD дисков с образами авторефератов в специально организованных кэш авторефератов на жестком диске сервера, при этом исходные диски CD используются в качестве резервных копий и используются для восстановления системы после сбоев сервера. Такой подход позволяет в десятки раз повысить производительность системы, организовать многопользовательский доступ к информации, повышает надежность системы.


Сервер бизнес логики IIS 5.0

Клиенты позволяют работать только с конечными результатами, однако настоящая обработка данных производится на WEB сервере бизнес логики IIS 5.0. Такой подход позволяет отнести эту систему к классу систем с нулевым администрированием. Выбор IIS 5.0 связан с тем, что этот WEB сервер является частью операционной системы Windows 2000, прост в управлении и имеет современную технологию ASP, для разработки сложных интернет сайтов и бизнес приложений. В качестве языка разработки выбран VBScript. Этот скриптовый язык не требует проведения дополнительный компиляций кода, что очень удобно при развертывании и сопровождении кода.

Концептуально вся бизнес логика разбита на отдельные непересекающиеся функциональные модули или функциональности, например, поиск авторефератов, просмотр автореферата и т.д. Каждая функциональность строится на основе жесткой программной архитектуры, см. рис. 2.

Рис. 2

Менеджер бизнес логики получает управление после загрузки соответствующей функциональности. Он осуществляет проверку бизнес логики, преобразование и проверку данных. Все подготовленные данные записываются в БД через менеджера доступа к БД. После этого управление передается менеджеру представления данных, который формирует страницу результата на основе данных, подготовленных менеджером бизнес логики. Такая форма представления кода позволяет легко локализовывать и обрабатывать ошибки уровня исполнения и компиляции, что в конечном итоге приводит к упрощению сопровождения программного кода.

Разработана технология сопряжения данной системы с Электронным каталогом ГПНТБ на уровне URL вида:

http://cdar.gpntb.ru/Referat/Default.asp?CODE=<iшифр_автореферата>.


База данных MSSQL

В базе данных хранятся все необходимые данные для функционирования системы. В качестве СУБД был выбран сервер MS SQL Server 2000. Эта современная СУБД масштаба предприятия обладает всеми необходимыми возможностями ускорения и упрощения процесса разработки и повышения производительности БД. Немаловажным фактором выбора является то, что эта СУБД является хорошо совместимой со всеми программными продуктами фирмы Microsoft.


Перспективы развития системы

В текущем состоянии системы отлажена и протестирована технология доступа к графическим образам полнотекстовых документов. Планируется развитие системы в двух направлениях. С одной стороны очень желательно производить сбор данных по обращениям пользователей к конкретным авторефератам. Данная информация может быть очень ценна для дальнейшей статистической обработки. Например, для выявления предпочтений читателей, определения нагрузки на систему во времени, построения различного вида отчетов или создания и наполнения многомерных баз данных для использования в современных системах принятия решений и OLAP анализа.

С другой стороны система должна не только помогать пользователям получать доступ к просмотру авторефератов диссертаций на экране, но и давать возможность заказывать необходимые авторефераты с использованием современных средств электронной доставки. Планируемая подсистема заказа и доставки должна существенно упростить обработку заказов пользователей и повысить качество обслуживания.


На главную  |  Полнотекстовый поиск  |  Сайт ГПНТБ России  |  Оформление подписки  |  Архив