На главную  |  Полнотекстовый поиск  |  Сайт ГПНТБ России  |  Оформление подписки  |  Архив  |  Раздел для подписчиков

Научные и технические библиотеки №8 2003 год
Содержание:

Матлина С.Г. Центральная городская – публичная – научная… И это все о ней?

Дергилева Т.В. Научно-методическое обеспечение деятельности централизованных библиотечных систем (на примере ЦБС СО РАН)

Юрьева Т.Ю. Технологические аспекты методической деятельности

Барышева О.В., Майстрович Т.В. Формирование национального распределенного библиотечного фонда электронных документов: постановка проблемы

Никандров С.В. Научно-техническая информация в русскоязычной части Интернета: цели, методика и результаты изучения

Крупенева И.Г., Степанов В.К. Методы продвижения веб-сайта библиотеки

Проблемы лингвистического обеспечения АБИС – на Ученом совете ГПНТБ России

Ситник Н.П. Влияние информации на человека. Социологическое  исследование


БИБЛИОТЕЧНАЯ ЭТИКА

Письмо в редакцию Ю.П. Мелентьевой

Ответ главного редактора


ПРЕДСТАВЛЯЕМ НОВОЕ ИЗДАНИЕ

Земсков А.И., Шрайберг Я.Л. Электронные библиотеки


ИНФОРМАЦИОННЫЕ СООБЩЕНИЯ

Кузьмина И.А. Библиотеки как оплот мира на Северном Кавказе

Каратыгина Т.Ф. «Библиотечное дело – 2003: гуманитарные и технологические аспекты развития»


НАШИ АВТОРЫ


УДК 025:65.011.56

Проблемы лингвистического обеспечения АБИС –
на Ученом совете ГПНТБ России

В конце марта состоялось совместное заседание Ученого совета ГПНТБ России и кафедры информационных технологий и электронных библиотек МГУКИ. Повестка дня – «Лингвистическое обеспечение автоматизированных библиотечно-инфор­мационных систем: современное состояние». Выбор темы и инициатива именно совместного ее обсуждения принадлежит Я.Л. Шрайбергу, первому заместителю директора, заместителю директора по науке и автоматизации ГПНТБ России, заведующему вышеназванной кафедрой.

Предложенная тема вызвала большой интерес ведущих специалистов библиотечно-информационной сферы, и на заседании присутствовало более 50 человек (обычно – около 30).

С основными докладами, обозначенными в повестке дня, выступили: доктор техн. наук А.Б. Антопольский, директор НТЦ «Информрегистр», профессор кафедры информационных технологий и электронных библиотек МГУКИ; канд. техн. наук Ф.С. Воройский, зав. сектором ГПНТБ России, профессор той же кафедры; канд. филолог. наук Е.М. Зайцева, зам. начальника Научно-исследовательского отделения ГПНТБ России.

Открыл заседание председатель Ученого совета ГПНТБ России – А.И. Земсков, канд. физ.-мат. наук, директор ГПНТБ России, доцент кафедры информационных технологий и электронных библиотек МГУКИ. После краткого вступительного слова, которое было скорее приветствим собравшимся, А.И. Земсков передал слово Я.Л. Шрайбергу, отметив при этом его личный вклад в разработку лингвистического обеспечения АБИС как в теоретическом, так и в практическом направлении. (Я.Л. Шрайберг опубликовал около 70 работ по этой теме.)

Я.Л. Шрайберг подчеркнул актуальность темы и своевременность ее обсуждения именно в данном составе. Он отметил, что по проблеме лингвистического обеспечения АБИС существуют различные точки зрения, и многие из них были озвучены в свое время на ежегодной Конференции «Крым», в рамках которой работает специальная секция как постоянное мероприятие программы этого форума. «Сегодня основная задача – выработать платформу дальнейшей деятельности».

Я.Л. Шрайберг предложил опубликовать материалы этого заседания Ученого совета в нашем сборнике и на сайте ГПНТБ России (www.gpntb.ru).

 

А.Б. Антопольский в своем докладе прежде всего подчеркнул наличие принципиальных идеологических расхождений в целях и задачах современной лингвистики, которые требуют серьезного обсуждения. Но вначале он представил «маленький исторический экскурс, без которого трудно понять и оценить сложившуюся ситуацию». Докладчик отметил «два периода развития всей нашей науки, где рубежом является примерно 1990 год». До того времени ядром и центром всех исследований и разработок была Государственная система научно-технической информации.

В результате примерно 20-летних разработок сформировано весьма стройное представление о лингвистическом обеспечении, которое реализовалось в системе нормативных актов, идеологических документов, «где было ясно, что есть рубрикатор и связанные с ним классификационные языки, набор форматов для библиографов, система тезаурусов, система автоиндексирования на эти тезаурусные модели и, наконец, специализированные библиографические языки, которые в той или иной степени также создавались и разрабатывались в ГСНТИ».

Перечисленное создавало весьма слаженную систему. Однако в 1990-х гг. произошли 2 или даже 3 крушения. Крушение ГСНТИ как идеологического центра информационной мысли страны, крушение больших автоматизированных систем, которые создавались в 1970–1980-е гг. по отраслевому или региональному принципу. Сначала они «опустились» до персональных маленьких систем, затем стали интегрироваться в Интернет. Большие региональные системы перестали существовать как системы. И, наконец, эволюция программной среды, в которой существовали информационные системы.

После 1990 г. события развивались следующим образом. На место рухнувшей ГСНТИ в идеологическом плане выдвинулись в основном библиотечные разработки с одной стороны, а с другой – параллельно и резко опережая все остальное, начали развиваться коммерческие поисковые системы, прежде всего Интернет-системы (например Яндекс), которые захватили рынок информационных поисковых систем. Кроме того, продолжали развиваться локальные системы разного рода.

Из общегосударственных систем, крупных БД, которые «остались в идеологии 1990-х гг.», А.Б. Антопольский назвал «Оникс» и систему МГУ, эффективно сочетающую и реализующую почти все идеи, которые были выработаны ранее в лингвистическом обеспечении. Все остальные системы, разработанные в 1990-е гг., «либо доживают, либо самоликвидируются». Именно поэтому, как подчеркнул докладчик, «важно говорить о лингвистическом обеспечении на сегодняшний день».

Далее А.Б. Антопольский задал вопрос: для какого класса систем мы обсуждаем проблему лингвистики? Раньше ответ был ясен – это система НТИ и то, что к ней примыкало. А что сейчас? Если речь идет о традиционных библиотечно-информационных поисковых системах, то в них доминируют сугубо библиотечные представления, определяемые библиотечными технологиями работы с книгой, полиграфическим изданием, которое находится в фонде и которое надо доставить потребителю. Однако в современную жизнь вошел Интернет, «который самым бурным образом занимает информпространство разного рода информацией», в том числе и представленной в традиционном полиграфическом виде; но главное – отличительное – графика, аудио, структурированная информация.

Докладчик подчеркнул, что библиотечные системы в целом все-таки ориентированы на библиотечную технологию; «говорить о лингвистическом обеспечении всего на свете – бессмысленно; у каждой системы возникает своя лингвистика».

А.Б. Антопольский отметил, что для него объединяющим, интегрирующим термином-понятием является электронная библиотека – «объединение и библиотечных работников, и бывших НТИшников, и интернетчиков, и других примыкающих специалистов, описывающих отрасли знаний». Он охарактеризовал электронную библиотеку как сегодняшний интеграционный символ, представляющий собой прежде всего совокупность разнородных ресурсов, распределенных общедоступных систем. Уточнив, что электронные библиотеки могут быть разных уровней – от Интернета до определенных коллекций, докладчик привел в качестве примера интегрированную программу электронных библиотек США – проект, который работает с библиотечной, картографической, архивной системами и четко направлен на интеграцию информационно-поисковых идей.

Рассматривая современные «лингвистические идеи для библиотек» и их реализацию, А.Б. Антопольский назвал появление XML-технологий «революцией не меньшей, чем появление персональных компьютеров».

XML вытеснил СУБД; ПК стал инструментом любого пользователя. «Теперь мы уходим от программистов. Возможность подключений к структурированной информации стала массовой. Для меня информационщики перестали быть жрецами, которые кастрируют информацию ножом и допускают ее до массового употребления. Теперь это может делать каждый».

Так какой же может быть сегодня идеология лингвистической системы? По мнению А.Б. Антопольского, следует сочетать естественные наработки прежних лет и современные методы, которые должны максимально интегрироваться; традиционные и новые методы также должны интегрироваться.

Докладчик выделил четыре класса языковых средств:

  1. Система методов данных;
  2. Классификационные языки;
  3. Поиск по тезаурусу (многие специалисты, однако, отказываются от идеи тезауруса);

  4. Специальные языки, рассчитанные на сложно структурированную информацию. Здесь базовым является XML. Существуют не менее 30 диалектов, специально ориентированных на научную информацию: химию, физику, астрономию, биологию, деловую, графику, и пр. Для поиска химической формулы XML является принципиальной моделью.

«Это моя краткая характеристика лингвистического обеспечения на сегодняшний день и главный вопрос, которым я бы хотел закончить выступление, это вопрос о том, как организовать деятельность в сфере лингвистического обеспечения. Роль государства и государственных инфраструктур – это самый болезненный вопрос для меня, так как не видно руководящего центра, поэтому нужно говорить о самоорганизации этих процессов. Роль государственных информационных центров в информационном обслуживании значительно сокращается. Пока я более точных конструктивных идей высказывать не буду». (Более подробно см.: А.Б. Антопольский. Вопросы разработки навигационных систем по научно-техническим информационным ресурсам. – Электрон. б-ка, 2003. Т. 6. Вып. 1. –(www.elbib.ru)

По завершении доклада А.Б. Антопольский ответил на вопросы, наиболее существенные из которых задал Я.Л. Шрайберг.

Вопрос: Можем ли мы дать рекомендации для средней библиотеки по минимальному и максимальному набору лингвистов?

Ответ: Я занимаюсь не автоматизацией библиотек, а информационным обслуживанием пользователей в системе электронных библиотек. На этот вопрос лучше ответит Ф.С. Воройский, которого я считаю признанным авторитетом в разработке данной проблемы.

Вопрос: Что делать с классификаторами в нынешних условиях?

Ответ: Нужно иметь общедоступный и бесплатный банк данных с системой, позволяющей осуществлять поиск, чтобы с ним было легко работать. Нужно иметь основные библиотечные классификации, хотя бы три. Внедрение системы БД и внедрение структурированных систем – этот полиатив  поддерживает нынешнюю классификацию, но глобальных вопросов не решает.

 

Далее с докладом выступил Ф.С. Воройский. Прежде всего он высказал свое несогласие с А.Б. Антопольским, который рассматривает электронные библиотеки и АБИС как системы одного класса, и поэтому остановился на вопросах, связанных с решением информационно-библиотечных задач средствами лингвистического обеспечения, независимо от того, обращается ли пользователь непосредственно в электронный каталог библиотеки в локальном режиме или через Интернет. Ф.С. Воройский подчеркнул: когда пользователь обращается в автоматизированную библиотеку (локальную или корпоративную) или в Интернет, ему нужны конкретные данные, причем не релевантные, т.е. соответствующие содержанию запроса, а пертинентные – соответствующие его информационной потребности. При этом имеет значение не только точность, но и полнота поиска, без чего пользователь не может при минимальной затрате времени и сил на поиск получить нужную ему исчерпывающую информацию, находящуюся в документах и данных.

Что предлагает современная лингвистика для обеспечения высоких показателей поиска? Условно существующие средства могут быть отнесены к двум категориям: 1) средства предкоординации, 2) средства посткоординации.

Предкоординация предлагает построение сложных фраз понятий до момента индексирования и их использование при индексировании документов и запросов. На основе предкоординации созданы и давно используются в библиотеках рубрикаторы, УДК, ГРНТИ, ДКД и пр., т.е. словарные средства, реализующие классификационные принципы описания предметной области. Эти средства необходимы в первую очередь для обеспечения внутрибиблиотечных и корпоративных работ. Однако для пользователей они обладают низкой разрешающей способностью и не обеспечивают высоких показателей поиска – полноты и точности. Пользователь вынужден затрачивать много времени на анализ документов, взятых с «полки».

Посткоординация основана на делении сложных понятий – адресный поиск по блокам, персоналиям и т.д.

Существуют два направления ее использования: нормирование лексики (через словарные средства – тезаурусы) и применение ненормированной терминологии, словосочетаний, которые максимально точно характеризуют искомый объект. Это обеспечивает полноту поиска, что важно для пользователя. Недостатком применения ненормированной терминологии является большой информационный шум и возможные потери информации из-за синонимии и омонимии терминов в поисковых образах документов и запросов.

Примерами тезаурусов могут служить словари ненормированных терминов, которые известны сегодня под названием авторитетных файлов (массивов, записей и т.п.) по персоналиям, наименованиям организаций, фирм и т.д. Поскольку создание тезаурусов для широких тематических областей затруднительно, чаще всего используются ключевые термины. Чтобы уменьшить этот недостаток, были разработаны и используются сегодня во многих библиотеках и информационных органах принципы «мягкого нормирования» ключевых терминов, основанных на не сложных правилах их составления. На этих принципах преимущественно работают информационные органы. К сожалению, многие библиотеки (особенно большие) средства посткоординации не используют совсем или используют в недостаточном объеме.

В заключение Ф.С. Воройский подчеркнул, что посткоординация не конфликтует с предкоординацией – оба принципа должны взаимодействовать и существовать, поскольку у лингвистических средств, построенных по тому и другому принципу, есть свои преимущества и недостатки. То же относится и к функциям, выполняемым этими средствами. Таким образом, и те и другие средства являются актуальными, их следует грамотно развивать и использовать.

Вопросы:

Адамьянц А.О. Пользователя надо воспитывать, чтобы обеспечить полноту и точность получаемой информации? Ему придется использовать синонимы и термины.

Ответ: Тематическому тезаурусу альтернативы нет. Предположим, мне надо найти какой-либо документ. В рубрикаторе его нет. Задача – дать описание документа, особенно в аннотации. Классификационная система выдает большой блок и заставляет читателя делать большой поиск, а если нет аннотации, тогда есть книжная полка.

 

Е.М. Зайцева в начале своего доклада отметила, что состав и задачи лингвистического обеспечения различаются в зависимости от вида информационной системы: автоматизированная библиотечно-информационная система, электронная библиотека, информационно-поисковая система в Интернете и т.д. И далее она остановилась на рассмотрении лингвистического обеспечения библиотечно-информационных систем.

Лингвистическое обеспечение современной АБИС определяется как совокупность применяемых в технологии АБИС информационных языков, лингвистических процессоров, словарных и авторитетных БД. Основные функции лингвистического обеспечения АБИС связаны с индексированием документов и запросов для эффективного поиска в электронном каталоге.

Лингвистическое обеспечение корпоративной АБИС в отличие от локальной АБИС носит более комплексный характер и требует соблюдения дополнительных условий реализации лингвистической совместимости.

Современные тенденции в развитии лингвистического обеспечения АБИС сводятся к следующему:

  • использование элементов библиографического описания, классификационных индексов и ключевых элементов при поиске;

  • применение в технологии индексирования одного или нескольких классификационных языков, обеспечивающих поиск по широкотематическим запросам, и хотя бы одного вербального языка – для поиска по узкотематическим запросам;

  • среди вербальных языков наблюдается тенденция к предпочтительному использованию в качестве языка индексирования языка ключевых терминов, в наибольшей степени отвечающего потребностям пользователя в актуальной терминологии при узкотематических запросах. Возможно применение свободного индексирования (неконтролируемого нормативным словарем) с привлечением тезауруса для обогащения поисковых предписаний или без него;

  • ведение и поддержка в актуальном состоянии баз данных классификационных систем, тезаурусов, предметных рубрик, грамматических словарей; организация поиска в классификационных базах данных по ключевым словам с последующим выходом на поиск по классификационному индексу в электронном каталоге; увеличение количества и усложнение лингвистических процессоров в составе лингвистического обеспечения АБИС.

В заключение Е.М. Зайцева подчеркнула, что следует избегать смешения понятий ключевых терминов и ключевых слов и применения при индексировании одновременно и тех и других элементов. Это приводит к усложнению правил нормирования лексики и правил индексирования, что затрудняет работу индексаторов. Перевод прилагательных и существительных при нормировании ключевых слов влечет за собой проблему выбора слов при составлении поискового предписания. Кроме того, индексирование документов с помощью ключевых слов не дает возможности пользователю получить представление о содержании документа на основе ПОД и судить о релевантности документа.

По завершении докладов начался обмен мнениями. В прениях выступили: Н.Н. Каспарова, Б.И. Маршак, Э.Р. Сукиасян, О.А. Фуралев и многие другие. Некоторые мнения были представлены убедительно и эмоционально (Э.Р. Сукиасян – приверженец классической лингвистики), другие же выступления оказались слишком затянутыми и невнятными. Когда обсуждение значительно превысило регламент, Я.Л. Шрайберг вынужден был объявить заседание закрытым и предложил продолжить дискуссию на страницах сборника «Научные и технические библиотеки», а итоги подвести на следующем заседании Ученого совета.

Уважаемые читатели – специалисты в области лингвистики и лингвистического обеспечения – Ученый совет ГПНТБ России и редколлегия нашего сборника ждут ваших выступлений на данную тему.

  
На главную  |  Полнотекстовый поиск  |  Сайт ГПНТБ России  |  Оформление подписки  |  Архив  |  Раздел для подписчиков