Сервисы электронной полнотекстовой библиотеки для образования, науки и культуры

Ляпин С.Х.
Electronic full-text library services for education, science and culture - View in English
Статья в журнале
Об авторах:

Ляпин С.Х.1
1 Архангельский краеведческий музей

 Скачать PDF

Аннотация:

Рассматривается концепция многофункциональной электронной библиотеки с возможностями продвинутого полнотекстового поиска, функционирующего как в локальной сети (архитектура клиент-сервер), так и в режиме распределенной
информационной среды (гибридная архитектура). На примере одной из них (информационная система T-Libra, разработка ООО «Константа», Архангельск, Россия) описываются различные виды полнотекстового поиска, их использование для целей управления, образования, науки и культуры.

Ключевые слова:

научные публикации, журналы открытого доступа, плата за публикации, Минобрнауки
Цитировать публикацию:
Ляпин С.Х. Сервисы электронной полнотекстовой библиотеки для образования, науки и культуры // Научная периодика: проблемы и решения. – С. 9-17. – doi: 10.18334/np3285

Lyapin, S.Kh. Electronic full-text library services for education, science and culture. Scholarly Communication Review , 9-17. doi: 10.18334/np3285 (in Russian)

Приглашаем к сотрудничеству авторов научных статей

Публикация научных статей по экономике в журналах РИНЦ, ВАК (высокий импакт-фактор). Срок публикации - от 1 месяца.

creativeconomy.ru Москва + 7 495 648 6241




Введение. От «паровоза для машиниста» к поезду для пассажиров

Современный этап развития информационных систем в сферах образования, науки и культуры характеризуется, на наш взгляд, следующими важными моментами.

Во-первых, переходом от элементарных информационных сервисов (поиск по каталогу + доступ к «бумажным» документам или электронным ресурсам в их файловом виде, представленными, как правило, в формате графических имиджей), к продвинутым сервисам гибкого тематизируемого полнотекстового поиска по полнотекстовым и полносодержательным ресурсам. Речь фактически идет о переходе от «библиотеки для библиотекарей» к библиотеке для пользователей, или, пользуясь словами Михаила Жванецкого, от «паровоза для машиниста» к поезду для пассажиров. Эпоха каталогов закончилась – со всеми очевидными и потому опускаемыми нами оговорками.

В-вторых, интеграцией ресурсов и сервисов – как в рамках локальной среды конкретной организации (библиотеки, музея, образовательного или научного учреждения), так и в рамках более широкой информационной среды.

В-третьих, переходом от локальных решений к сервисам в распределенной информационной среде. При этом технологическая организация распределенной информационной среды может быть весьма различной, с большей или меньшей степенью централизации управления информационными сервисами.

В статье рассматриваются сервисы продвинутого полнотекстового поиска. К ним относится, например, поиск, позволяющий не только найти тот или иной электронный документ, но и сформировать тематическую подборку материала из разных документов, причем с точностью до произвольных единиц полнотекстовой информации – предложений, авторских абзацев и их кластеров, частотно-ранжированных списков терминов и т.д. Сами эти единицы информации, тематически связываемые запросом, могут находиться в разных «документах» информационной системы, а в случае распределенной библиотеки – и на разных пространственно удаленных серверах.

Разумеется, электронные библиотеки с такого рода сервисами должны обеспечивать взаимодействие с существующими АБИС («электронными каталогами») на уровне импорта/экспорта метаданных (библиографических описаний), в том числе и с прикрепленными к ним файловыми ресурсами.

Архитектура таких библиотек должна быть ориентирована на работу в среде Интернет / Интранет и допускать возможность «естественной» интеграции с другими информационными системами; в современных условиях это практически означает интеграцию на основе унифицированных Веб-сервисов как в локальной сети, так и в распределенной среде.

Рассматривается реализация изложенных выше подходов в рамках деятельности по развитию электронной полнотекстовой библиотеки Архангельского областного центра повышения квалификации специалистов культуры (АОЦПК) в 2006-2011 гг., а также Архангельского краеведческого музея (АКМ) с 2011 г. по настоящее время. Используются также идеи, реализованные нашими московскими коллегами в ходе развитии библиотеки Музеев Московского Кремля и библиотеки истории русской философии и культуры («Дом А.Ф. Лосева»). Все вышеназванные электронные библиотеки созданы и развиваются в среде информационной системы T Libra v.6.6.x® (разработка ООО «Константа», г. Архангельск) [1].

В первом разделе кратко описывается архитектура и функционал информационной системы T Libra.

Во втором разделе дана характеристика и приведены примеры информационно-поисковых сервисов, используемых для многоплановой поддержки аналитической, образовательной и научной деятельности.

1. Архитектура и функционал ИС T Libra v.6.6.x

ИС T-Libra функционируют в клиентсерверной Интернет/Интранет архитектуре. На стороне пользователя предполагается лишь наличие Интернет-браузера и стандартных прикладных программ по работе с файловыми ресурсами. На стороне сервера – операционная система Windows, СУБД MySQL (или другая СУБД, поддерживающая протокол ODBC), Веб-сервер Apache.

В используемой нами версии электронной библиотеки [2] имеются следующие типы полнотекстового поиска: а) абзацно-ориентированный, б) частотно-ориентированный. При этом абзацно-ориентированный поиск представлен разновидностями работы как в локальной, так и в распределенной среде.

1.1. Абзацно-ориентированный поиск предназначен для поиска и презентации текста с точностью до отдельных авторских абзацев, содержащих заданную пользователем терминологическую структуру (тем самым эксплицируется «горизонтальный» микроконтекст, в котором в составе абзаца находятся искомые термины). Авторский абзац выбран в качестве естественной единицы смыслового членения текста. Обеспечивается поддержка нескольких видов и различных форм презентации результатов этого поиска:

1.1.1. Простой («однослойный») тематический поиск, с одним комплексным полем для ввода терминов и использованием для этих терминов операторов логического объединения, обязательного исключения или обязательного включения термина в запрос. Это поле функционирует аналогично стандартному поисковому полю в глобальных поисковых системах (Яндекс, Google и т.п.). Результатом поиска является список абзацев, удовлетворяющих заданным условиям.

Каждый из абзацев, входящих в результаты запроса, может быть одним «кликом» мышки раскрыт до своего полного вида. Используя опцию «Контекст» в левом меню, можно последовательно раскрыть абзацы до и после найденного – вплоть до кластера из семи абзацев (три абзаца «до», три абзаца «после», плюс сам абзац – результат запроса).

Имеется возможность посмотреть, с этой же экранной страницы, соответствующий ресурс (статью, книгу и т.д.) в файловом виде; ресурс при этом может быть представлен в различных форматах: текстового документа, графического образа документа, сопровождающего документ аудио- или видеофайла.

Имеется также возможность оценки пользователем найденных абзацев, с пользовательскими комментариями к ним, и затем автоматизированной сборки выбранных абзацев с помощью опции «Собрать тему». В результате пользователь получает файл, в котором собраны тематически ориентированные абзацы из различных документов электронной библиотеки, и указаны ресурсы (вместе с их библиографическими описаниями), откуда взяты эти абзацы. На клиентском (пользовательском) компьютере этот итоговый файл может быть записан на переносимый носитель информации («флэшку») или распечатан.

1.1.2. Расширенный («многослойный») тематический поиск

Этот вид поиска сохраняет весь функционал простого тематического поиска и обладает дополнительными возможностями тематической фокусировки запроса. Соответствующий инструментарий включает в себя: а) формирование нескольких поисковых полей («слоев») и б) включение в запрос дополнительных количественных параметров его фокусировки.

Поисковое поле "слой" представляет собой технический инструмент для выделения того или иного содержательного "аспекта" интересующей пользователя "темы"; всего может быть сформировано от 2 до 8 слоев. Между слоями действует операция логического пересечения (оператор «AND»), внутри слоя – операция логического объединения (оператор «OR») заданных терминов. Имеется возможность комбинировать актуально используемые слои, например, из трех слоев сделать какие-либо два обязательными, а один – произвольно выбираемым при осуществлении запроса.

Еще более точная тематическая фокусировка запроса достигается за счет выполнения дополнительных условий: а) указания минимально необходимого количества поисковых слоев (от 2 до 8); б) указания максимального расстояния между терминами, принадлежащими разным слоям: от 0, когда слова из двух разных слоев запроса в составе абзаца примыкают друг к другу (например, «Сийское Евангелие», или «факт истории» и т.д.), до произвольной величины. Практически не имеет смысла задавать число больше 100 – поскольку в этом случае искомые слова в абзаце будут отстоять далеко друг от друга, и между ними с большой вероятностью не будет смысловой связи.

Замечание. Этот вид запроса может быть рассмотрен также как поиск с использованием квази-тезауруса, создаваемого пользователем ad hoc («специально для данного случая»).

1.2. Частотно-ориентированный поиск предназначен для построения частотно-ранжированных списков терминов (существительных), и тем самым экспликации различных «вертикальных» макроконтекстов, неявно присутствующих в отдельном документе или их выбранной совокупности. Получающиеся таблицы списков терминов, с указанием абсолютного (в обычных числах) и относительного (в ‰, промилле) количества их встречаемости в тексте, мы называем «терминограммами» (по аналогии с «рентгенограммами»). Поиск может проводиться одновременно по 1, 2 или 3 корзинам ресурсов. Обеспечивается поддержка двух видов этого поиска и различных форм презентации его результатов:

1.2.1. абсолютный частотный, результатом которого является частотно-ранжированный список существительных, входящих в ресурсы области поиска и приведенных к нормальной форме (именительный падеж, единственное число).

1.2.2. относительный частотный, результатом которого является частотно-ранжированный список существительных, входящих только в те абзацы первичного текста, которые содержат заданный пользователем термин (тем самым список строится «относительно» этого термина).

Все термины, входящие в итоговую терминограмму, являются активными; «кликнув» по любому из них, можно выйти на уже сформированный абзацно-ориентированный запрос по данному термину, и эксплицировать его микроконтекст.

Эти виды частотного поиска могут использоваться для целей текстологического анализа документа; для выявления и описания предметной области документа; для составления списка ключевых слов; для сравнительного анализа предметных областей различных авторов или различных документов; для проверки на плагиат и т.д.

2. Сервисы электронной библиотеки для информационной поддержки анализа управленческих документов, образовательной и научной деятельности

2.1. Содержательная аналитика управленческих документов

Комитет по культуре Архангельской области с 1997 по 2010 г. издавал «Информационный бюллетень». 50 выпусков бюллетеня, каждый объемом около 25 уч.-изд. листов, содержат более 600 документов (докладов, статей, аналитических обзоров, методических разработок, нормативных актов и т.п.) по актуальным вопросам региональной культурной политики. Имеются как бумажная, так и электронная полнотекстовая версии этого бюллетеня. Ежегодно каждая подведомственная комитету организация (около 20 областных учреждений культуры) сдает содержательный отчет о своей деятельности, электронная полнотекстовая версия которого в среднем занимает объем в 50–60 страниц. Имеется большое количество других информационных ресурсов, накапливаемых в ходе деятельности органа управления культурой, но не входящих в систему служебного документооборота.

На наш взгляд, место такого рода ресурсам – в специализированной электронной библиотеке с возможностями тематизируемого полнотекстового поиска. Ниже приведен пример использования такой библиотеки, функционировавшей в Архангельском областном центре повышения квалификации специалистов культуры в 2006–2011 гг. На рис. 1 и рис. 2 приведены скриншоты результатов многослойного запроса «Фестивали Архангельской области».

Рис. 1. Скриншот результата многослойного тематического запроса «Фестивали Архангельской области». Найдено 16 абзацев в 9 документах, удовлетворяющих параметрам запроса: все три слоя актуальны, расстояние между терминами из разных слоев не более 8 слов. Поиск проводился по всей электронной библиотеке (1756 полнотекстовых документов, без их предварительной селекции).

Рис. 2. Скриншот с полным текстом одного из найденных абзацев (из статьи И.А.Гурьевой в инф. бюллетене «Экология культуры», см. вверху эл. карточку). Рядом с текстом абзаца показаны также нетекстовые объекты (диаграммы), расположенные в соответствующем документе на 1 абзац выше и на 3 абзаца ниже найденного абзаца.

Варьируя параметры запроса, можно легко получить другое количество релевантных абзацев/документов. Например, уменьшив расстояние между терминами, находящимися в разных слоях, до 1 слова (чтобы найти только те абзацы, где все три слова из «Фестивали Архангельской области» примыкают друг к другу), мы получим в результате 2 абзаца в 1 документе.

Можно одним «кликом» открыть полные тексты абзацев найденных документов (см. рис. 2).

2.2. Тематизация материала для образовательной деятельности

Такого рода сервисы полнотекстового поиска могут быть использованы также для тематических подборок материала при осуществлении образовательной деятельности: подготовки лекций, экскурсий, методических пособий и т.д. На рис. 3 приводятся результаты запроса по теме «Новодвинская крепость» (использовался при подготовке материала для различных мероприятий Архангельского краеведческого музея).

Рис. 3. Скриншот с результатами двуслойного запроса «Новодвинская крепость» по всем полнотекстовым ресурсам (1756 документов) электронной библиотеки. Расстояние между терминами не более двух слов. Найдено 43 абзаца в 13 документах.

Далее можно раскрыть каждый из найденных абзацев, оценить их с точки зрения пользователя, написать соответствующий комментарий, сохранить оценку (см. на рис. 2 соответствующие опции: Оценка абзаца, Комментарий, Сохранить оценку), затем вернуться на страницу с результатами запроса и нажать кнопку Собрать тему. Получим файл с тематической подборкой абзацев, который можно записать на флэшку или распечатать, и затем использовать в дальнейшей работе.

2.3. Экспликация смыслового контекста для гуманитарных исследований

Возможности полнотекстового поиска могут быть использованы для гуманитарных научных исследований – например, для экспликации терминологических полей (горизонтальных и вертикальных контекстов). Это сделано нами при экспериментальной разработке темы «Экспликация концепта фактуальности в философии Н.А.Бердяева».

С помощью относительного частотного поиска (опорный термин «факт») можно предварительно выявить смысловой макроконтекст, в котором существует концепт «факт» в философских текстах Н.А.Бердяева в целом или в тексте отдельного произведения. В частности (см. ниже рис. 4), для исследуемых работ, содержащих термин «факт» (24 произведения) в смысловую окрестность «факта» попадают, в порядке убывания частотности, следующие термины: 1. «жизнь» (850 раз, 7,034 ‰), 2. «мир» (811 раз, 6,711 ‰), 3. «человек» (788 раз, 6,251 ‰), 4. «дух» (484 раза, 4,005 ‰), 5. «Бог» (483 раза, 3,997 ‰ ), 6. «сознание» (401 раз, 3,318 ‰), 7. «свобода» (377 раз, 3,120 ‰), 8. «факт» (366 раз, 3,029 ‰), 9. «философия» (324 раза, 2,681 ‰), 10. «история» (311 раз, 2,574 ‰).

Рис. 4. Скриншот с результатами относительного частотного запроса по трем корзинам ресурсов (Бердяев, 32 работы; Лосев, 4 работы; Кант, 5 работ) на глубину в 30 терминов; показаны первые 11 терминов в каждой из корзин. Покрашен и выделен полужирным шрифтом термин, относительно которого произведен запрос («факт»).

Опираясь на эти результаты, можно далее с помощью абзацно-ориентированного поиска осуществить экспликацию горизонтальных микроконтекстов (в пределах авторского абзаца), коррелирующих с концептом «факт».

Можно использовать многослойный запрос. В один слой ввести термин «факт», в два других – термины из бердяевской терминограммы (например, «мир» и «человек»), выбрать дополнительные параметры фокусировки запроса (все 3 слоя актуальны, расстояние между терминами не более 8 слов) и получить результат: 7 абзацев в 4-х произведениях. См. рис. 5.

Рис. 5. Скриншот с одним из результатов трехслойного абзацно-ориентированного запроса по произведениям Н.А.Бердяева. Поисковые термины «факт», «мир», «человек» (взяты из соответствующей терминограммы); дополнительные параметры фокусировки запроса: все 3 слоя обязательны, расстояние между терминами в разных слоях не более 8 слов. Эти термины (в предложении «Гуманизм послушен факту рабства человека у природного мира») покрашены красным цветом на желтом фоне. Синим фоном покрашены эти же поисковые термины, присутствующие в абзаце, но не удовлетворяющие дополнительным условиям фокусировки запроса.

Экспертная оценка этого и других найденных абзацев говорит о высокой степени релевантности результатов полнотекстового запроса (эксплицируются микроконтексты концепта фактуальности, связанные с темами «гуманизм и факт рабства человека у природного мира»; «факт самосознания человека и трансцендентность сознания» и т.д.).

Выбирая другие термины из терминограмм Бердяева (например, «факт» + «сознание» + «свобода»; или «факт» + «философия» + «история» и т.д.), включая их в абзацно-ориентированные запросы и варьируя условия их фокусировки, можно эксплицировать самые разные семантические микроконтексты в рамках разработки темы «Проблема факта в философии Бердяева». Mutatis mutandis сказанное относится к другим авторам – например, терминограммам Лосева и Канта и соответствующим абзацно-ориентированным запросам по их произведениям. Это дает, в свою очередь, материал для гносеологической компаративистики.

Заключение

Дальнейшее развитие подобных информационных сервисов мы связываем с интеллектуализацией поисковых и презентационных возможностей электронной полнотекстовой библиотеки: семантическим картированием, включением тезаурусов в полнотекстовый поиск, разработкой комбинированных и каскадных запросов и т.д.

Это направление развития может быть дополнено интеграцией полнотекстовых ресурсов и сервисов в составе распределенной информационной среды регионального и/или отраслевого уровня [3], [4], [5], а также сервисов электронной библиотеки с сервисами электронных коллекций и других баз данных [6], [7].



Издание научных монографий от 15 т.р.!

Издайте свою монографию в хорошем качестве всего за 15 т.р.!
В базовую стоимость входит корректура текста, ISBN, DOI, УДК, ББК, обязательные экземпляры, загрузка в РИНЦ, 10 авторских экземпляров с доставкой по России.

creativeconomy.ru Москва + 7 495 648 6241



Источники:
Ляпин, С.Х., Куковякин, А.В. Многоязычный поиск в электронной библиотеке и его реализация в ИС T-Libra 6.x. XI Межд. конференция EVA-Moscow 2008, Москва, 1-5 декабря 2008 года. [Эл. ресурс] http://conf.cpic.ru/upload/eva2008/reports/doklad_1389.doc;

См. демоверсию электронной библиотеки по адресу http://demo.tlibra.ru

Ляпин, С.Х., Куковякин, А.В. Презентация проекта "Распределенная межмузейная электронная библиотека". Видеоконференция Российской ассоциации электронных библиотек (НП «ЭЛБИ»), 08 апреля 2011 года, [Эл. ресурс]: http://www.aselibrary.ru/conference/conference43/conference432039;

Ляпин, С.Х., Куковякин, А.В. Распределенная электронная библиотека: новые подходы к интеграции ресурсов и сервисов. Тезисы доклада на конференции EVA-2011 Москва, Российская государственная библиотека, 30 ноября 2011 года. [Эл. ресурс]: https://eva.rsl.ru/ru/2011/report/list/973/all/82?page=3.

Ляпин, С.Х. Как пройти в распределенную библиотеку? // ж. «Современная наука: актуальные проблемы теории и практики». Серия Гуманитарные науки, № 7-8, 2012, июль-август, с. 17-21.

Ляпин, С.Х., Куковякин, А.В. . Функциональная интеграция библиотеки, коллекций, энциклопедии и веб-сайта в распределенной информационной среде // Труды XI Всеросс. объединенной конференции «Интернет и современное общество» (IMS-2008). – 28-30 окт. 2008 г., Санкт-Петербург, СПбГУ. – Изд. Института искусств Факультета филологии и искусств СПбГУ, 2008, с. 72-75. [Эл. ресурс]: http://old.conf.infosoc.ru/2008/pdf_HI/Lyapin&Kukovyakin.pdf

Ляпин, С.Х., Куковякин, А.В. Памятники с полнотекстовой поддержкой: интеграция ресурсов и сервисов региональной БД “Памятники истории и культуры Архангельской области” и электронной полнотекстовой библиотеки // Тезисы доклада на XIV международной конференции EVA-2012 Москва, 26-28 ноября 2012 года. [Эл. ресурс]: https://eva.rsl.ru/ru/2012/report/list/1065