Главная » Информационное обеспечение » Тематические материалы » АИС6 » Механизмы поиска документов в полнотекстовых ИПС

Механизмы поиска документов в полнотекстовых ИПС

В полнотекстовых ИПС поиск документов осуществляется по индексу системы через дескрипторный язык запросов с логическими операциями над словоформами, а также через другие механизмы использования поисковых образов документов и запросов.

Принцип и механизм поиска документов по индексу системы очевидны. Пользователь должен указать путем перечисления и ввода в систему тех словоформ, набор которых выражает его информационные потребности. К примеру, если пользователю необходимо найти документы, содержание которых касается экспорта редкоземельных элементов, то запрос к системе может выглядеть следующим образом «экспорт редкоземельные элементы». В ответ система по индексу определит номера (группу) документов, где присутствует слово «экспорт», группу документов, где присутствует слово «редкоземельные», и группу документов, где присутствует слово «элементы». Ясно, что полнота и точность такого поиска будут оставлять желать много лучшего, так как в первой группе документов могут присутствовать в том числе и документы, в которых речь идет об экспорте чего-то другого, например леса, или об экспорте вообще — razgovorodele.ru. Во второй группе документов могут присутствовать документы, в которых речь идет, в том числе, о добыче или производстве редкоземельных элементов, но не об их экспорте. В третьей группе документов могут присутствовать и документы, в которых речь идет, скажем, о преступных элементах, что, конечно же, совершенно может не соответствовать благим информационным потребностям пользователя.

Слабая эффективность подобного способа выражения информационных потребностей преодолевается некоторыми реляиионными дополнениями такого чисто дескрипторного языка запросов на основе посткоординации, только не понятий, а словоформ. В язык запросов вводятся логические операции отношений дескрипторов запроса — операция логического «И», операция логического «ИЛИ», операция логического отрицания «НЕ».

Если словоформы запроса из приведенного выше примера объединить операцией логического «И», то система отберет только те документы, в которых одновременно присутствуют словоформы «Экспорт», «Редкоземельные», «Элементы». Несмотря на возможность ложной координации словоформ, такое усовершенствование чисто дескрипторного характера языка запросов приводит к существенному повышению эффективности поиска и предоставляет пользователю более развитые возможности по выражению своих информационных потребностей.

Следует также добавить, что подобные принципы построения языка запросов повышают требования к квалификации пользователя, в частности по пониманию и оперированию логическими операциями. Вместе с тем, как показывает практика, большинство так называемых «неподготовленных» пользователей способно самостоятельно осваивать и применять подобные, в общем-то, интуитивно понятные языковые конструкции.

На практике язык запросов полнотекстовой ИПС дополняется также операциями работы с датами и в ряде систем возможностями координатного анализа текста документов. Ранее неявно предполагалось, что единичным объектом поиска словоформ и соответственно областью действия логических операторов является документ, а не более мелкие его составляющие — абзацы, предложения. В системах с координатным анализом область действия логических операторов можно сужать вплоть до предложения. Примером таких возможностей является запрос на отыскание таких документов, где словоформы «экспорт», «редкоземельные», «элементы» присутствуют одно-временно (операция «И») внутри одного предложения — razgovorodele.ru. Координатный анализ позволяет еще более повысить эффективность поиска релевантных документов, но требует более детального индексирования. Для словоформ словаря системы в индексе должны при осуществлении координатного анализа фиксироваться не только номера документов, но номера абзацев, номера предложений и номера соответствующих словоформ в порядке следования слов в соответствующих предложениях.

Отличительной особенностью поиска документов по индексу является практическая независимость времени (скорости) поиски от объема базы документов, особенно если используется статический словарь. Для любого запроса, независимо от текущего объема базы документов, выполняется приблизительно одинаковое количество операций, связанных с просмотром строк индексного массива и определением совокупности номеров релевантных документов. Следующей стадией выполнения запроса является собственно извлечение из базы (файла документов) самих документов. Для этого обычно в полнотекстовой ИПС создается специальный массив (см. рис. 6.9) адресов начала расположения документов.

В системах с динамически поддерживаемыми словарями время поиска при увеличении объема базы документов сначала также увеличивается (т. к. пропорционально увеличивается объем словаря и, соответственно, объем индекса), а затем так же, как в системах со статическими словарями, перестает зависеть от объема базы документов. Это объясняется тем, что с некоторой границы объема базы документов словарь системы уже набирает практически полный набор словоформ, присущих конкретной предметной области, и вероятность появления в новом документе слова, которого еще не было в словаре системы, резко падает.

Как уже отмечалось, повышению эффективности поиска способствует морфологический разбор документов и запросов. Помимо существенного уменьшения объема словаря и, соответственно, индекса системы, морфологический разбор повышает и эффективность поиска, так как не реагирует на несущественные с точки зрения смыслового содержания грамматические различия искомого текста документов и запросов. Если вернуться опять-таки к примеру с запросом «экспорт редкоземельные элементы», то система с морфологическим разбором отберет не только те документы, в которых встречается буквальное сочетание словоформ «экспорт», «редкоземельные», «элементы», но и такие фразы, как «К вопросу об экспорте редкоземельных элементов», «Проблемы экспорта редкоземельные элементов» и т.п.

Морфологический разбор в принципе дает возможность пользователю формировать запросы на естественном языке. Система при обработке запроса удаляет из него все «стоп-слова», остальные словоформы нормализует и, оставляя пользователя в полной иллюзии о том, что она действительно его «понимает», выполняет таким образом выхолощенный запрос. Некоторое время тому назад наблюдалось сильное увлечение таким подходом, от которого, к счастью, вскоре разработчики полнотекстовых ИПС отошли. Использование якобы естественного языка запросов на самом деле не позволяет применять логические операторы и другие развитые возможности, связанные с координатным анализом местонахождения и контекстного окружения искомых слов, терминов, сочетаний и т. д.

Еще одной важной характеристикой поиска документов по индексу, в том числе с учетом логических операций посткоординации и морфологического разбора, является то, что такой поиск основывается на упрощенном детерминированном подходе. Иначе говоря, критерием поиска является вхождение или невхождение того или иного дескриптора-словоформы запроса в поисковый образ документа без учета общей «похожести» ПОД и ПОЗ. Масса остальных дескрипторов поискового образа документа не рассматривается. Поэтому в развитых полнотекстовых ИПС реализуются более тонкие и сложные алгоритмы поиска, основанные на сравнении ПОД и ПОЗ в целом по тем или иным критериям похожести, близости.

Такой подход позволяет предоставлять пользователям более эффективные возможности выражения своих информационных потребностей без их явной формализации и структуризации по словоформам. В частности, пользователь может поставить ИПС задачу поиска документов, «похожих» по содержанию на какой-либо другой (известный ему релевантный, точнее пертинентный — razgovorodele.ru) документ или фрагмент документа. В этом случае не только ПОД, но и ПОЗ представляют собой полномасштабные двоичные векторы, часть дескрипторов которых будет совпадать, а часть не совпадать, и возникнет необходимость в использовании более тонких критериев определения близости документов и запроса. Кроме того, становится возможным определение количественных мер (показателей) близости, т.е. релевантности документов и запросов.

Оставить комментарий