Главная » Бизнес » Документальные информационные системы

Документальные информационные системы

 

В развитии программного обеспечения СУБД в последние десятилетия прошлого века превалировало направление, связанное с фактографическими информационными системами, т. е. с системами, ориентированными на работу со структурированными данными. Были разработаны основы и модели организации фактографических данных, отработаны программно-технические решения по накоплению и физическому хранению таких данных, реализованы специальные языки запросов к базам данных и решен целый ряд других задач по эффективному управлению большими объемами структурированной информации. В результате основу информационного обеспечения деятельности предприятий и организаций к началу 90-х годов составили фактографические информационные системы, вобравшие в себя в совокупности колоссальный объем структурированных данных.

Вместе с тем создание и эксплуатация фактографических информационных систем требует либо изначально структурированных данных, таких, например, как отчеты датчиков в АСУ ТП, финансовые массивы бухгалтерских АИС и т. д., либо предварительной структуризации данных, как, например, в информационной системе кадрового подразделения, где все данные по сотрудникам структуризируются по ряду формализованных позиций — razgovorodele.ru. При этом зачастую структуризация данных требует больших накладных, в том числе и организационных расходов, что, в конечном счете, приводит к материальным издержкам информатизации. Кроме того, входные информационные потоки в целом ряде организационно-технологических и управленческих сфер представлены неструктурированными данными в виде служебных документов и иных текстовых источников. Извлечение из текстов данных по формализованным позициям для ввода в фактографические системы может приводить к ошибкам и потере части информации, которая в исходных источниках имеется, но в силу отсутствия в схеме базы данных адекватных элементов не может быть отражена в банке данных фактографических АИС.

В результате, несмотря на интенсивное развитие и распространение фактографических информационных систем, огромная часть неструктурированных данных, необходимых для информационного обеспечения деятельности различных предприятий и организаций, остается в неавтоматизированном или слабо автоматизированном виде. (Представлена в электронном виде в текстовых файлах, но без средств систематизации, обработки, анализа и эффективного поиска.) К таким данным относятся огромные массивы различной периодики, нормативно-правовая база, массивы служебных документов делопроизводства и документооборота.

Потребности в системах, ориентированных на накопление и эффективную обработку неструктурированной или слабоструктурированной информации привели к возникновению еще в 70-х годах отдельной ветви программного обеспечения систем управления базами данных, на основе которых создаются документальные информационные системы. Однако теоретические исследования вопросов автоматизированного информационного поиска документов, начавшись еще в 50-х-60-х годах, к сожалению, не получили такой строгой, полной и в то же время технически реализуемой модели представления и обработки данных, как реляционная модель в фактографических системах. Не получили также стандартизации (как язык SQL) и многочисленные попытки создания универсальных так называемых информационно-поисковых языков, предназначенных для формализованного описания смыслового содержания документов и запросов по ним. В итоге, несмотря на то, что первые системы автоматизированного информационного поиска документов появились еще в 60-х годах, развитые коммерческие информационно-поисковые системы, ориентированные на накопление и обработку текстовых документов, получили распространение лишь в конце 80-х — начале 90-х годов.

Общая характеристика и виды документальных информационных систем
Семантические языки

Информационно-поисковые каталоги основаны на классификации сведений по определенной предметной области и исторически были первыми системами информационного поиска документов в библиотечном и архивном деле, возникнув еще в средние века по сложившейся тогда схеме разделения наук и искусств.

Информационно-поисковые каталоги и тезаурусы. Классификационные системы поиска документов
Систематизированная классификация
Фасетная классификация

Еще одним аспектом развития систем классификации и поиска документов является координация понятий (классов, рубрик), выражающаяся в использовании различных операций над совокупностью понятий при индексировании документов или при поиске документов.

Координация понятий в классификационных системах

 

Внешним отличием информационно-поисковых тезаурусов от информационно-поисковых каталогов на основе предметной иерархической рубрикации со связями и ролевыми отношениями является то, что в тезаурусах помимо классификационной схемы присутствуют сами ключевые слова и дескрипторы, объединяемые под названием классов, рубрик и т. д. В каталогах же присутствуют только лишь обозначения (названия) классов, понятий и т. д., но не определены и нет самих ключевых терминов, им соответствующих.

Информационно-поисковые тезаурусы

Важным в практическом плане аспектом информационно-поисковых систем являются технологии, принципы и механизмы индексирования документов применительно к той или иной классификационной схеме.

Автоматизация индексирования документов
Полнотекстовые информационно-поисковые системы
Информационно-технологическая структура полнотекстовых ИПС

В полнотекстовых ИПС поиск документов осуществляется по индексу системы через дескрипторный язык запросов с логическими операциями над словоформами, а также через другие механизмы использования поисковых образов документов и запросов. Отличительной особенностью поиска документов по индексу является практическая независимость времени (скорости) поиски от объема базы документов, особенно если используется статический словарь.

Механизмы поиска документов в полнотекстовых ИПС

Количественные показатели релевантности — процент соответствия содержимого документа запросу, ранжирование (самый релевантный документ, менее релевантный, еще менее релевантный) и т. п., позволяют существенно увеличить конечную эффективность использования документальной системы, предоставляя пользователю возможность после отбора документов сразу сосредоточиваться на наиболее важных из них.

Методы количественной оценки релевантности документов
Гипертекстовые информационно-поисковые системы
Структура, принципы построения и использования гипертекстовых ИПС

К сожалению, несмотря на интенсивное развитие и всеобщее распространение в последнее десятилетие гипертекстовых технологий, к настоящему времени еще не проработана полностью формализованная модель организации гипертекстовых данных, которая бы обеспечивала формализованные процедуры синтеза (разработки, проектирования) и анализа (использования) гипертекстовых ИПС — razgovorodele.ru. Причина этого заключается, как и в целом для всех типов документальных систем, в пока непреодолимых сложностях в формализованном описании смысла текстов на естественном языке.

Модель организации данных в гипертекстовых ИПС
Модель организации данных в гипертекстовых справочных системах Microsoft Windows
Формирование связей документов в гипертекстовых ИПС

В технологиях автоматизированного формирования гипертекстовых связей документов сливаются все подходы, наработанные в сфере документальных информационных систем для формализации смыслового содержания текстовых документов.