Московский государственный университет имени М.В.Ломоносова
Опубликован: 05.11.2008 | Доступ: свободный | Студентов: 1338 / 258 | Оценка: 4.32 / 4.15 | Длительность: 11:59:00
ISBN: 978-5-9963-0007-5
Специальности: Программист
Лекция 10:

Информационно-поисковые тезаурусы и автоматическая обработка текстов

Аннотация: Данная лекции разделена на подпункты рассматривает: тезаурус для автоматического концептуального индексирования как особый вид тезауруса, тезаурус для автоматического концептуального индексирования как ресурс для решения информационно-поисковых задач, технология автоматической рубрикации текстов с использованием тезауруса для автоматического концептуального индексирования и т.д. Приведены примеры

10.1. Тезаурус для автоматического концептуального индексирования как особый вид тезауруса

Отличительные особенности тезауруса для автоматического концептуального индексирования

Основной целью разработки традиционных информационно-поисковых тезаурусов является использование их единиц (дескрипторов) для описания основных тем документов в процессе ручного индексирования. По своей сути тезаурус для ручного индексирования является искусственным языком описания, построенным на основе естественного языка. При этом сам процесс индексирования по такому тезаурусу базируется на лингвистических, грамматических знаниях, а также знаниях о предметной области, которые имеются у профессиональных индексаторов текстов. Индексатор сначала должен прочитать текст, понять его и затем изложить содержание текста, пользуясь дескрипторами информационно-поискового тезауруса. Индексатор должен хорошо понимать всю терминологию, использованную в тексте, - для описания основной темы текста ему понадобится значительно меньшее количество терминов.

При автоматической обработке текстов человека - посредника между текстом и описанием его содержания в виде дескрипторов нет. Есть только автоматический процесс и Тезаурус, который должен содержать и те знания, которые содержатся в традиционных информационно-поисковых тезаурусах, и те знания (насколько это возможно), которые использует индексатор для определения основной темы текста.

Именно поэтому традиционные тезаурусы, разработанные для ручного индексирования, трудно использовать при автоматическом индексировании.

Разработка тезауруса для автоматического индексирования (далее - АИ тезауруса) характеризуется прежде всего необходимостью описания значительно большего количества слов и словосочетаний, встречающихся в текстах данной предметной области. АИ тезаурус должен не только включать термины, которые представляют важные понятия в текстах данной предметной области, но также охватывать широкий круг более специфических терминов, обнаружение которых в конкретном тексте сделает этот текст релевантным запросу по понятиям более высокого уровня. Например, должны быть описаны не только дескриптор РЫБА и его основные подразделения, такие как МОРСКИЕ РЫБЫ, АНАДРОМНЫЕ РЫБЫ и т.п., но и значительное количество конкретных видов рыб, с тем чтобы текст, обсуждающий проблемы вылова минтая, мог бы быть получен при поиске по термину рыба.

Синонимические ряды понятий должны быть значительно богаче, чем совокупности вариантов дескриптора в тезаурусе для ручного индексирования, поскольку синонимы должны описывать различные способы выражения данного понятия в тексте для автоматического процесса, а не для человека. Ряды синонимов включают в себя не только существительные и именные группы, а также прилагательные, глаголы и глагольные группы. Расширение терминологической базы АИ-тезауруса ведет к необходимости описания многозначных терминов.

Расширение понятийной базы тезауруса ведет к увеличению и усложнению функций отношений между понятиями тезауруса (концептуальными отношениями): возникает необходимость логического вывода отношений, поскольку описать отношения всех дескрипторов со всеми близкими дескрипторами АИ-тезауруса становится трудоемким занятием и затрудняет проверку таких описаний.

Общественно-политический тезаурус как ресурс для автоматического концептуального индексирования текстов

С 1994 года в АНО ЦИИ (Автономная некоммерческая организация Центр информационных исследований) началась разработка Общественно-политического информационно-поискового тезауруса (русскоязычного) как ресурса для автоматического индексирования. Общественно-политический тезаурус включает в себя терминологию экономической, политической, военной, финансовой, законодательной, социальной, культурной и других сфер деятельности - терминологию, которая встречается в таких общезначимых документах, как официальные и законодательные документы, международные договоры, сообщения информационных агентств и газетные публикации.

Общественно-политический тезаурус представляет собой иерархическую сеть понятий, каждое из которых имеет ряд текстовых вариантов (способов языкового выражения) и совокупность отношений с другими понятиями тезауруса.

Предметная область тезауруса - это широкая политематическая область современных общественных отношений, проблем современного общества. Поэтому набор понятий Тезауруса соответствует понятийному содержанию и нормативных документов, и газетных публикаций, и в значительной степени - научных публикаций по общественным наукам.

С 1995 года Общественно-политический тезаурус активно и успешно применяется для различных приложений автоматической обработки текстов, таких как автоматическое концептуальное индексирование, автоматическое рубрицирование с использованием нескольких рубрикаторов, автоматическое аннотирование текстов.

В настоящее время Общественно-политический тезаурус включает 33 тысячи понятий, 87 тысяч русскоязычных слов, терминов, выражений, 130 тысяч отношений между понятиями.

Таблица 10.1. Сравнение Тезауруса Исследовательской службы Конгресса США (LIV) с Общественно-политическим тезаурусом
Характеристика Общественно-политический Тезаурус LIV
Число понятий 33 тысяч 6,8 тысяч
Число терминов 87 тысяч 9,8 тысяч
Термины, описанные как многозначные 4,5 тысяч Нет
Общее количество описанных отношений между понятиями 130 тысяч 15 тысяч
Количество отношений, полученных по логическим свойствам 700 тысяч Не определено

Отношения в информационно-поисковых ресурсах: альтернативы

В связи с обсуждением направлений развития информационно-поисковых тезаурусов и возможностей их эффективного использования в современных технологиях информационного поиска возникает вопрос: как должен измениться набор отношений традиционного информационно-поискового тезауруса, который в подавляющем большинстве случаев включает два отношения - ВЫШЕ-НИЖЕ и АСЦ (ассоциация).

Часто исследователи обсуждают возможность применения в информационно-поисковых тезаурусах и других ресурсах, предназначенных для информационного поиска, подходов, предлагаемых в рамках онтологических исследований.

Современные подходы к описанию отношений при разработке онтологий

Рассмотрим онтологию, предназначенную для работы в информационно-поисковых задачах и содержащую описания понятий предметной области (отношения между понятиями задаются в виде предикатов). Пусть свойства отношений (аксиомы вывода) описываются как правила вида if P(x1,:,xn) then Q(y1,:,ym).

Чтобы инициализировать эти правила, необходимо быть уверенным, что P(x1,:,xn) определяется с высокой точностью. При современном уровне развития систем автоматической обработки текстов в большой разнородной коллекции не для любых типов предикатов P(x1,:,xn) можно гарантировать приемлемый уровень точности и полноты их нахождения.

Например, различные аргументы предиката P(x1,:,xn) могут оказаться в разных частях длинного предложения, что значительно усложнит сборку предиката, или в разных предложениях текста, например, из-за использования эллиптической конструкции или местоимения и т.п. Проблемы с правильной идентификацией аргументов предикатов в текстах могут свести к нулю возможные преимущества применения знаний, описанных в онтологиях, по сравнению с пословным поиском.

Среди потенциального множества отношений понятия наиболее стабильно можно опираться на те отношения, которые не исчезают, не меняются в течение всего срока существования любого или подавляющего большинства экземпляров понятия. Например, любой лес всегда состоит из деревьев.

Наиболее известным типом отношения, которое выполняется для всех экземпляров, является таксономическое отношение. Так, если С1 упомянуто в тексте и С1 является видом С2, это означает, что в тексте упомянуто и С2. Если данный текст релевантен запросу о С1, то он будет релевантен и запросу о С2.

В условиях невозможности использования сложных правил вывода для осуществления вывода по тексту желательно найти другие типы отношений, обладающие свойствами транзитивности и наследования, подобно таксономическим отношениям. Проблема рассмотрения взаимного сосуществования понятий является центральной в теории зависимости философской дисциплины "формальная онтология".

Отношения онтологической зависимости

Теория зависимости является одним из основных инструментов анализа сущностей в рамках философской дисциплины - онтологии. Главный вопрос теории зависимости: может ли сущность ( С1 ) существовать сама по себе или подразумевает существование чего-либо еще ( С2 ).

  • Строгая зависимость: существование одной сущности С1 подразумевает ли существование какой-либо конкретной сущности С2?

    Например, кипение ( С1 ) невозможно без существования конкретного объема жидкости ( С2 ), которая кипит.

  • Зависимость от класса: существование сущности С1 предполагает ли существование примеров (экземпляров) некоторого класса сущностей С2?

    Например, возникновение понятия гараж ( С1 ) невозможно без существования понятия автомобиль ( С2 ) как класса, хотя конкретный гараж может строиться безотносительно к конкретному автомобилю.

  • Историческая зависимость: существование сущности С1 в некоторый момент времени T1 предполагает ли существование сущности C2 в некоторый другой момент времени T2?

    Например, понятие солома ( С1 ) исторически зависит от понятия молотьба ( С2 ), поскольку солома не может возникнуть без предварительного процесса молотьбы; вместе с тем эти работы заканчиваются, а солома длительное время продолжает существовать.

Перечисленные выше типы отношений онтологической зависимости упорядочены по мере снижения объема пересечения сфер существования зависящего понятия и главного понятия.

При строгой зависимости зависимое понятие не может быть оторвано от конкретного экземпляра главного понятия, поэтому если возникает, существует, обсуждается конкретный пример такого жестко зависимого понятия, то существует и обсуждается пример главного понятия.

В случае зависимости от класса конкретный пример зависимого понятия может быть оторван от главного понятия, с ним может происходить что-то, не связанное с главным понятием, но обычно недолго и в относительно небольшой доле примеров зависимого понятия - например, в гараже может быть совершено преступление и оно может не иметь никакого отношения к автомобилям.

При исторической зависимости пример зависимого понятия может достаточно долго существовать без главного понятия и участвовать в самых разных ситуациях, - например, сельскохозяйственная продукция создается в процессе сельскохозяйственного производства, затем продукция значимое время живет "своей жизнью": перевозится, продается, хранится.

Подход к описанию отношений в Общественно-политическом тезаурусе

Набор отношений в Общественно-политическом тезаурусе специально подобран для эффективной работы в информационно-поисковых приложениях. Имеется четыре основных типа отношения.

  1. Первый тип отношений - родо-видовое отношение НИЖЕ-ВЫШЕ, оно обладает свойствами транзитивности и наследования.
  2. Второе тип отношений - отношение ЧАСТЬ-ЦЕЛОЕ. Используется не только для описания физических частей, но и для других внутренних сущностей понятия, таких как свойства или роли для ситуаций. Важным условием при установлении этого отношения является то, что понятия-части должны быть жестко связаны со своим целым, то есть каждый пример понятия-части должен в течение всего времени своего существования являться частью для понятия-целого и не относиться к чему-либо другому. В этих условиях удается выполнить свойство транзитивности введенного таким образом отношения ЧАСТЬ-ЦЕЛОЕ, что очень важно для автоматического вывода в процессе автоматической обработки текстов.
  3. Еще один тип отношения, называемый несимметричной ассоциацией ( АСЦ2-АСЦ1 ), связывает два понятия, которые не могут быть связаны вышерассмотренными отношениями, но одно из них не существовало бы без другого. Например, понятие САММИТ требует существования понятия ГЛАВА ГОСУДАРСТВА.
  4. Последний тип отношений - симметричная ассоциация - связывает, например, понятия, очень близкие по смыслу, но такие, которые разработчики не решились склеить в одно понятие.

Отношения ВЫШЕ-НИЖЕ, ЧАСТЬ-ЦЕЛОЕ и несимметричная ассоциация являются иерархическими отношениями. Таким образом, на основе свойств иерархичности, транзитивности и наследования для каждого понятия может быть определена совокупность понятий, которые являются для него нижестоящими понятиями по иерархии.

Таким образом, два отношения в тезаурусе из четырех существенно связаны с понятием онтологической зависимости. В количественном отношении эти два отношения занимают приблизительно половину из всех отношений тезауруса.