Московский государственный университет имени М.В.Ломоносова
Опубликован: 05.11.2008 | Доступ: свободный | Студентов: 1319 / 247 | Оценка: 4.32 / 4.15 | Длительность: 11:59:00
ISBN: 978-5-9963-0007-5
Специальности: Программист
Лекция 10:

Информационно-поисковые тезаурусы и автоматическая обработка текстов

Теоретические основы построения тематического представления

Популярной теорией в области автоматической обработки текстов является теория Т.А. ван Дейка - В.Кинча, которая указывает, что основная тема текста может быть описана некоторой пропозицией. Такая пропозиция называется макропропозицией. Основное содержание текста может быть представлено как иерархическая структура в том смысле, что тема всего текста может быть обычно описана посредством более конкретных тем текста, которые, в свою очередь, могут быть охарактеризованы посредством еще более конкретных подтем и т.п. Каждое предложение связного текста посвящено раскрытию той или иной подтемы основной темы текста.

Второе направление исследований базируется на автоматическом выявлении лексической связности текста. Какими бы отношениями не были связаны между собой предложения текста, часть слов, входящих в состав этих предложений, должны быть лексически связаны между собой, причем эти отношения между словами заранее известны автору и читателю текста.

Действительно, формулировка основной темы текста содержит некоторую совокупность слов, наиболее значимых для передачи содержания текста. Если рассмотреть текст, то можно видеть, что слова, близкие по смыслу к словам основной темы, образуют лексические цепочки, которые пронизывают весь текст. Естественно предположить, что если имеется лингвистический ресурс, в котором описаны разнообразные смысловые связи между словами, то можно двигаться по тексту, находить связанные по смыслу слова, формировать лексические цепочки. Самые частотные (или выделенные по другим критериям) цепочки могли бы показать, чему именно посвящен конкретный текст.

Предположим, что мы сформулировали основную тему некоторого текста. В ней упомянуты некоторые понятия и/или конкретные объекты текста. Подтемы текста раскрывают взаимоотношения между этими основными понятиями/объектами и поэтому должны тем или иным образом ссылаться на них, используя повторы слов, синонимы или другие слова, семантически связанные с понятиями основной темы (далее основные понятия текста). Таким образом, основным понятиям текста соответствуют некоторые совокупности слов текста (и совокупность понятий, стоящих за этими словами), которые используются в данном тексте для ссылки на эти основные понятия. Такие совокупности слов обычно пронизывают весь текст "красной нитью".

Если подтема текста раскрывается в более специфических подтемах, то для ссылки на основные понятия этой подтемы, в свою очередь, возникают более короткие "нити" слов. Таким образом, начало лексической цепочки нужно связывать не с началом текста, а с наиболее важным для содержания текста понятием, которое должно стать центром этой цепочки, а все элементы лексической цепочки должны быть прежде всего связаны лексическим отношением именно с этим центром (последователями подхода на основе WordNet также обсуждается необходимость нахождения центра лексической цепочки, правда, уже после ее формирования).

Предполагается, что более важные для текста понятия чаще всего так или иначе выделены в тексте относительно других близких им по смыслу понятий (например, частотностью, упоминанием в заголовке текста). Структура, в которой все понятия связаны по тезаурусу с одним и тем же понятием, называется тематическим узлом , а главное понятие тематического узла - тематическим центром. Собственно расположение в тексте слов, соответствующих этим тематическим узлам, и создает эффект лексических цепочек.

Сеть тематических узлов документа "Постановление Правительства РФ от 26 июня 1995 г. № 604"

увеличить изображение
Рис. 10.3. Сеть тематических узлов документа "Постановление Правительства РФ от 26 июня 1995 г. № 604"

Построение тематических узлов

Каждая тема, обсуждаемая в тексте, выражается обычно не одним термином, а совокупностью тематически близких терминов. Например, тема науки может развиваться в тексте посредством следующих терминов: математика, физика, прикладное исследование, фундаментальное исследование, научный работник. Тот термин, который наиболее точно характеризует развиваемую в тексте тему, обычно некоторым образом выделен из всей совокупности тематически близких терминов: может быть употреблен в заголовке и/или в начале текста, иметь максимальную частотность среди других тематически близких терминов.

Главным термином темы может стать любой термин Тезауруса, независимо от его уровня общности/специфичности. Так, главным термином темы текста может стать термин математика, если речь в тексте идет о развитии математики; или главным термином может стать термин научный работник, если речь в тексте идет об оплате труда научных работников или о выезде ученых за рубеж.

Напомним, что совокупность тематически связанных между собой дескрипторов с выделенным среди них главным дескриптором называется тематическим узлом .

Тематическая связанность терминов отображается в связях между соответствующими дескрипторами в тезаурусной проекции. Тезаурусная проекция обычно состоит из нескольких фрагментов связанных между собой дескрипторов. Каждый такой связный фрагмент может иметь достаточно сложную структуру, и в него могут входить далекие друг от друга дескрипторы. Таким образом, чтобы выделить тематические узлы, необходимо провести дополнительное разбиение тезаурусной проекции.

Как показали эксперименты, наиболее эффективно проводить разбиение следующим образом.

Создание тематического узла начинается с выбора главного дескриптора тематического узла. Сначала тематические узлы собираются вокруг дескрипторов заголовка и первого предложения текста. Затем тематические узлы собираются для остальных дескрипторов, начиная с самых частотных. Те дескрипторы, которые уже попали в тематический узел некоторого дескриптора, свой тематический узел не образуют.

После того как выбран главный дескриптор очередного тематического узла, в тематический узел включаются дескрипторы, непосредственно связанные с главным дескриптором тематического узла в тезаурусной проекции, и дескрипторы, связанные с главным дескриптором посредством такой совокупности тезаурусных связей, которые можно свести к одной связи путем применения свойств транзитивности и наследования.

Выделение основных тематических узлов

Для выявления основных тематических узлов производятся следующие процедуры:

  • в процессе сопоставления текста с тезаурусом для каждого понятия тезауруса, найденного в тексте, запоминаются его соседи - понятия влево и вправо. В экспериментах было установлено, что фиксация трех соседей вправо и влево представляется оптимальной. Такие пары понятий текста мы называем текстовыми связями понятия. Знак абзаца прерывает набор текстовых связей;
  • текстовые связи разных вхождений понятия в тексте суммируются. В результате мы получаем частотность текстовых связей понятий между собой;
  • в процессе создания тематических узлов текстовые связи каждого понятия в узле суммируются и получаются текстовые связи тематических узлов;
  • выбираются три тематических узла, суммарная частотность попарных текстовых связей между которыми является максимальной среди других треугольников текста. Это и есть первая тройка основных тематических узлов в тексте - центры этих основных тематических узлов являются элементами основной темы документа;
  • далее необходимо проверить, нет ли еще элементов основной темы документа. Для этого среди оставшихся тематических узлов отыскиваются тематические узлы, которые имеют текстовые связи как с уже полученными основными тематическими узлами, так и между собой;
  • таким образом, совокупность основных тематических узлов получена. Их текстовые связи образуют между собой симплексы - фигуры, в которых каждая вершина имеет ребро с другой вершиной (треугольник, пирамида и т.п.). Важная особенность выявления основных тематических узлов на основе симплексов текстовых связей - независимость процесса от размера, жанра и языка обрабатываемых текстов.

Эксперименты показали, что тематическое представление может быть построено для текстов любого размера и разнообразных типов. Тематические представления были построены для более 100 Мб официальных документов Российской Федерации, международных договоров, для большинства российских законов 1990-1997 гг. Тематические представления были также построены для более 50 Мб сообщений информационных агентств и газетных статей. Размеры обрабатываемых документов варьировались от 500 байт до более 500 Кб (Гражданский Кодекс Российской Федерации, Таможенный кодекс Российской Федерации).

Структура тематического представления

увеличить изображение
Рис. 10.4. Структура тематического представления

Тезаурус как поисковый механизм УИС РОССИЯ

Тезаурус существенно используется в интерфейсе УИС РОССИЯ для следующих задач терминологического поиска:

  • уточнения запроса, когда выбор более точного термина позволяет получать только требуемые документы, например, выбирая вместо всех типов СТРОИТЕЛЬСТВА именно ДОРОЖНОЕ СТРОИТЕЛЬСТВО (автодорожное строительство, дорожно-строительные работы, строительство дорог, строительно-дорожный и т.д.);
  • автоматического расширения запроса по синонимам ( НАЛОГОВАЯ СИСТЕМА - НАЛОГОВЫЙ РЕЖИМ ), а также по иерархии ( МИГРАЦИЯ - БЕЖЕНЦЫ, ВЫНУЖДЕННЫЕ ПЕРЕСЕЛЕНЦЫ и т.д.).

Структурная тематическая аннотация

Структурная тематическая аннотация представляет содержание текста посредством описания его основных тем, которые моделируются совокупностью терминов, относящихся к этим темам. Структурная тематическая аннотация содержит наиболее информативные фрагменты тематического представления текста, которое включает все термины текста, разбитые на тематические узлы и отношения между различными темами и подтемами текста.

Автоматическое построение связной аннотации

Знания человека о тематической связности между терминами вытекают из знаний о предметной области, в рамках которой написан текст. Таким образом, то новое и важное, что несет в себе текст и что должна отразить в себе аннотация, - это именно то, каким образом взаимодействуют между собой разные основные темы текста.

Отсюда следует первый принцип составления аннотаций: важными (информативными) и, следовательно, возможно включенными в аннотацию считаются те предложения текста, которые содержат по крайней мере два термина, входящих в состав разных основных тем текста.

Предложений, содержащих термины одних и тех же двух основных тем, в тексте может оказаться достаточно много. Для аннотации необходимо выделить одно предложение, в котором взаимодействие этих двух тем характеризуется "наилучшим образом".

Чтобы понять, что значит "наилучшим образом", рассмотрим, как та или иная тема развивается в тексте. Не все основные темы начинают обсуждаться в тексте сразу, с первого предложения, - часть из них возникает в последующих предложениях. Чтобы сохранить связность и последовательность изложения текста, автор именно в этом первом предложении новой темы должен наиболее точно указать связь новой темы со всем предшествующим текстом.

Таким образом, второй принцип составления аннотаций - для каждой пары выявленных основных тем текста выбрать в аннотацию те предложения, в которых эта пара обсуждалась первый раз, следуя по порядку текста.

Нужно отметить, что при хорошем покрытии предметной области Тезаурусом появление в очередном предложении новой темы выявляется весьма точно, а это означает, что связность получаемой аннотации в среднем весьма высока.

Контрольные вопросы

  1. Перечислите этапы автоматической обработки текстов на основе Тезауруса.
  2. Как моделируется связность текста?
  3. Каков принцип построения связной аннотации текста?