Московский государственный университет имени М.В.Ломоносова
Опубликован: 05.11.2008 | Доступ: свободный | Студентов: 1337 / 258 | Оценка: 4.32 / 4.15 | Длительность: 11:59:00
ISBN: 978-5-9963-0007-5
Специальности: Программист
Лекция 4:

Онтологии верхнего уровня: отличительные черты

< Лекция 3 || Лекция 4: 12 || Лекция 5 >

4.3. SUMO

SUMO (Standard Upper Merged Ontology) - онтология верхнего уровня, разработанная в рамках проекта IEEE SUO (IEEE Standard Upper Ontology) и Teknowledge. Проект претендует на статус стандарта для онтологий верхнего уровня (http://ontologyportal.org/).

Онтология SUMO содержит наиболее общие и самые абстрактные концепты, имеет исчерпывающую иерархию фундаментальных понятий (около 1 тыс.), а также набор аксиом (примерно 4 тыс.), определяющих эти понятия. Назначение SUMO - содействовать улучшению интероперабельности данных, извлечения и поиска информации, автоматического вывода и обработки естественного языка. Онтология охватывает следующие области знания: общие виды процессов и объектов, абстракции (теория множеств, атрибуты, отношения), числа и единицы измерения, временные понятия, части и целое, агенты и намерения. SUMO является "канонической" онтологией верхнего уровня: содержит обозримое число концептов и аксиом, имеет ясную иерархию классов, легко расширяется, является итогом объединения различных общедоступных онтологий верхнего уровня (в том числе онтологии Джона Совы (J. Sowa's ontology), о которой речь пойдет ниже). К преимуществам SUMO можно отнести возможность трансляции описания онтологии на любой из основных языков представления знаний, наличие онтологии среднего уровня (MILO), гладко интегрированной с SUMO, несколько дюжин примеров практического применения, а также связь с WordNet - наиболее крупным на настоящий момент тезаурусом, содержащим около 150 тыс. слов английского языка.

Иерархия классов SUMO

Рис. 4.3. Иерархия классов SUMO

Иерархия классов в SUMO (рис. 4.3) менее запутана, чем в OpenCyc, и, возможно, более удобна для практического применения, чем DOLCE. Основными концептами, как во многих онтологиях верхнего уровня, являются Сущность и ее категории - Физический и Абстрактный. Первая категория включает всё, что имеет положение в пространстве-времени, а вторая - все остальное (а точнее только то, что существует в сознании). Физический делится на Объект и Процесс, что соответствует подходу, реализованному в DOLCE. Непосредственно под концептом Объект находятся два непересекающихся понятия: СвязныйОбъект и Коллекция. Первое обозначает любой объект, все части которого непосредственно или косвенно связаны друг с другом. Концепт СвязныйОбъект разделен на два концепта: НепрерывныйОбъект и ДискретныйОбъект. НепрерывныйОбъект характеризуется тем, что все его части (вплоть до самого низкого уровня деления) имеют такие же свойства, как и целое. Такие субстанции, как вода и глина могут быть подклассами концепта НепрерывныйОбъект, так же как и поверхности и географические области. Ниже на диалекте SUO-KIF языка KIF записаны формальные аксиомы, определяющие различие между концептами НепрерывныйОбъект и ДискретныйОбъект.

А1. (=> 
(and 
   (subclass-of ?OBJECTTYPE НепрерывныйОбъект)
   (instance-of ?OBJECT ?OBJECTTYPE)
   (part-of ?PART ?OBJECT))
(instance-of ?PART ?OBJECTTYPE))

А2. (equal ДискретныйОбъект (ComplementFn НепрерывныйОбъект)

Аксиома А1 формализует утверждение "Если PART является частью объекта OBJECT, являющегося, в свою очередь, экземпляром некоторого подкласса OBJECTTYPE класса НепрерывныйОбъект, то PART, как и OBJECT, является экземпляром класса OBJECTTYPE ". Аксиома А2 постулирует факт, что классы ДискретныйОбъект и НепрерывныйОбъект являются взаимодополняющими.

Коллекции в SUMO отделены от СвязныхОбъектов. Коллекции строятся из несвязанных частей и с использованием отношения ЧЛЕН-КОЛЛЕКЦИЯ между частями и соответствующей им коллекцией. Здесь, так же как в OpenCyc, проводится разграничение понятий Коллекция, Класс и Множество. Предикат " быть членом коллекции " отличен от предикатов " быть экземпляром класса " и " быть элементом множества ", относящих объекты к понятиям Класс или Множество, которым они соответствуют. В отличие от Классов и Множеств, Коллекции занимают некоторое положение в пространстве-времени (они не абстрактны, как в OpenCyc, а материальны), члены могут добавляться и удаляться из коллекции, не меняя ее идентичности. Примеры Коллекций: ящики с инструментами, футбольные команды, отары овец.

Возвращаясь к концептам уровня Физический - Абстрактный, обсудим ветвь Абстрактный. Категория Абстрактный разделяется на Множество, Утверждение, Величина и Атрибут.

  • Множество - обычное понятие теории множеств, включает Класс, который, в свою очередь, имеет подкласс Отношение. Класс понимается как множество со свойством или пересечением свойств, которые определяют принадлежность к Классу, Отношение есть Класс упорядоченных пар. Отношение по смыслу ближе к Классу, чем к Множеству. Отношение ограничено только теми упорядоченными парами, которые описывают его содержимое.
  • Концепт Утверждение соответствует понятию семантического или информационного содержимого. Однако SUMO не накладывает никаких ограничений на это содержимое. Это более общее понятие, чем используемое в большинстве онтологий; почти невозможно принципиально разделить абстрактное содержимое, выраженное одним предложением, и абстрактное содержимое, выраженное многочисленными речевыми единицами. Примеры Утверждений: краткое изложение рассказа, музыкальное содержимое напечатанной партитуры.
  • Понятие Атрибут включает все количества, свойства и т.д., которые не представимы как Объекты. Например, вместо того чтобы делить класс Животные на ЖивотныеЖенскогоПола и ЖивотныеМужскогоПола, создаются экземпляры Женский и Мужской класса БиологическийАтрибут, который является подклассом Атрибута.
  • Наконец, Величина разделяется на Число и ФизическаяВеличина. Первое понимается как независящая от системы измерения величина, а второе - как составная величина, состоящая из Числа и конкретной единицы измерения.

Аксиомы ограничивают интерпретацию концептов и предоставляют основу для систем автоматизированного рассуждения, которые могут обрабатывать базы знаний, соответствующие по своей структуре онтологии SUMO. Пример аксиомы: "Если C является экземпляром процесса горения, то существуют выделение тепла H и излучение света L такие, что оба они - H и L - являются подпроцессами C ". Более сложные предложения говорят, что процессы выделения тепла и излучения света сопутствуют каждому процессу горения. Аксиомы кодируются в SUMO на формальном логическом языке SUO-KIF.

4.4. Онтология Дж. Совы

Онтология Джона Совы (J. Sowa's ontology), предложенная им в книге "Knowledge Representation: Logical, Philosophical, and Computational Foundations", определяет базовые онтологические категории, полученные автором из источников по логике, лингвистике, философии и искусственному интеллекту (http://www.jfsowa.com/ontology/).

Для того чтобы сохранить открытость, онтология, по мнению Совы, должна быть основана не на фиксированной иерархии концептов, а на каркасе, описывающем различия, по которым иерархия генерируется автоматически. В любом конкретном приложении "концепты не определяются рисованием линий на диаграмме, а задаются выбором подходящего множества различий".

Таблица 4.1. Онтологические категории верхнего уровня, предложенные Джоном Совой
Физический Абстрактный
Континуальный Происходящий Континуальный Происходящий
Независимый Объект Процесс Схема Скрипт
Относительный Слияние Участие Описание История
Опосредованный Структура Ситуация Причина Цель

Кроме приведенных в табл. 4.1 категорий в онтологии есть еще два понятия. Сущность не определяет никаких отличительных признаков или различий и является надтипом для всех других концептов. Второе понятие - Абсурдный тип, наследующий все возможные, в том числе противоречащие, различия. Ни один экземпляр не может иметь этот тип. В онтологии также проводится различие между абстрактным и физическим (именно в таком виде оно заимствовано разработчиками SUMO). Отдельно выделяются категории независимости, относительности и опосредованности. "Независимые" сущности не нуждаются в существовании каких-либо связей с другими сущностями. Любая "Относительная" сущность обязательно имеет хотя бы одну связь с некоторой другой сущностью. Для существования "Опосредованной" сущности необходимо наличие некоторого отношения, которое связывает какие-то другие сущности, имеющие отношение также и к первой (например, бракосочетание). Онтология Джона Совы описывает роли и отношения, агентов, процессы и т.д.

4.5. Верхние уровни WordNet

WordNet - один из наиболее полно разработанных тезаурусов общего назначения. Здесь мы рассмотрим верхние уровни WordNet как онтологию. Подробное описание структуры WordNet будет изложено в других разделах. Центральным объектом в WordNet является синсет - множество синонимов (или синонимический ряд). WordNet содержит около 70 тыс. синсетов, организованных в иерархию по отношению ПОДКЛАСС-НАДКЛАСС (в лингвистике это отношение чаще называется гипонимией ). Часть иерархии WordNet, связанная с материальными предметами, представлена на рис. 4.4. Здесь можно сразу отметить, насколько верхние уровни WordNet более прозрачны и понятны по сравнению с онтологией Cyc. Для каждого понятия (синсета) есть указатель на существительные, представляющие его части. Например, части для понятия птица представляются понятиями клюв, крылья и т.д. Подобные указатели реализуют отношение ЧАСТЬ-ЦЕЛОЕ ( меронимию ).

Верхние уровни иерархии синсетов существительных в WordNet

Рис. 4.4. Верхние уровни иерархии синсетов существительных в WordNet

В целом WordNet можно представить как сеть, в узлах которой находятся синсеты - лексикализованные понятия. Основными типами связей между узлами являются гипонимия и меронимия.

В WordNet существуют и другие виды связей (например, от существительного к глаголу, чтобы представить функции; или от существительного к прилагательному, чтобы представить свойства), но не все они реализованы. Эта онтология не имеет аксиом.

Из рис. 4.4 видно, что некоторые понятия "ошибочно" попали на верхние уровни иерархии. Достаточно рассмотреть ряд таксонов ( Вещество - Артефакт - Пища (?) - Природный объект ) или ( Человек (?) - Растение - Животное ). По всей видимости, такие "несоответствия" есть результат сильной зависимости структуры онтологии от языка. Можно было бы поместить синсет Человек под синсет Животное, но либо эти синсеты имеют несовместимые субиерархии, либо в текстах слова Человек и Животное имеют сильно отличающиеся контексты употребления.

Таблица 4.2. 25 синсетов существительных верхнего уровня WordNet
{Act, action, activity}
{Animal, fauna}
{Artifact}
{Attribute, property}
{Body, corpus}
{Cognition, knowlrdge}
{Communication}
{Event, happening}
{Feeling, emotion}
{Food}
{Group, collection}
{Location, place}
{Motive}
{Natural object}
{Natural phenomenon}
{Person, human being}
{Plant, flora}
{Possession}
{Process}
{Quantity, amount}
{Relation}
{Shape}
{State, condition}
{Substance}
{Time}

Сравнение онтологий верхнего уровня

Поскольку онтологии верхнего уровня описывают самые общие знания об окружающем мире, они во многом похожи. Так, во всех онтологиях проводится разделение сущностей на абстрактные (такие сущности не могут занимать положения ни в пространстве, ни во времени) и реально существующие (материальные, осязаемые). Во всех онтологиях так или иначе присутствует деление на постоянные и временные (меняющиеся во времени) сущности, деление на объект и процесс. В онтологии Джона Совы это деление на "Континуальный" и "Происходящий", в DOLCE - "Постоянные" и "Происходящие", в SUMO - "Объект" и "Процесс".

В то же время даже на верхних уровнях наблюдаются существенные различия. В онтологии SUMO первично разделение на абстрактные и материальные сущности, а разделение на постоянные и временные - вторично. В DOLCE на верхнем уровне производится разделение на постоянные, временные, абстрактные и качественные сущности. В онтологии Совы иерархии сущностей в явном виде нет: в ней описаны только различия, по которым понятия разделяются или группируются. В онтологии OpenCyc на верхнем уровне коллекция "Нечто" делится на "Неосязаемые" и "Индивиды", но экземпляры и тех и других могут быть как абстрактными, так и материальными объектами. Важной тенденцией является установление связей между различными онтологиями верхнего уровня и WordNet, что говорит о сближении двух подходов: формально-логического и лингвистического.

Контрольные вопросы

  1. Перечислите известные вам проекты онтологий верхнего уровня.
  2. Что такое универсалии?
  3. Чем существенно отличается отношение ПОДКЛАСС-НАДКЛАСС от отношения ЧАСТЬ-ЦЕЛОЕ?
< Лекция 3 || Лекция 4: 12 || Лекция 5 >