Московский государственный университет имени М.В.Ломоносова
Опубликован: 05.11.2008 | Доступ: свободный | Студентов: 1319 / 246 | Оценка: 4.32 / 4.15 | Длительность: 11:59:00
ISBN: 978-5-9963-0007-5
Специальности: Программист
Лекция 4:

Онтологии верхнего уровня: отличительные черты

< Лекция 3 || Лекция 4: 12 || Лекция 5 >
Аннотация: В данной лекции рассмотрена онтология верхнего уровня, приведены отличительные черты от других онтологий. Дано определение онтологии верхнего уровня, рассмотрены базовые типы отношений этой онтологии. Рассмотрены масштабные проекты онтологий верхнего уровня. Приведены примеры

Онтологии верхнего уровня

Пренебрегая незначительными различиями в определениях термина " онтология ", полученных из разных источников (и приведенных в лекции 1), в этом разделе под онтологией будем понимать систему, которая состоит из множества понятий, их определений и аксиом, необходимых для ограничения интерпретации и использования понятий. При решении прикладных задач онтология часто отождествляется с набором классов (понятий предметной области), связанных определенным набором отношений. Базовыми типами отношений являются ПОДКЛАСС-НАДКЛАСС (гипонимия), ЧАСТЬ-ЦЕЛОЕ (меронимия), ЭКЗЕМПЛЯР-КЛАСС, ПРИЧИНА-СЛЕДСТВИЕ, отношение зависимости и др.

В основном онтологии являются согласованными или разделяемыми (shared) ресурсами: содержимое онтологии может одновременно использоваться несколькими лицами, группами или сообществами. Онтологии верхнего уровня содержат знания здравого смысла (common sense) о моделируемом мире, формируя единую для онтологий нижних уровней систему понятий.

Рассмотрим и сравним наиболее масштабные проекты онтологий верхнего уровня.

4.1. OpenCyc

OpenCyc1OpenCyc - прикладная онтология, здесь рассматриваются только верхние уровни ее иерархии. - открытая для общего пользования часть коммерческого проекта Cyc, в рамках которого создана наиболее масштабная и детализированная на текущий момент онтология в области здравого смысла. База знаний OpenCyc содержит информацию из различных предметных областей: Философия, Математика, Химия, Биология, Психология, Лингвистика и т.д. Файл с описаниями OpenCyc имеет объем около 700 мегабайт и доступен для скачивания с сайта проекта (http://www.opencyc.com).

Ключевым понятием в онтологии OpenCyc является коллекция. Любая коллекция может содержать подколлекции и экземпляры. Таким образом, в OpenCyc определены два таксономических отношения: ПОДКОЛЛЕКЦИЯ-НАДКОЛЛЕКЦИЯ ( genls ) и ЭКЗЕМПЛЯР-КОЛЛЕКЦИЯ ( isA ). Экземпляром коллекции может быть любой термин онтологии. Важная черта отношения isA в том, что оно передается по иерархии отношения genls, т.е. если А является экземпляром коллекции B и B является подколлекцией коллекции C, то А является также экземпляром коллекции С. В случае, если коллекции А и В связаны отношением genls ( A genls B ), это означает, что все экземпляры коллекции А являются также экземплярами коллекции В.

Фрагмент иерархии коллекций в OpenCyc

Рис. 4.1. Фрагмент иерархии коллекций в OpenCyc

В вершине иерархии коллекций находится универсальная коллекция с именем Нечто. По определению, она содержит всё, что существует в рамках описываемой области (т.н. "Universe of Discourse"). Любая коллекция, описанная в OpenCyc, будь то Индивид, МатематическоеМножество или Коллекция, является и подколлекцией, и экземпляром коллекции Нечто. Более того, коллекция Нечто является как экземпляром, так и подколлецией самой себя, но не подколлекцией какой-либо другой коллекции. На первом уровне иерархии Нечто разделяется сразу на 116 подколлекций. На рис. 4.1 изображена урезанная иерархия коллекций верхних уровней.

Коллекция Индивид содержит всевозможные индивиды, т.е. сущности, не являющиеся ни множествами, ни коллекциями. Индивиды могут быть абстрактными или конкретными, описывать физические объекты, события, отношения, числа, группы, они могут состоять из частей, иметь сложную структуру, но ни один экземпляр этой коллекции не может иметь элементов или подмножеств. Так, индивид, имеющий части (связи типа ЧАСТЬ-ЦЕЛОЕ ), и множество или коллекция, содержащая те же самые части (связи типа ЭЛЕМЕНТ-МНОЖЕСТВО и ЭКЗЕМПЛЯР-КОЛЛЕКЦИЯ ), - две совершенно разные сущности. Например, данная фирма (1), группа, содержащая всех работников данной фирмы (2), коллекция всех работников фирмы (3) и множество всех работников фирмы (4) - четыре разных понятия, и только первые два из них - индивиды.

Коллекция Коллекция содержит все коллекции онтологии OpenCyc, кроме Нечто. Именно Коллекция наиболее близка понятию класс, которое часто используют при проектировании онтологий предметных областей (но не понятию класс объектно-ориентированного программирования!), поскольку эта коллекция описывает набор объектов (экземпляров коллекции), имеющих некоторые общие атрибуты (свойства). Это же отличает Коллекцию от МатематическогоМножества. Множество может содержать абсолютно не связанные элементы, а Коллекция - нет. Все экземпляры Коллекции являются абстрактными сущностями, даже если коллекция содержит материальные объекты.

Структурно база знаний OpenCyc состоит из констант (терминов) и правил (формул), оперирующих этими константами. Правила делятся на два вида: аксиомы и выводимые утверждения. Под аксиомами в OpenCyc понимаются утверждения, которые были явно и вручную введены в базу знаний экспертами, а не появились там (или могут появиться) в результате работы машины вывода. Все утверждения или формулы в базе знаний OpenCyc фиксируются на языке CycL, выразительно эквивалентном исчислению предикатов первого порядка.

4.2. DOLCE

DOLCE (Descriptive Ontology for Linguistic and Cognitive Engineering) - первая из онтологий в библиотеке базовых онтологий проекта WonderWeb (http://www.loa-cnr.it/DOLCE.html).

Онтологию DOLCE предполагается применять в Semantic Web для согласования между интеллектуальными агентами, использующими разную терминологию. При этом онтология не претендует на звание универсальной, стандартной или общей. Основная цель разработчиков - создать модель, помогающую при сравнении и объяснении связей с другими онтологиями библиотеки WFOL (базовой библиотеки онтологий WonderWeb), а также для выявления скрытых допущений, лежащих в основе существующих онтологий и лингвистических ресурсов, таких как WordNet. DOLCE имеет когнитивный уклон, поскольку фиксирует онтологические категории естественного языка и знания "здравого смысла".

В основу процесса проектирования легло фундаментальное философское разделение всех сущностей на универсалии (сущности, потенциально или реально имеющие экземпляры) и индивиды (или частности), которые не имеют и не могут иметь экземпляров. DOLCE - онтология индивидов, в том смысле, что область описания ограничена только ими. В качестве примера универсалии можно привести понятие Собака (оно имеет множество экземпляров, конкретных примеров в окружающем мире). В отличие от этого понятия, понятие Время скорее рассматривается как индивид (едва ли кому-то понадобится трактовать Время как множество различных сущностей, конечно, если речь не идет о параллельных мирах).

Верхние уровни иерархии DOLCE

Рис. 4.2. Верхние уровни иерархии DOLCE

Еще одна черта DOLCE (также заимствованная разработчиками из философии) - явное разделение на "Постоянные" и "Происходящие" сущности. Различие между ними состоит в том, что "Постоянные" сущности имеются в наличии целиком и неизменно в некотором фиксированном промежутке времени (например, стол или дом в течение периода своего существования). "Происходящие" разворачиваются во времени и в каждый момент в некотором временном интервале они могут быть различными, по-разному себя проявлять, иметь разный состав (например: ураган или период раннего Ренессанса), однако при этом их идентичность сохраняется.

Такое разделение на "объект" и "процесс" весьма условно, и здесь прослеживается когнитивный уклон DOLCE. Оно привело к тому, что в онтологии определены два типа отношения ЧАСТЬ-ЦЕЛОЕ. Первое никак не зависит от времени, второе имеет временной индекс, определяющий, в каких временных рамках отношение действует. Подобное "раздвоение" наблюдается и для отношения " КАЧЕСТВО - ОБЛАДАТЕЛЬ КАЧЕСТВА ". Другие базовые отношения онтологии: УЧАСТНИК-ПРОЦЕСС, КОМПОНЕНТ-ЦЕЛОЕ (компонент входит в состав целого) и отношение зависимости имеют временной индекс. Для сравнения, в онтологии OpenCyc нет явного деления на "Постоянные" и "Происходящие". Поэтому среди множества отношений в разделе "Части объектов" нет отношения, учитывающего временной аспект: возможное непостоянство данного отношения.

Для представления своей онтологии авторы DOLCE избрали более гибкий, чем в проекте Cyc, подход: онтология фиксируется с использованием логики предикатов первого порядка. Затем описывается та часть утверждений, которая может быть представлена на языке OWL. Оставшиеся аксиомы, выраженные на языке KIF2KIF - аббревиатура от Knowledge Interchange Format., добавляются к OWL-описаниям в виде комментариев. Таким образом достигается выразительность уровня KIF3Диалект OWL DL по выразительности уступает исчислению предикатов первого порядка и, в частности, языку KIF. и совместимость с OWL. Недостаток такого подхода в том, что приложения, не имеющие информации о действительной структуре OWL-документа, не смогут получить доступ к "закомментированным" утверждениям.

< Лекция 3 || Лекция 4: 12 || Лекция 5 >