Теоретико-модельные методы извлечения знаний о смысле понятий из текстов естественного языка Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Корсун Ирина Андреевна, Пальчунов Дмитрий Евгеньевич

Статья посвящена разработке теоретико-модельных методов извлечения знаний из текстов естественного языка, а также методов извлечения из текстов определений понятий , полных относительно фиксированного контекста. Контекст задаётся либо объемлющей онтологией , либо набором прецедентов предметной области; при этом полнота определения рассматривается относительно множества «интересующих» предложений. Извлечённые из текстов знания представляются в виде фрагментов атомарных диаграмм алгебраических систем. Разработаны и программно реализованы алгоритмы отображения бескванторных предложений логики предикатов в логику описаний (DL), а также их дальнейшего отображения в OWL. Это даёт возможность порождения новых знаний исходя из имеющихся знаний, уже содержащихся в онтологии , при помощи использования автоматических средств логического вывода .

MODEL-THEORETIC METHODS OF EXTRACTION OF KNOWLEDGE ON THE MEANING OF CONCEPTS FROM THE NATURAL LANGUAGE TEXTS

The paper is devoted to the development of model-theoretic methods of knowledge extraction from the natural language texts and, in particular, methods of extraction of concept definitions which are complete relative to the fixed context. The context may be determined by ambient ontology as well as by a set of precedents. The completeness of definitions is considered modulo a special set of "interesting" sentences. The extracted knowledge is represented in the form of fragments of atomic diagrams of algebraic systems. Algorithms of mapping some quantifier-free sentences of predicate logic onto Description Logics (DL) as well as of their further mapping onto OWL are developed and implemented. It gives a possibility to generate new knowledge based on existing knowledge that already contained in the ontology by using automated logical reasoning .

Текст научной работы на тему «Теоретико-модельные методы извлечения знаний о смысле понятий из текстов естественного языка»

И. А. Корсун \ Д. Е. Пальчунов 1 2

1 Новосибирский государственный университет ул. Пирогова, 2, Новосибирск, 630090, Россия

2 Институт математики им. С. Л. Соболева СО РАН пр. Академика Коптюга, 4, Новосибирск, 630090, Россия

ТЕОРЕТИКО-МОДЕЛЬНЫЕ МЕТОДЫ ИЗВЛЕЧЕНИЯ ЗНАНИЙ О СМЫСЛЕ ПОНЯТИЙ ИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА *

Статья посвящена разработке теоретико-модельных методов извлечения знаний из текстов естественного языка, а также методов извлечения из текстов определений понятий, полных относительно фиксированного контекста. Контекст задаётся либо объемлющей онтологией, либо набором прецедентов предметной области; при этом полнота определения рассматривается относительно множества «интересующих» предложений. Извлечённые из текстов знания представляются в виде фрагментов атомарных диаграмм алгебраических систем. Разработаны и программно реализованы алгоритмы отображения бескванторных предложений логики предикатов в логику описаний (DL), а также их дальнейшего отображения в OWL. Это даёт возможность порождения новых знаний исходя из имеющихся знаний, уже содержащихся в онтологии, при помощи использования автоматических средств логического вывода.

Ключевые слова: онтология, теоретико-модельные методы, фрагменты атомарных диаграмм, определения понятий, извлечение знаний, порождение знаний, средства логического вывода.

Статья посвящена разработке теоретико-модельных методов извлечения знаний из текстов естественного языка, а именно, знаний о смысле ключевых понятий заданной предметной области. Разрабатываются методы извлечения определений понятий, полных относительно некоторого фиксированного контекста. Исследованы разные способы определения относительной полноты данного определения понятия. Знания о смысле понятий извлекаются из набора текстов, написанных на естественном языке. Для этого используются разработанные ранее методы представления знаний, извлечённых из текстов, в виде набора конечных фрагментов атомарных диаграмм алгебраических систем, методы интеграции атомарных диаграмм и порождения таким способом нового онтологического знания, ранее в явном виде не сформулированного.

В настоящее время большое количество работ посвящено использованию логического вывода для работы с онтологиями. В [1] описана программная система, предназначенная для автоматизированной проверки согласованности онтологии экспертами предметной области.

* Исследование выполнено при частичной финансовой поддержке РФФИ в рамках научного проекта № 14-0700903 а.

Корсун И. А., Пальчунов Д. Е. Теоретико-модельные методы извлечения знаний о смысле понятий из текстов естественного языка // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2016. Т. 14, № 3. С. 34-48.

ISSN 1818-7900. Вестник НГУ. Серия: Информационные технологии. 2016. Том 14, № 3 © И. А. Корсун, Д. Е. Пальчунов, 2016

Система использует логический вывод как основу для выявления конфликтов. В [2] предложен подход для кризисного управления и реагирования, в котором используется онтология на языке OWL DL и машина логического вывода для построения цепочек рассуждений. В [3] представлена онтология, которая используется при разработке алгоритмов сравнения и анализа генома.

Одним из популярных современных средств сбора и хранения информации являются Wiki-системы [4]. На основе Wiki-систем разработаны программные системы для построения онтологий верхнего уровня (general-purpose ontology) [5], онтологий персоналий [6], программные системы, предоставляющие интерфейс на естественном языке для редактирования онтологий [7]. Wiki-системы используются в качестве среды для разработки онтологий [8], а также для создания корпуса текстов для построения онтологии конкретной предметной области [9]. Среди недостатков данного подхода следует отметить обеспечение лишь структурной целостности информации, без проверки ее семантической согласованности. Кроме того, используемые онтологии обладают достаточно низкой выразительностью.

Одним из важных направлений исследований является автоматизация построения онтологий из текстов, написанных на естественном языке. При этом используются подходы на основе лексико-синтаксических шаблонов [10], подходы на основе систем продукций [11], подходы на основе статистической информации [12].

Ряд работ посвящён использованию логик описаний (Description Logics, DL) и средств логического вывода для работы онтологическими моделями знаний [13]. В [14] логический вывод используется для обнаружения смысловых ошибок в текстах, представленных в Интернете. В [15] логический вывод используется для проверки наличия противоречий в онтологической модели.

Ранее в [16] нами был разработан теоретико-модельный подход к извлечению знаний из текстов естественного языка. В основе него лежит представление знаний при помощи конечных фрагментов атомарных диаграмм моделей. Были разработаны методы интерпретации различных частей речи и синтаксических связей с целью автоматического порождения сигнатуры модели. Были реализованы в виде программной системы методы автоматического построения атомарных предложений данной сигнатуры по тексту естественного языка [17].

В данной работе предложены алгоритмы отображения бескванторных предложений логики предикатов первого порядка сигнатуры, не содержащей функциональных символов, в логику описаний (DL), а также дальнейшего отображения множеств таких предложений в OWL. Это дало возможность порождения новых знаний исходя из имеющихся знаний, уже содержащихся в онтологии, при помощи использования автоматических средств логического вывода - ризонеров для логик описаний.

Алгоритмы трансляции бескванторных предложений логики предикатов в логику описаний (DL) и в OWL реализованы в виде программной системы. Эта система является модулем разрабатываемой информационной системы, осуществляющей порождение онтологии из фрагментов атомарных диаграмм, порождение новых знаний с помощью машины логического вывода, извлечение определений используемых в онтологии понятий в рамках данного контекста.

Теоретико-модельные методы извлечения

и представления знаний

Для представления знаний, извлечённых из текстов естественного языка, в качестве базовой конструкции мы используем атомарные предложения. Далее мы рассматриваем множества предложений логики предикатов первого порядка, каждое из которых является, дизъюнкцией атомарных предложений и отрицаний атомарных предложений. При этом сигнатура рассматриваемых предложений не содержит символов функций, а состоит только из символов предикатов и констант.

Дадим необходимые определения и обозначения. Сведения по теории моделей можно найти в [18].

Модели = <А; о> = <А; Р1. Рп,с1. с1> рассматриваются в сигнатуре а = < P1. Pn,c1. Ci >, где А - основное множество модели, Р1. Рп - символы предикатов

и с1,_,сг - символы констант. обозначает множество всех предложений сигнатуры а, т.е. формул без свободных переменных. Запись означает, что на модели ЭД истинно

предложение Запись А I- ^ означает, что из множества формул А выводима формула

Для модели ЭД сигнатуры а мы обозначаем аА= а и ; при этом считаем, что са£о при аеА. Через ЭДА мы обозначаем модель сигнатуры оА, обеднение которой до сигнатуры а совпадает с ЭД и значения констант са в обогащённой модели совпадает с самими элементами а, т.е. СдЛ = а при яей.

Предложение <р назовем атомарным, если <р = (сг = с2) или ^ = Р(с1. сп ), где Р,с1,^,сп ЕОа.

В рамках данного подхода мы несколько изменим понятие атомарной диаграммы модели. А именно, атомарной диаграммой модели ЭД сигнатуры а назовем множество предложений

Обычно в атомарную диаграмму модели включают только атомарные предложения, истинные на этой модели. При этом, если атомарное предложение не входит в атомарную диаграмму модели, то оно, очевидно, является ложным на этой модели. Поэтому включать в атомарную диаграмму отрицания атомарных предложений, истинные на модели, в этом случае не имеет смысла.

Мы же включаем как атомарные предложения, так и их отрицания, истинные на модели. Это связано с тем, что мы рассматриваем не всю атомарную диаграмму целиком, а только её конечные подмножества - конечные фрагменты атомарной диаграммы. С практической точки зрения всю атомарную диаграмму модели невозможно рассматривать хотя бы потому, что она бесконечна (если сама модель не является конечной). Кроме того, извлекая знания из текстов естественного языка, мы практически никогда не имеем полную информацию о рассматриваемых объектах. Поэтому нам удобно рассматривать конечные фрагменты атомарной диаграммы, считая саму модель потенциально бесконечной: не ограничиваясь каким-то числом количество входящих в неё объектов.

Заметим, что такой подход даёт нам ряд дополнительных возможностей. Это связано, в частности, с тем, что в сигнатуре, содержащей только символы предикатов, любое подмножество основного множества модели образует её подмодель. И обратно, объединение основных множеств двух моделей одной и той же чисто предикатной сигнатуры (при условии, что эти множества не пересекаются) порождает новую модель данной сигнатуры, у которой две данные модели будут подмоделями. Если же основные множества этих двух моделей имеют непустое пересечение, для вложения их в общую надмодель необходимо и достаточно выполнение условия: подмодели этих двух моделей, образованные пересечением, совпадают.

Кроме того, мы можем заранее не фиксировать сигнатуру алгебраической системы, атомарную диаграмму которой собираем из фрагментов. Это позволяет нам добавлять фрагменты атомарной диаграммы, содержащие новые сигнатурные символы: новые предикаты и константы. При интеграции фрагментов атомарной диаграммы необходимо только контролировать непротиворечивость полученного фрагмента. Противоречие может возникнуть, поскольку фрагмента содержат не только атомарные предложения, но и их отрицания.

Для извлечения знаний из текстов естественного языка мы используем результаты наших исследований, начатых в [16]. В этой работе предложен теоретико-модельный подход к извлечению знаний из текстов, основанный на представлении знаний при помощи конечных фрагментов атомарных диаграмм моделей. В [16] разработаны методы интерпретации различных частей речи и различных синтаксических связей при помощи многоместных предикатов. Разработаны методы автоматического построения атомарных предложений на основе обработки предложений естественного языка. Для этого были использованы словарь номи-нализаций, содержащий более 8000 понятий и словарь валентностей для 2300 глаголов, созданные в рамках выполнения исследования.

Была разработана программная система [17], предназначенная для порождения фрагментов атомарных диаграмм моделей по текстам естественного языка. Программная система реализует разработанные методы и алгоритмы. Программная система может использоваться как в автоматическом, так и в автоматизированном режиме: автоматически построенный

фрагмент атомарной диаграммы модели может быть визуализирован, пользователь может его редактировать.

Фрагмент И атомарной диаграммы по существу является описанием некоторой ситуации, причём описанием частичным, а не полным. Описание ситуации - это элементы, представляемые константами сигнатуры аА: объекты, предметы, люди и т. д., а также свойства элементов, представляемые одноместными предикатами сигнатуры а, и «-местные отношения, представляемые п-местными предикатами сигнатуры а. Если известно, что данный набор элементов находится (или не находится) в данном отношении, фрагмент И содержит атомарное предложение - соответствующий предикат от констант, соответствующих этим элементам (или отрицание данного атомарного предложения).

Конечный фрагмент И атомарной диаграммы, являющийся конечным множеством атомарных предложений и отрицаний атомарных предложений, может быть представлен одним предложением тв - конъюнкцией всех предложений, входящих в И. Мы можем рассмотреть несколько фрагментов Ог, . , Ип описывающих знания о ситуациях, извлечённых из разных текстов естественного языка. Если ситуации различны, но относятся к одной предметной области, мы можем их рассматривать как различные прецеденты данной предметной области. В таком случае знание, представленное этим набором прецедентов, формализуется дизъюнкцией (Тдг V . V Тдп) соответствующих конъюнкций, формализующих знания о прецедентах. Любое бескванторное предложение сигнатуры аА может быть с точностью до эквивалентности представлено такой дизъюнкцией (тВ1 V . V тВп); это показывает следующее утверждение.

Предложение 1. Для любого бескванторного предложения ^ сигнатуры аА существует набор фрагментов атомарных диаграмм алгебраических систем Ог, . , Ип такой, что формулы ^ и (тдг V . V тВп) эквивалентны.

Доказательство непосредственно вытекает из известного факта, что для любой формулы логики высказываний существует эквивалентная ей формула, находящаяся в дизъюнктивной нормальной форме.

Таким образом, язык конечных фрагментов атомарных диаграмм является достаточно выразительным. Любое знание, извлечённое из текстов, сформулировать которое можно без использования кванторов всеобщности и существования, может быть выражено на языке конечных фрагментов атомарных диаграмм.

Более того, на языке конечных фрагментов атомарных диаграмм может быть выражено и любое знание, имеющее универсальную квантификацию - универсальные предложения, или У-предложения. Напомним, что предложение ^ называется У-предложением если (р = Ух-^ . Ухп,ф(х1. хп), где ф - бескванторная формула. У-предложение можно преобразовать в бескванторное предложение расширенной сигнатуры, заменив переменные, по которым идёт универсальная квантификация, на специальные новые константы, обозначающие «произвольный» объект.

В данной работе мы применим представленные выше теоретико-модельные методы для извлечения из текстов естественного языка знаний о смысле ключевых понятий предметной области, то есть извлечение из текстов частей определений понятий и интеграция извлечённых частей определений. Другими словами, речь идёт об извлечении из текстов естественного языка онтологических знаний, относящихся к заданной предметной области.

Полнота определений понятий

относительно заданного контекста

Для корректного извлечения знаний из текстов естественного языка необходимо решать проблему точного определения смысла, в котором в данном тексте используются понятия. Здесь возникает проблема полисемии или многозначности понятий, - в каком конкретно смысле понятие употребляется в данном тексте (в данном контексте).

Решение этой проблемы мы разделяем на две составляющие части, две подпроблемы.

1. Выделение набора различных определений данного понятия.

2. Определение по тексту / контексту того определения данного понятия, которое соответствует его употреблению в указанном месте.

При этом методы решения этих двух проблем взаимосвязаны.

Для выяснения точной семантики данного фрагмента текста естественного языка (например, точной семантики данного предложения естественного языка) и построения точного формального описания на языке логики предикатов или логики описаний необходимо иметь точные и полные определения входящих в текст понятий. Точность определений понятий обеспечивается тем, что мы формулируем их с помощью предложений логики предикатов или БЬ. Более сложной является проблема полноты определений понятий.

Очевидно, что с практической точки зрения мы почти никогда не можем дать полного определения данного понятия в абсолютном смысле. Тем не менее, для решения практических задач может быть достаточно относительно полного определения понятия, т. е. определения, полного относительно контекста рассмотрения этого понятия.

В этом параграфе мы дадим теоретико-модельную формализацию относительной полноты определений понятий и рассмотрим методы извлечения относительно полных определений понятий из текстов естественного языка.

Рассмотрим понятие РЕ аА (для понятия сЕ аА определения и рассуждения аналогичны). Пусть ^ = ^(Р) - некоторое (возможно неполное) определения понятия Р; запись ^(Р) здесь означает, что символ Р входит в предложение Обозначим ф = .

ф - это множество всех следствий ^ определения ^(Р); заметим, что каждое такое следствие ^ является аналитическим предложением [19, 20].

Рассмотрим теперь несколько полисемичных определений (р1. ц)п понятия Р, то есть определений, описывающих разные смыслы, в которых понятие Р может употребляться в разных контекстах. Обозначим И =

Кегф) = е Б(аА) | для любого I выполнено Ь^> = П1Щ и Сорф) = = Щ . Кегф) назовём ядром множества определений И, а Соуф) - оболочкой множества определений И. Заметим, что Кегф) ^Сорф).

Кегф) - это множество утверждений (свойств понятия Р), которые являются заведомо истинными вне зависимости от контекста и конкретного смысла понятия Р, а Соуф) - это множество утверждений (свойств понятия Р), которые могут быть истинными, если точный (конкретный) смысл понятия нам не известен. В общем случае множество Соуф) может быть противоречивым.

Относительную полноту определения понятия мы будем рассматривать для двух вариантов фиксации контекста:

а) контекст определяется объемлющей онтологией;

б) контекст задаётся фрагментом атомарной диаграммы, построенным по тексту естественного языка, в котором данное понятие было использовано; при этом фиксируется специальное множество «интересующих» нас предложений.

Рассмотрим онтологию некоторой предметной области О. Будем считать, что онтология формально записана на языке логики предикатов первого порядка, т.е., что ^(о^). Пусть имеется набор полисемичных определений , . фп понятия Р, пусть И = .

Определение ^ назовём полным относительно онтологии О (среди определений фъ. фп), если О и I/ и для любого 1> 1 выполнено О и I--|<рг.

Предложение 2. Для онтологии О и множества определений И = следующие

а) является полным относительно онтологии О;

б) О и I/ и для любого 1> 1 найдётся предложение ^ЕЩ такое, что О и К

в) О и Ч- и О и и Щ К

Определение ^ назовём сильно полным относительно онтологии О (среди определений <рг , . Ц)п), если для любого 1> 1 и для любого предложения фЕ Щ такого, что О и I/ тр, выполнено О и I—\Тр.

Определение назовём абсолютно полным относительно онтологии О (среди определений , . фп), если для любого предложения ^Е Б

📎📎📎📎📎📎📎📎📎📎

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Корсун Ирина Андреевна, Пальчунов Дмитрий Евгеньевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Корсун Ирина Андреевна, Пальчунов Дмитрий Евгеньевич

MODEL-THEORETIC METHODS OF EXTRACTION OF KNOWLEDGE ON THE MEANING OF CONCEPTS FROM THE NATURAL LANGUAGE TEXTS

Текст научной работы на тему «Теоретико-модельные методы извлечения знаний о смысле понятий из текстов естественного языка»