Интеллектуальные робототехнические системы

Проблемы понимания естественного языка


Проблемы понимания естественного языка, будь то текст или речь, во многом зависят от знания предметной области. Понимание языка требует знаний о целях говорящего и о контексте. Необходимо также учитывать недосказанность или иносказательность. Например, даже в таком простом предложении «Ваня встретил Машу на поляне с цветами» нам не понятно, кто же был с цветами: Ваня, Маша или поляна? Еще один пример «Врач бегло говорила по-английски». Разбирая это предложение, необходимо в результате разбора зафиксировать, что врач была женщина. Крылатая фраза знаменитого русского лингвиста, академика Л.В.Щербы «Глокая куздра штеко будланула бокра и курдячит бокренка» говорит о том, что такая «непонятная» фраза построена по всем правилам русского языка, не вызывает проблем с грамматическим разбором такого предложения, но вызывает проблемы с пониманием. Попробуем сформулировать лишь некоторые проблемы понимания естественного языка.

  1. Проблема СМЫСЛ-ТЕКСТ. Об этом только что говорилось и приведем еще один пример по этой проблеме. В предложении «Какой завод заказал оборудование для конвертерного цеха в Бельгии?» неясен смысл: был ли сделан заказ в Бельгии или цех находится в Бельгии.
  2. Проблема планирования возникает при необходимости вести диалог, например, на тему «Куда Вы хотите лететь?». В этом случае нужно глубокое знание предметной области (номера рейсов, время прилета-отлета, цены и т.д.).
  3. Проблема равнозначности. Будут ли равнозначны два предложения «У дома стоит слон» и «У дома стоит существо с хоботом и бивнями»? На первый взгляд нет сомнений в равнозначности этих предложений. А если в базе знаний существо с хоботом и бивнями определено двумя значениями: слон и мамонт, то такие сомнения, наверное, появятся.
  4. Проблемы моделей участников общения. У участников общения должны быть сопоставимые модели представления знаний, необходимая глубина понимания, возможность логического вывода, возможность действия.
  5. Проблема эллиптических конструкций, то есть опущенных элементов диалога. Например, в пословице «Береги платье снову, а честь - смолоду» вторая часть предложения будет синтаксическим эллипсисом (опущен глагол береги).
  6. Проблема временных противоречий.
    Например, в предложении «Я хотел завтра пойти в кино» глагол «хотел» в прошедшей форме сочетается с обстоятельством будущего времени «завтра», что противоречит общепринятой логике.


Закончим с перечислением проблем и поговорим об основных понятиях. В качестве языков для общения с программой могут быть: язык меню, язык приказов, анкетный язык. Это регламентированные языки, в них могут работать упрощенные схемы разбора, например, по ключевым словам, и эти языки мы не рассматриваем. В качестве естественного языка (ЕЯ) мы рассматриваем подмножество Ограниченного Естественного Языка (ОЕЯ) - это профессионально-ориентированное подмножество ЕЯ конечного пользователя. Для разбора ОЕЯ используются программные комплексы, называемые Лингвистическими Трансляторами (ЛТ). Возможная структурная схема ЛТ приведена на рис. 5.1.


Рис. 5.1.  Структурная схема ЛТ

Определим или напомним основные понятия. Слово - одна из основных единиц языка, служащая для именования предметов, лиц, процессов, свойств и т.д. Предложение - любое высказывание, являющееся сообщением о чем-либо. Словосочетание - простейшая единица речи, которая образуется на основе подчинительной связи (согласования, управления, примыкания) двух и более слов. Словосочетание в отличие от предложения не является, как правило, сообщением. Дискурс - связный текст. Лексема - слово во всей совокупности его лексических значений. Морфема - минимальная законченная часть слова. Аффикс - прикрепленная к корню часть слова (подразделяется на префикс, суффикс, инфикс). Омонимы - разные по значению, но одинаковые по написанию слова, морфемы и др. единицы языка («рысь» - бег, «рысь» - животное). Синонимы - разные по написанию слова, но одинаковые по значению («орать», «кричать» или «дорога», «путь»). Эллипсис - опущенные слова в предложении («Я еду кататься, а ты?»). Анафора - повторение объектов предложения («Город пышный, город бедный» - А.С.Пушкин).


Содержание раздела