Автор работы: Пользователь скрыл имя, 25 Февраля 2013 в 23:13, доклад
ДИСТРИБУТИВНЫЙ АНАЛИЗ (ОТ лат. distrlbuere — распределять, разделять) — метод исследования языка, основанный на изучении окружения (дистрибуции, распределения) отдельных единиц в тексте и не использующий сведений о полном лексическом или грамматическом значении этих единиц.
Дистрибутивный анализ. Дерево зависимостей. Дерево непосредственных составляющих.
ДИСТРИБУТИВНЫЙ АНАЛИЗ (ОТ лат. distrlbuere — распределять, разделять) — метод исследования языка, основанный на изучении окружения (дистрибуции, распределения) отдельных единиц в тексте и не использующий сведений о полном лексическом или грамматическом значении этих единиц.
Канонический дистрибутивный выполняется следующим образом. Сначала текст делится (сегментируется) на элементарные текстовые единицы — фоны (отдельные звуки) и морфы' (минимальные последовательности фонем, имеющие значение). Следующей ступенью дистрибутивного анализа является идентификация — объединение множества текстовых единиц в одну единицу языка (фонему или морфему).
Выделенные т. о. языковые единицы объединяются в классы с помощью экспериментальной техники субституции (замещения). Разные языковые единицы относятся к одному и тому же классу, если они способны замещать друг друга в одних и тех же окружениях.
деревом зависимостей
Основной формой представления семантической сети является граф. Понятия семантической сети записываются в овалах или прямоугольниках и соединяются стрелками с подписями — дугами (см. рис.). Это наиболее удобно воспринимаемая человеком форма. [источник не указан 287 дней] Её недостатки проявляются, когда мы начинаем строить более сложные сети или пытаемся учесть особенности естественного языка. Схемы семантических сетей, на которых указаны направления навигационных отношений, называют картами знаний, а их совокупность, позволяющая охватить большие участки семантической сети, атласом знания.
Из опыта работы с синтаксическими моделями мы уже знаем, что отношение подчинения, устанавливающееся между главным и зависимым элементом, может быть изображено деревом зависимостей; тогда, например, выражение Это — причина моего ухода будет иметь следующий вид (см. рис. 17 на стр. 256).
Рассмотрение этого примера позволяет нам сделать второй важный вывод, касающийся синтаксиса семантического языка: в общем случае выражение на семантическом языке имеет вид дерева (или деревьев) зависимости и, следовательно, семантика может описываться как синтаксис Это представление о строении значений слов является гораздо более глубоким, чем принадлежащая Л. Ельм-слеву и уже знакомая нам (см. стр. 61) мысль о том, что
значение слова является простой конъюнкцией «фигур содержания».
Таким образом, семантический язык имеет свои слова (элементарные смыслы) и свою грамматику (деревья зависимостей). Поэтому мы можем обращаться с ним, как с любым другим языком, в частности переводить
тексты с него и на него. Пользуясь понятием перевода, мы можем более точно сформулировать стоящие перед нами задачи. Чтобы смоделировать осмысленное речевое поведение человека, например носителя русского языка, при восприятии текста (анализ), необходимо: 1) иметь русско-семантический словарь и 2) алгоритмы перевода с русского языка на семантический. Чтобы смоделировать осмысленное речевое поведение человека при производстве текста (синтез), необходимо иметь: 1) семантико-русский словарь и 2) алгоритмы перевода с семантического языка на русский.
Дерево непосредственных составляющих (ДНС) обеспечиваает структорное описание предложений. Граматика непосредственных составляющих (ГНС) характеризует ДНС. И то и другое поэтому играют важную роль в обработке естественного языка для создания структурных описаний предложения, которые могут быть использованы в обработке систем понимания или порожления речи.
Дерево непосредственных составляющих:
ДНС кодирует иерархическую структуру предложения. Эта информация двух видов: иерархическая структура группирования и синтаксические категории этих группирований.
Предложение
John wanted to publish the paper. (1)
имеет следующую структуру:
(2)
Эта структура может быть представлена и в скобочной конструкции:
(3)
(2)
и (3) описывают группирование
без идентификации
"John"
является здесь именем
Соответственно скобочная конструкция (3) будет выглядеть так:
[ (5)
Конструкции (4) и (5) обычно (но не всегда) используются в системах обработки естественного языка.