Дистрибутивный анализ

Автор работы: Пользователь скрыл имя, 25 Февраля 2013 в 23:13, доклад

Краткое описание

ДИСТРИБУТИВНЫЙ АНАЛИЗ (ОТ лат. distrlbuere — распределять, разделять) — метод исследования языка, основанный на изучении окружения (дистрибуции, распределения) отдельных единиц в тексте и не использующий сведений о полном лексическом или грамматическом значении этих единиц.

Содержимое работы - 1 файл

Дистрибутивный анализ.doc

— 38.00 Кб (Скачать файл)

Дистрибутивный анализ. Дерево зависимостей. Дерево непосредственных составляющих.

 

ДИСТРИБУТИВНЫЙ АНАЛИЗ (ОТ лат. distrlbuere — распределять, разделять) — метод исследования языка, основанный на изучении окружения (дистрибуции, распределения) отдельных единиц в тексте и не использующий сведений о полном лексическом или грамматическом значении этих единиц.

Принципы дистрибутивного  анализа

Канонический дистрибутивный выполняется следующим образом. Сначала текст делится (сегментируется) на элементарные текстовые единицы — фоны (отдельные звуки) и морфы' (минимальные последовательности фонем, имеющие значение). Следующей ступенью дистрибутивного анализа является идентификация — объединение множества текстовых единиц в одну единицу языка (фонему или морфему).

  • Две текстовые единицы принадлежат одной и той же единице языка, если они находятся в дополнительном распределении, т. е. никогда не встречаются в одних и тех же окружениях, или в свободном чередовании, т. е. встречаются в одних и тех же окружениях без различия в значениях.
  • Две текстовые единицы принадлежат разным единицам языка, если они находятся в контрастном распределении, т. е. встречаются в одних и тех же окружениях, но с различием в значении (таковы звуки [т] и [д] в словах «том» и «дом»).

Выделенные т. о. языковые единицы объединяются в классы с помощью экспериментальной техники субституции (замещения). Разные языковые единицы относятся к одному и тому же классу, если они способны замещать друг друга в одних и тех же окружениях.

деревом зависимостей

Графическое представление

Основной формой представления  семантической сети является граф. Понятия семантической сети записываются в овалах или прямоугольниках  и соединяются стрелками с  подписями — дугами (см. рис.). Это наиболее удобно воспринимаемая человеком форма. [источник не указан 287 дней] Её недостатки проявляются, когда мы начинаем строить более сложные сети или пытаемся учесть особенности естественного языка. Схемы семантических сетей, на которых указаны направления навигационных отношений, называют картами знаний, а их совокупность, позволяющая охватить большие участки семантической сети, атласом знания.

Из опыта работы с синтаксическими  моделями мы уже знаем, что отношение  подчинения, устанавливающееся между  главным и зависимым элементом, может быть изображено деревом зависимостей; тогда, например, выражение Это — причина моего ухода будет иметь следующий вид (см. рис. 17 на стр. 256).

Рассмотрение этого примера позволяет нам сделать второй важный вывод, касающийся синтаксиса семантического языка: в общем случае выражение на семантическом языке имеет вид дерева (или деревьев) зависимости и, следовательно, семантика может описываться как синтаксис Это представление о строении значений слов является гораздо более глубоким, чем принадлежащая Л. Ельм-слеву и уже знакомая нам (см. стр. 61) мысль о том, что

значение слова является простой  конъюнкцией «фигур содержания».

Таким образом, семантический язык имеет свои слова (элементарные смыслы) и свою грамматику (деревья зависимостей). Поэтому мы можем обращаться с ним, как с любым  другим   языком,   в   частности переводить

тексты с него и на него. Пользуясь  понятием перевода, мы можем более  точно сформулировать стоящие перед  нами задачи. Чтобы смоделировать  осмысленное речевое поведение  человека, например носителя русского языка, при восприятии текста (анализ), необходимо: 1) иметь русско-семантический словарь и 2) алгоритмы перевода с русского языка на семантический. Чтобы смоделировать осмысленное речевое поведение человека при производстве текста (синтез), необходимо иметь: 1) семантико-русский словарь и 2) алгоритмы перевода с семантического языка на русский.

Дерево непосредственных составляющих (ДНС) обеспечиваает структорное описание предложений. Граматика непосредственных составляющих (ГНС) характеризует ДНС. И то и другое поэтому играют важную роль в обработке естественного языка для создания структурных описаний предложения, которые могут быть использованы в обработке систем понимания или порожления речи.

Дерево  непосредственных составляющих:

ДНС кодирует иерархическую структуру предложения. Эта информация двух видов: иерархическая структура группирования и синтаксические категории этих группирований.

Предложение

John wanted to publish the paper. (1)

имеет следующую структуру:

(2)

Эта структура может быть представлена и в скобочной конструкции:

(3)

(2) и (3) описывают группирование  без идентификации составляющих. Такие конструкции называются "скелетом". Скелеты характеризуют фразу  без обозначения вершин дерева. Скелет с обозначением категорий  является ДНС, для фразы (1) это  будет выглядеть так

"John" является здесь именем собственным,  которое является также группой  подлежащего, "wanted" и "publish" - глаголы, "to"- предлог (точнее  говоря "to" должно быть названо  частицей или временем), "the" - детерминатор, "paper" - существительное, "the paper" - группа существительного, "to publish the paper" - группа сказуемого, "wanted to publish the paper" - тоже группа сказуемого, и наконец, "John wanted to publish the paper" - предложение.

Соответственно  скобочная конструкция (3) будет выглядеть так:

[ (5)

Конструкции (4) и (5) обычно (но не всегда) используются в системах обработки естественного  языка.


Информация о работе Дистрибутивный анализ