Дистрибутивный анализ

Доклад, 25 Февраля 2013, автор: пользователь скрыл имя

Краткое описание

ДИСТРИБУТИВНЫЙ АНАЛИЗ (ОТ лат. distrlbuere — распределять, разделять) — метод исследования языка, основанный на изучении окружения (дистрибуции, распределения) отдельных единиц в тексте и не использующий сведений о полном лексическом или грамматическом значении этих единиц.

Скачать целиком (11.86 Кб) Сколько стоит заказать работу?

Содержимое работы - 1 файл

Дистрибутивный анализ.doc

— 38.00 Кб (Скачать файл)

Дистрибутивный анализ. Дерево зависимостей. Дерево непосредственных составляющих.

Принципы дистрибутивного анализа

Канонический дистрибутивный выполняется следующим образом. Сначала текст делится (сегментируется) на элементарные текстовые единицы — фоны (отдельные звуки) и морфы' (минимальные последовательности фонем, имеющие значение). Следующей ступенью дистрибутивного анализа является идентификация — объединение множества текстовых единиц в одну единицу языка (фонему или морфему).

Две текстовые единицы принадлежат одной и той же единице языка, если они находятся в дополнительном распределении, т. е. никогда не встречаются в одних и тех же окружениях, или в свободном чередовании, т. е. встречаются в одних и тех же окружениях без различия в значениях.
Две текстовые единицы принадлежат разным единицам языка, если они находятся в контрастном распределении, т. е. встречаются в одних и тех же окружениях, но с различием в значении (таковы звуки [т] и [д] в словах «том» и «дом»).

Выделенные т. о. языковые единицы объединяются в классы с помощью экспериментальной техники субституции (замещения). Разные языковые единицы относятся к одному и тому же классу, если они способны замещать друг друга в одних и тех же окружениях.

деревом зависимостей

Графическое представление

Основной формой представления семантической сети является граф. Понятия семантической сети записываются в овалах или прямоугольниках и соединяются стрелками с подписями — дугами (см. рис.). Это наиболее удобно воспринимаемая человеком форма. ^[^{источник не указан 287 дней}^] Её недостатки проявляются, когда мы начинаем строить более сложные сети или пытаемся учесть особенности естественного языка. Схемы семантических сетей, на которых указаны направления навигационных отношений, называют картами знаний, а их совокупность, позволяющая охватить большие участки семантической сети, атласом знания.

Из опыта работы с синтаксическими моделями мы уже знаем, что отношение подчинения, устанавливающееся между главным и зависимым элементом, может быть изображено деревом зависимостей; тогда, например, выражение Это — причина моего ухода будет иметь следующий вид (см. рис. 17 на стр. 256).

Рассмотрение этого примера позволяет нам сделать второй важный вывод, касающийся синтаксиса семантического языка: в общем случае выражение на семантическом языке имеет вид дерева (или деревьев) зависимости и, следовательно, семантика может описываться как синтаксис Это представление о строении значений слов является гораздо более глубоким, чем принадлежащая Л. Ельм-слеву и уже знакомая нам (см. стр. 61) мысль о том, что

значение слова является простой конъюнкцией «фигур содержания».

Таким образом, семантический язык имеет свои слова (элементарные смыслы) и свою грамматику (деревья зависимостей). Поэтому мы можем обращаться с ним, как с любым другим языком, в частности переводить

тексты с него и на него. Пользуясь понятием перевода, мы можем более точно сформулировать стоящие перед нами задачи. Чтобы смоделировать осмысленное речевое поведение человека, например носителя русского языка, при восприятии текста (анализ), необходимо: 1) иметь русско-семантический словарь и 2) алгоритмы перевода с русского языка на семантический. Чтобы смоделировать осмысленное речевое поведение человека при производстве текста (синтез), необходимо иметь: 1) семантико-русский словарь и 2) алгоритмы перевода с семантического языка на русский.

Дерево непосредственных составляющих (ДНС) обеспечиваает структорное описание предложений. Граматика непосредственных составляющих (ГНС) характеризует ДНС. И то и другое поэтому играют важную роль в обработке естественного языка для создания структурных описаний предложения, которые могут быть использованы в обработке систем понимания или порожления речи.

Дерево непосредственных составляющих:

ДНС кодирует иерархическую структуру предложения. Эта информация двух видов: иерархическая структура группирования и синтаксические категории этих группирований.

Предложение

John wanted to publish the paper. (1)

имеет следующую структуру:

(2)

Эта структура может быть представлена и в скобочной конструкции:

(3)

(2) и (3) описывают группирование без идентификации составляющих. Такие конструкции называются "скелетом". Скелеты характеризуют фразу без обозначения вершин дерева. Скелет с обозначением категорий является ДНС, для фразы (1) это будет выглядеть так

"John" является здесь именем собственным, которое является также группой подлежащего, "wanted" и "publish" - глаголы, "to"- предлог (точнее говоря "to" должно быть названо частицей или временем), "the" - детерминатор, "paper" - существительное, "the paper" - группа существительного, "to publish the paper" - группа сказуемого, "wanted to publish the paper" - тоже группа сказуемого, и наконец, "John wanted to publish the paper" - предложение.

Соответственно скобочная конструкция (3) будет выглядеть так:

[ (5)

Конструкции (4) и (5) обычно (но не всегда) используются в системах обработки естественного языка.

Дистрибутивный анализ

Краткое описание

Содержимое работы - 1 файл

Дистрибутивный анализ.doc

Принципы дистрибутивного анализа

Графическое представление

Информация о работе Дистрибутивный анализ

Связанные документы

Свот анализ

Анализ проектов

Анализ конфликта

Трансактный анализ

Анализ ценных бумаг

Анализ рекламы модема

Похожие темы

Анализ АО

SWOT-анализ

Анализ бизнеса

Анализ выборов

Анализ данных

Анализ в торговле