Методы коррекции ошибок в современных системах распознавания речи

Автор работы: Пользователь скрыл имя, 25 Ноября 2011 в 00:20, курсовая работа

Краткое описание

Предшествующая работа показала, как WER может быть явно минимизирована в N-best алгоритме. Такой подход субоптимален, потому что он ограничивает выбор гипотезы довольно маленьким набором по сравнению с областью поиска устройства распознавания. Метод, основанный на решетках слов, не сталкивается с такой проблемой. Этот метод применим к словесным структурам, или частично упорядоченным сетям гипотез слова.

Содержание работы

Введение
Цели и задачи
Общее описание проблемы распознавания речи
Алгоритм метода, основанного на решетках слова
Эксперименты по распознаванию речи с использованием основных методов
Детальный анализ экспериментов
Анализ сетей спутывания
Заключение
Приложение
Оптимизированный N-best алгоритм
Алгоритм выравнивания решетки
Алгоритм получения данных из файлов типа «WAV».
Выводы
Список использованной литературы

Содержимое работы - 1 файл

Курсовая работа. Методы коррекции ошибок в соверменных системах распознавания речи.doc

— 514.00 Кб (Скачать файл)

   Таблица V: WER на телерадиовещании при различных условиях. Условия - F0 (чистая речь чтения), Fl (диалоговая речь), F2 (речь по телефону), F3 (речь с музыкальным фоном), F4 (шумная речь), F5 (иностранная речь), и FX (другие условия).

   

 
   Общий результат WER представлен в последнем столбце Таблицы V. Видно, что N-best метод практически совпадает с MAP подходом по результатам, в то время как метод, основанный на решетки слов существенно уменьшает WER  (абсолютное значение = 0.6%).

   Речь  телерадиовещания классифицируется на несколько типов в зависимости от условий: акустические условия, стиль разговора. Гипотеза согласия приводит к увеличению точности распознавания практически при всех условиях (без изменения в F2). Было замечено, что наибольшие усовершенствование (больше чем 1%) были получено при условиях с самой низкой и самой высокой WER (F0 и FX, соответственно).

   Одно  существенное различие между телефонной речью и речью телерадиовещания – это то, что во втором случае произношение слова более долгое. Увеличением произношения слова можно показать разницу между ошибкой предложения и ошибкой слова. Это показано в следующем эксперименте: имеется два набора: один содержит слова с долгим произношением (число слов> 25) , другой содержит слова с коротким произношением (все остальные слова). Для определения разницы нужно сравнить результаты по измерению уменьшения WER для гипотезы согласия на каждом наборе. Как показано в Таблице VI, на наборе с долгим произношением при использовании MAP подхода WER уменьшается сильнее, чем на наборе с коротким. Абсолютное уменьшение WER составляло 0.7 % при длинном произношении и только 0.3 % на коротком.

   Таблица VI: Результаты по распознаванию речи телерадиовещания при различной длинны произношения.

   

 
   При использовании набора слов с  длинным произношением в телерадиовещании можно объяснить неудовлетворительную производительность N-best алгоритма. Количество гипотез предложения растет по экспоненте с увеличением длины произношения. 
 
 
 
 
 
 
 
 

   6. Детальный анализ

   Здесь будет рассмотрено несколько диагностических экспериментов и эмпирических исследований алгоритма, основанного на решетках слов. Все исследования проводились над телефонной разговорной речью (Set I из Раздела 4.1.1).

   6.1. Множественное выравнивание ошибок слова и истинная ошибка слова

   В Разделе 2.1 было показано, что ключом к методу минимизации ошибок слова, основанному на решетках слова была аппроксимация ошибки слова (WE) между двумя гипотезами с новым строковым расстоянием MWE, вычисленным на множественном выравнивании всего набора гипотез. Диагностический эксперимент построен так, чтобы определить значение разницы между MWE и WE. Была сгенерирована выборка из большого количества пар гипотез из апостериорного распределения, представленного нашими решетками, и сравнили MWE и WE для каждой пары. Общее количество ошибок в произношении (сумма замен, удалений и вставок) между двумя типами выравнивания отличалось в среднем только на 0.15. Это предполагает, что субоптимальная природа выравнивания это незначимый фактор на практике.

   6.2. Эффект отсечения возможных решений решетки

   Как показано в Разделе 3.4, удаляя гипотезы слова низкой вероятностью из решеток, можно улучшить качество множественного выравнивания гипотез. Потому что плохое выравнивания искажают показатель MWE от истинного WE, отсечение возможных решений может улучшить точность гипотезы согласия.

   На  Рисунке 3 отображен график зависимости WER гипотезы согласия от процентного соотношения узлов, оставшихся в  решетке, после отсечения возможных решений ( percentage links).

     

   Рисунок 3: График зависимости WER гипотезы согласия от процентного соотношения узлов после отсечения возможных решений. Горизонтальная линия соответствует графику для MAP подхода. 

   Наилучшая WER, которая может быть достигнута, соответствует процентному соотношению узлов равному 9.5 %. Из графика видно, что при количестве узлов в решетке меньше, чем 2 %, мы получаем гипотезу с той же самой точностью,  как и при MAP подходе. 

   6.3. Альтернативные показатели кластеризации

   В Разделе 3 было введено два показателя подобия [Уравнения (5) и (6)], которые формируют процедуру кластеризации. Рассмотрим некоторые изменения этих показателей.

   6.3.1. Важность информации о времени

   Если  входная решетка не содержит информацию о начальном и конечном моменте времени гипотез слова, тогда нужно исключить перекрытие времени в показателе подобия (5) для кластеризации внутри слова (Раздел 3.2). Другими словами, нужно вычислить подобие между двумя кластерами, основанными исключительно на апостериорных вероятностях. Эксперименты, с использованием  измененного показателя подобия  дали небольшое увеличение WER (0.15 %).

   С другой стороны можно оценить длину слова по времени, используя доступную информацию. Например, можно вычислить для каждого узла решетки длину самого длинного пути от начального узла. Длины путей могут быть определены с помощью подсчета числа фонем. Перекрытие (.,.) в Уравнении (5) может быть вычислено на основании этих приблизительных метках времени. Эксперименты с использованием длины слова по времени, оцененных с помощью подсчета фонем, дали точно такую WER как в экспериментах с использованием информации о времени.

   6.3.2. Важность фонетического подобия

   Теперь  необходимо исследовать важность фонетического подобия в стадии кластеризации между словами (Раздел 3.3). Для этого были проведены эксперименты с измененной функцией подобия, основанной только на апостериорной вероятности, то есть без учета  SIM (.,.) в Уравнения (6):

   

   Удивительно, что  изменения в WER не произошли, это означает, что топологии решетки достаточно для выравнивания.

   Однако  в одном случае фонетическое подобие действительно становится важным, когда решетки не содержат информацию о времени. В Таблице VII показаны результаты, когда информация времени не использовалась во время кластеризации внутри слова. Видно, что фонетическое подобие действительно улучшает точность гипотез согласия примерно на 0.2 %. Это показывает, что информация о времени и фонетическое подобие являются дополнительными факторами для процедуры выравнивания слова.

   Таблица VII: Эффект фонетического подобия, когда не используется информация о времени в кластеризации (Set I в телефонной разговорной речи).

   

 
 
   6.3.3. Роль апостериорных вероятностей

   Всякий  раз, когда происходит объединение двух кластеров, появляются дополнительные ограничения на частичную упорядоченность. Следовательно, некоторые эквивалентные классы, которые, возможно, были объединены ранее, уже не могут являться кандидатами на объединение. По этой причине очень важно иметь меру, которая будет вносить вклад для слов с высокой вероятностью. Такой мерой будут веса, основанные на вероятности слов,  при вычислении подобия кластеров.

   На  Рисунке 4 показана довольно часто встречающаяся ситуация в экспериментах.

   

 
   Рисунок 4: Роль апостериорных вероятностей в кластеризации

     В этом примере нужно выбрать между объединением "BE" и "BEEN" или "BE" и "THIN". Если "BE" и "BEEN" фактические конкуренты, и для объединения выбирается пара "BEEN" и "THIN", то можно было бы закончить с гипотезой согласия, в которой "BE" и "BEEN" удалены, потому что удаление имеет высокую апостериорную вероятность в обоих классах. Однако, тот факт, что "BE" и "BEEN" имеют высокие апостериорные вероятности, и в то же время нет пути, содержащего их оба, предлагает, что они - кандидаты на одно и то же слово.

   Эта идея совместима с результатами экспериментов без учета весов, учитывающих вероятности слов, по измерению показателей подобия. Как показано в Таблице IX, мы наблюдали большое увеличение в числе ошибок удаления, и умеренное увеличение полной частоты появления ошибок.

   Таблица VIII: WER гипотезы согласия без использования апостериорных вероятностей в кластеризации (Set I для телефонной разговорной речи).

   

   Deletions – удаления, Insertions – вставки, Substitutions – замены. 
 
 
 
 
 

 
   7. Анализ сетей спутывания

   Рассмотрим  свойства сетей спутывания и задачи, не связанные с минимизацией ошибок слова, в которых они могут  быть использованы.

   При анализе свойств сетей спутывания можно получить следующую статистику:

  • Когда множество спутывания имеет только один кандидат, этот кандидат является верным в 97 %  случаев;  25 % множеств спутывания обладают этим свойством.
  • Когда множество спутывания имеет только два кандидата, кандидат с большей вероятностью является верным в 90 % случаев; 25 % множеств спутывания обладают этим свойством.

   Это значит, что в 50 % случаев можно предсказать правильное слово с высокой точностью. Эти слова могут быть использованы для устранения неоднозначностей в остальной части множеств спутывания.

   Рисунок 5: График зависимости точности (accuracy) сети спутывания (Set I на телефонной разговорной речи) от процентного соотношения связей (links).

   

   7.1. Размер пространства гипотезы 

   В Разделе 5.2 обсуждался эффект отсечения возможных решений решетки (как определено в Разделе 3.4) на точности гипотезы согласия. Необходимо ответить на следующий вопрос: Как отсечение возможных решений решетки влияет пространство гипотез, представленных в сети спутывания? Чтобы исследовать эту проблему необходимо рассматривать точность сетей. Рисунок 5 показывает зависимость между отсечением возможных решений решетки и точностью слова в сети спутывания.

   Как видно, только с 5 %-значением связей в  решетке мы получаем граф слов с такой же точностью. Рисунок 6 также показывает, что при сохранении больше чем 5 % связей, можно получить сеть, которая будет иметь большую точность, чем решетка. Это объясняется тем, что слова высокой вероятностью связываются между собой в сети спутывания, в то время как в решетке они разъединены.

   Однако, несмотря на сравнительно небольшое количество гипотез слова,  сокращенные сети спутывания все еще содержат большее число гипотез предложения. Это может привести к затруднению при построении алгоритма постобработки, такого как синтаксический анализатор, которому необходимо исследовать уровни предложений. 

   7.2. Отсечение возможных решений решетки основанное на согласии

   Решетки слов обычно используются как промежуточное представление пространства гипотез для дальнейших шагов распознавания или более сложных методик оценки гипотезы. Две противоречивых цели для решетки:

  • Компактность
  • Точность

   Стандартным методом управления взаимосвязи между размером решетки и точностью является метод отсечения возможных решений, основанный на вероятности: пути, полная вероятность которых отличается больше чем пороговое значение от наилучшего пути, удаляются из графа слов.

   Альтернативным подходом отсечения возможных решений, который использует сети спутывания как фильтр на пространстве гипотез, то есть без добавления путей к оригинальной решетке. В этом подходе мы сначала создается сеть спутывания, которая сокращается по методу, описанному ранее, и затем накладываем решетку на сокращенную сеть спутывания. Другими словами, остаются только те  пути решетки, которые присутствуют и в сокращенной сети спутывания. Конечным размером решетки управляет порог отсечения возможных решений в применении к сети спутывания. Эффект этого отсечения возможных решений, основанного на согласии - то, что сохраняются пути с низкой вероятностью, содержащие слова с высокой апостериорной вероятностью.

Информация о работе Методы коррекции ошибок в современных системах распознавания речи