Автор работы: Пользователь скрыл имя, 03 Июня 2012 в 21:23, курсовая работа
Цель работы: выявить состояние и перспективы развития систем распознавания речи.
Задачи:
Описать технологию распознавания речи
Выявить проблемы автоматического распознавания речи.
Привести обзор популярных систем управления распознаванием речевой информации.
Введение
1 Автоматическое распознавание речи
1.1 Распознавание слов в слитной речи
1.2 Распознавание изолированных слов
1.3 Проблема автоматического распознавания речи
2 Системы управления распознаванием речевой информации
2.1 Система голосового управления
2.1.1 Программа VoiceNavigator
2.1.2 Программа Truffaldino
2.2 ПО для распознавания речи
2.2.1 Требования к оборудованию
2.2.2 Программное обеспечение, применяемое за рубежом
2.2.3 Положение в России
2.2.4 Будущее систем распознавания речи
Заключение
Список литературы
Она же используется швейцарской железнодорожной компанией Swiss Railways. Предусмотрена возможность самообучения системы во время эксплуатации. Из запросов, требующих сложного "восприятия речи" (вроде "Я бы хотел попасть из Женевы в Цюрих через Берн"), выделяются ключевые слова -названия станций, предлоги "из", "в", "через" — и на основании наиболее правдоподобного варианта строится обращение к базе данных и соответствующий синтезированный Авиакомпания Lufthansa своим потенциальным пассажирам предлагает автоматическое расписание своих рейсов, а радиостанция Radio Luxembourg — прогноз погоды по туристическим маршрутам всего мира.
Немецкая служба сотовой телефонной GSM-связи Dutch PTT внедрила систему обработки речи Voice Dialing, разработанную американской компанией Glenayre, что обеспечивает не только голосовой набор телефонного номера, но и выполнение необходимых команд и возможность программирования до 40 часто набираемых телефонных номеров. В результате стало возможным звонить прямо во время движения автомобиля, не отвлекаясь от управления.
Программы от IBM и Dragon Dictate используются в надеваемых компьютерах (wearable PC) компании Xybernaut (www.xybernaut.com). Эти устройства весом всего 795 г используются, например, американскими таможенниками, несущими службу на границе с Мексикой. Стражи порядка проверяют номера проезжающих автомобилей, сверяясь с удаленными центральными правоохранительными базами. Правда, служащие таможни жалуются на проблемы с распознаванием, возникающие при сильном ветре...
IBM уже давно использует технологию распознавания речи для своих внутренних нужд, а сейчас выпускает средства создания автоматизированных речевых агентов, способных распознавать называемые телефонными абонентами имена людей и названия организаций и соединять их с соответствующими номерами. Объем каталога имен может достигать 200 тысяч записей.
Фирма Language Force (www.lan-guageforce.com) на основе технологии распознавания речи Via Voice разработала автоматический переводчик Universal Translator Deluxe, позволяющий устную английскую речь переводить на 33 различных языка, в число которых входят арабский, китайский,японский,корейский, испанский, немецкий и иврит.
Достижения компьютерной обработки речевых сигналов могут применяться не только для того, чтобы вести беседы по мобильному телефону, — ряд парламентариев с гран Западной Европы добиваются контроля над центром прослушивания Менвич-Хилл Агентства национальной безопасности (АНБ) США, расположенным в Англии, недалеко от Йоркшира. Первоначально центр, созданный при поддержке британской разведки Ml 5, предназначался для анализа информационного трафика из СССР, но ныне, как следует из отчета технической службы Европарламента, осуществляет перехват всех европейских телефонных разговоров, факсов и электронной почты. Система распознавания речи используется для выделения ключевых слов, при наличии которых автоматически включается запись разговора с последующим ее перенаправлением для проверки в американское отделение АНБ.
К сожалению, распространенные зарубежные системы распознавания речи русский язык не поддерживают. Правда, уже упоминавшиеся платы Dialogic в число используемых европейских и некоторых азиатских языков включают и русский, но их возможностей хватает только на речевой ввод телефонных номеров и построение простейших голосовых меню. Намерение включить поддержку русского языка в свои продукты неоднократно выражали многие производители, в том числе и Dragon Systems, но дальше этих заявлений дело так и не пошло.
В этих условиях своеобразной сенсацией стал выход в 1997 году на коммерческий рынок знаменитого "Горыныча" — адаптации Dragon Dictate Naturally Speaking, проведенной силами малоизвестной до того российской компании White Group – официального дистрибьютора Dragon Systems. Программа оказалась вполне работоспособной, а ее стоимость – весьма умеренной.
Многие фирмы приобретали пакет просто в качестве некой продвинутой игрушки для своих сотрудников. К сожалению, основой для российского "звероящера" послужила уже устаревшая вторая версия Dragon Dictate, не поддерживающая распознавание слитной речи. Кроме того, программа требует длительной "тренировки" и настройки на конкретного пользователя, очень капризна к оборудованию, более чем чувствительна к интонации и скорости произнесения фраз, возможности ее "обучения" весьма разнятся для различных голосов. Да и вообще созданная для распознавания английской речи программа не может учитывать всей специфики русского произношения.
По всей видимости, положение на отечественном рынке ПО для распознавания речи (если вообще можно говорить о таковом) напоминает недавнюю ситуацию с оптическим распознаванием текста. Только специализированные отечественные продукты,изначально ориентированные именно на русский язык, смогут по-настоящему решить ту задачу, что ни по силам ни "Горынычу", ни "Комбату" (еще один продукт той же фирмы White Group).
Не случайно лидеры отечественного рынка программ OCR (распознавания печатных текстов), которыми являются ABBYY (BIT Software) и Cognitive Technologies, заявили о ведущихся ими в области распознавания русской речи разработках. ABBYY работает над проектом NLC, связанным с естественно-языковой обработкой распознаваемых текстов. Cognitive Technologies на выставке "Комтек'97" уже демонстрировала систему со словарным запасом в 500 слов, распознающую речь независимо от произношения диктора, причем на 1999 год намечено завершить создание дикторо независимой системы распознавания слитной речи, к тому же устойчивой к внешнему шуму.
Пока же технология распознавания речи российскими разработчиками применяется в основном в интерактивных обучающих системах и играх вроде "Мой говорящий словарь", "Talk to Me" или "Профессор Хиггинс", а целью их использования являются контроль произношения у изучающих английский язык и аутентификация пользователя. Еще одно остроумное применение технологии распознавания речи позволяет весьма ощутимо сжимать файлы с диктофонными записями или посланиями звуковой почты.
Важная задача, которая стоит перед создателями речевых технологий, – выработка единого стандарта на API-интерфейс (Applications Programming Interface), который должен связывать приложения и обеспечивать своевременную передачу управляющих функций. Такой стандарт должен не только позволять строить приложения на базе какой-либо распространенной операционной системы, имеющей соответствующие встроенные функции (первой такой ОС стала, как уже упоминалось, OS/2 Warp), но и обеспечивать переносимость систем распознавания речи на другие ОС.
Современное ПО для распознавания слитной речи, как правило, не только снабжается собственными текстовыми редакторами,но и способно встраиваться в популярные программы, среди которых MS Word, Excel, Lotus Smart Suite Millennium Edition (Lotus Development) и Word Perfect Suite (Corel).
С другой стороны, производители офисных программ стали включать в состав своего ПО системы распознавания речи, как правило, от IBM (Smart Suite), Dragon Dictate (Word Perfect Suite) или Lernout&Hauspie. Ожидалось, что Microsoft, не только давно интересующаяся речевыми технологиями, но и, помимо собственных разработок, вложившая в сентябре 1997 г. 45 млн. дол. в Lernout&Hauspie, включит поддержку распознавания речи в Office 2000 и Windows 2000, но, судя по бета-версиям соответствующих пакетов, этого пока не произойдет. Глава корпорации Билл Гейтс заявил, что считает речевые технологии еще не готовыми для массового применения.
Распознавание и порождение (синтез) речи компьютером является, безусловно, важной проблемой. Десятилетиями ученые и инженеры искали способы, которые позволили бы людям общаться с компьютером так же, как они общаются между собой, а не заставляли человека подстраиваться под способ общения, приемлемый для машины. Много было сделано, но, пожалуй, и на сегодняшний день можно считать, что вопрос далеко не закрыт, хотя именно в последнее время были достигнуты значительные успехи: уже многие годы голосовые команды являются одной из возможных опций программного обеспечения персональных компьютеров, появление функций распознавания речи уже обычное дело в ряде текстовых процессоров, системы распознавания речи работают там, где требуется оказание справочных услуг и в системах безопасности.
Вопросы цифровой обработки сигналов, отдельные области математической статистики, искусственного интеллекта (теории нейронных сетей), связанные с разработкой движков и приложений распознавания и порождения речи. Приводятся многочисленные отрывки программ на языке Си.
Вопросы обработки речи являются, главным образом, частью дисциплин, именуемых цифровой обработкой сигналов и распознаванием образов.
Методы цифровой обработки сигналов обычно осуществляют преобразование, очистку и трансформацию звукового сигнала в цифровой формат данных и другие представления, которые могут непосредственно обрабатываться системой распознавания речи. Эти задачи включают также фильтрацию шумовых сигналов, которые примешиваются к звуку при передаче акустических сигналов от воспринимающих устройств (микрофонов) или по сети. Методы же распознавания образов используют при выделении и распознавании отдельных слов или предложений речевого потока или в некоторых случаях для идентификации говорящего.
Кроме того, системы распознавания и синтеза речи затрагивают вопросы лингвистики, в которой заложены фундаментальные концепции и принципы распознавания речи и понимания языка.
1. Искусственный интеллект. Системы общения и экспер тные системы. Кн. 1 / Под ред. Э.В.Попова. - М.: Радио и связь, 1990г.
2. Оппенгейн А.В., Шафер Р.В. Цифровая обработка сигналов, М.: Радио и связь, 1998 г.
3. Рабинер Л.Р. Шафер Р.В. Цифровая обработка речевых сигналов, М.: Радио и связь, 1999 г.
4. Литюк В.И. Методическое пособие № 2231 часть 3 «Методы расчета и проектирование цифровых многопроцессорных устройств обработки радиосигналов», Таганрог, 1995 г.
5. Кузнецов В., Отт А. Автоматический синтез речи. - Таллинн: Валгус, 1989. - 135 с.
6. Методы автоматического распознавания речи / Под ред. У.Ли. - М.: Мир, 1983. - 716 с.
7. Зиндер Л.Р. Общая фонетика. - М.: Высшая школа, 1979. - 312 с.
8. Златоустова Л.В., Потапова Р.К., Трунин-Донской В.Н. Общая и прикладная фонетика. М.: МГУ, 1986. - 304 с.
9. Линдсей П., Нордман Д. Переработка информации у человека. - М.: Мир, 1974. - 550 с.
10. Потапова Р.К. Речевое управление роботом. - М.: Радио и связь, 1989. - 248 с.
11. Бакаева Т.Н. Системный анализ безопасности: Методическая разработка к самостоятельной работе по курсу «Безопасность жизнедеятельности». Таганрог: ТРТУ, 1995, 18 с.
12. Бакаева Т.Н. Безопасность жизнедеятельности. Часть 2: Безопасность в условиях производства: Учебное пособие. Таганрог: ТРТУ, 1997, 318 с.
13. Фрумкин Г.А. «Расчет и конструирование РЭА», Москва: Высшая школа, 1997, 289 с.
2
Информация о работе Системы управления распознавания речевой информации