Текстовый P&I-ввод выполняется
в WTE05 с помощью планшетной панели ввода
(in-place Tablet Input Panel, TIP), где с помощью пера
и сенсорного экрана реализуются три режима:
имитации клавиатуры, рукопечатного (печатными
буквами) и слитного рукописного ввода
(с автоматическим распознаванием). Для
вызова TIP служит пиктограмма на панели
задач Windows или кнопка TIP Access, расположенная
непосредственно в поле текстового ввода.
TIP - часть операционной системы, поэтому
она доступна как в компонентах самой
ОС, так и в любых приложениях (автор проверил
это, написав простой макрос для Word с визуальным
текстовым полем).
Использование экранной
клавиатуры напоминает ввод одним
пальцем - не самый лучший способ
общения с компьютером, но все
же он гораздо быстрее и
удобнее, чем набор текста SMS на
мобильном телефоне (рис. 3). Рукопечатный
вариант (с автоматическим распознаванием
символов) кажется на первый взгляд непривычным
и не очень быстрым (рис. 4). Но после небольшой
тренировки - для этого ИТ-профессионалам
придется вспомнить первый класс школы
и поучиться правильно писать буквы - темп
ввода может стать достаточно высоким.
Рис. 4. Побуквенный ввод
с распознаванием.
Однако наиболее интересен
режим слитного рукописного ввода.
В этой статье мы рассмотрим
вариант решения компании "Кварта
Технологии" - Russian Enhancement Pack for Tablet PC.
В его основе лежит лицензированная технология
распознавания рукописного ввода riteScript
компании EverNote (http://www.evernote.com) - одного из
мировых лидеров в этой области (те же
технологии использует в своем ПО и Microsoft).
Решение поддерживает три различных способа
ввода текста: слитный рукописный, побуквенный
и при помощи экранной клавиатуры. Распознавание
выполняется с помощью словаря, содержащего
более 7 млн словоформ русского языка;
допускается подключение дополнительных
словарей, создаваемых пользователем.
Эта система стала первым программным
решением, обеспечивающим распознавание
русского слитного текста непосредственно
в процессе его ввода. Ее отличительная
особенность - использование большой базы
различных почерков, что позволяет обойтись
без предварительного обучения или тренировки
пользователей.
Качество распознавания
слитного текста можно оценить
по тексту, приведенному на рис.
5. Но должны признаться откровенно:
достичь желаемого результата
автору удалось не сразу - первые
попытки написать что-то ручкой
давали какие-то не очень понятные
каракули. Так что на разработчиков
технологий распознавания надейся,
но восстановить разборчивый
почерк все же придется! Хотя
в недалеком будущем скорее всего
именно компьютеры смогут быстрее расшифровывать
почерки, с которыми не всегда могут разобраться
даже сами авторы.
Рис. 5. Распознавание русского
рукописного текста.
Оцифровка происходит
в реальном времени - по мере
ввода; при этом, кроме методов
распознавания образов, используются
лингвистические алгоритмы обработки
текста с применением встроенных
словарей (можно повышать качество
распознавания, пополняя словари).
Прямо в панели TIP можно откорректировать
результат распознавания до вставки
в основное текстовое окно
приложения. Это делается вручную
или путем выбора нужного словаря.
Оценивая возможности
рукописного ввода, нужно иметь
в виду, что мы находимся пока
в самом начале освоения естественных,
но уже подзабытых методов
обмена информацией. Тут стоит
вспомнить, с какими сложностями
шло в свое время освоение
клавиатуры, мыши. Разумеется, мы вправе
надеяться и на встречные усилия
со стороны разработчиков ПО.
Так, хорошо бы им дополнить панель TIP более
удобным механизмом переключения языков
при слитном вводе и разрешить редактирование
прямо в окне рукописного ввода, например,
с помощью ластика. Полезны и средства
настройки механизма распознавания с
использованием образцов почерка конкретного
человека (как это делается в движке распознавания
речи).
Практические задачи
распознавания при вводе информации
не ограничиваются только обработкой
текста: может, например, потребоваться
ручной ввод графиков и блок-схем
с их последующим автоматическим
преобразованием в изображения с идеальными
графическими фигурами.
Перьевой ввод в
приложениях На практике пользователю
часто бывает вполне достаточно работать
с рукописными данными без их распознавания.
Самый простой пример - письма, предназначенные
исключительно для того, чтобы их прочитал
адресат (главное, чтобы он смог разобрать
почерк отправителя). Более того, в переписке
порой гораздо важнее возможность использовать
графические пояснения вместо длинных
текстовых описаний (рис. 6). Такой режим
написания писем WTE05 уже реализован в Outlook
2003 (получатели писем на обычных ПК видят
графический образ письма).
Рис. 6. Перьевой ввод
очень хорошо подходит для
переписки.
Другой распространенный
случай - использование рукописных
пометок поверх привычного печатного
изображения. Улучшенные средства
интеграции WTE05 с Microsoft Office 2003 (дополнительная
панель инструментов "Рукописные примечания")
делают это возможным при работе с документами
Word, Excel и презентациями PowerPoint (рис. 7). Перьевые
комментарии и рисунки сохраняются в виде
отдельного визуального слоя документов,
который виден и на обычных настольных
ПК (в том числе в приложениях Office 2000).
Рис. 7. Рукописные пометки
в документе Word выглядят гораздо
убедительнее.
Панель TIP предоставляет стандартный
способ ввода и распознавания
рукописного текста. Но технология
P&I может быть встроена непосредственно
в приложения, независимые разработчики
ПО могут воспользоваться этими средствами
с помощью нового WTE SDK 1.7. Для этого в WTE05
впервые реализован механизм контекстно-зависимого
распознавания (Contextual Awareness) с возможностью
использования различных правил обработки
вводимой информации. Это особенно актуально
для работы с документами, представляющими
собой формы с полями, заполняемыми данными
определенного типа (номера телефонов,
имена людей, списки профессий и т. п.).
Такой механизм существенно повышает
скорость ввода данных и улучшает качество
распознавания.
Расширенная поддержка
технологии P&I уже сейчас присутствует
в модернизированном варианте
Microsoft Office InfoPath 2003, выпущенном летом 2004
г. В новой версии этого продукта, предназначенного
для работы с динамическими структурированными
формами, реализованы режимы перьевого
ввода непосредственно в поля документов
и соответствующие правила контроля значимости
информации.
Кроме того, можно ожидать,
что будет быстро расти число
приложений, изначально ориентированных
на интегрированное применение
рукописных данных. Самым первым
таким приложением для планшетных
ПК был Tablet PC Journal, поставляемый в
составе ОС. Логическим развитием этой
идеи стало появление в составе семейства
Office 2003 нового продукта OneNote, который предназначен
для ведения разнообразных деловых и личных
заметок с совместным использованием
печатного текста, рукописных пометок,
графики и Web-контента. В обзоре этого продукта,
опубликованном год назад (см. "Платформа
Microsoft Office System 2003", "BYTE/Россия" №
12'2003), отмечалось, что для оценки его реальных
достоинств желательно иметь на компьютере
средство перьевого ввода с функцией распознавания
русского рукописного текста. С выпуском
русских версий Windows XP Tablet PC Edition 2005 и Microsoft
OneNote 2003 все это стало реальностью.
Распознавание речи
Возможность распознавания
речи была впервые (в продуктах
Microsoft) представлена в пакете Office XP, в WTE05
она реализована на уровне ОС. Как и для
рукописного ввода, обработка речи возможна
только для английского языка, для поддержки
национальных языков требуются дополнительные
продукты третьих фирм (для последних
имеется специальный набор для разработчиков
- Speech SDK). Для русского языка такие технологии
также существуют, но пока они не реализованы
в виде коммерческих продуктов для Windows.
Для распознавания
речи, конечно же, требуется подключить
к компьютеру микрофон. Данный
механизм подразумевает настройку
на конкретного пользователя. Поэтому
при первом же обращении к
средствам распознавания речи
понадобится обучить компьютер
произношению пользователя. В ходе
начального курса нужно указать
данные о себе - возраст (до 12 лет
или старше) и пол, а потом
читать в течение 10 мин предложенный
текст. С помощью выделения
автоматически показываются распознанные
слова, т. е. фактически выполняется
проверка произношения (движок настроен
на североамериканский вариант).
В будущем можно пройти дополнительные
уровни обучения, а также сделать
несколько профайлов для разных пользователей.
Процесс обучения включает также возможность
расширить речевую базу путем ввода слова
и записи его произношения.
Для текущей работы
есть два режима - ввод команд
и диктовка (они запускаются нажатием
соответствующих кнопок на языковой
панели). С первым все довольно
просто - вместо выбора команд
меню и кнопок панели инструментов
вы последовательно называете
нужные слова: File, Print, OK. Точно также
с помощью голоса выполняются установки
флажков и переключателей, выбор позиций
списков и ввод текстовых полей в появляющихся
диалоговых окнах. Автору с его далеким
от совершенства английским произношением
удалось "покомандовать" без особых
проблем.
В режиме диктовки
произносимый текст распознается
и вводится в документ в
печатном виде. Некоторые термины
зарезервированы в виде команд,
что позволяет управлять расстановкой
знаков препинания и форматированием
текста. В любой момент (после
каждого слова, фразы и т.
п.) можно перейти в режим коррекции
текста. При этом, выделив неверно
распознанное слово или фрагмент
текста, можно прослушать звуковую
запись диктующего (тут опять
выполняется определенное обучение).
Конечно же, данный
режим гораздо сложнее для
распознавания, и результат сильно
зависит от качества произношения.
Несмотря на наличие механизма
настройки на индивидуального
диктора, данный вариант движка
ориентирован (это подчеркивается
в документах Microsoft) на североамериканское
произношение. По оценкам Microsoft, прохождение
первого тестирования обеспечивает распознаваемость
речи для жителей США примерно на 80%, после
прохождения еще нескольких уровней обучения
- до 90-95%. Автор не может похвастать собственными
успехами в вводе произвольного английского
текста, но после начального обучения
фраза "I am writing this document" в его исполнении
распознавалась без проблем.
***
Подведем итоги. До
сих пор Tablet PC в нашей стране относились
к категории экзотики. Делать прогнозы
- вещь довольно рискованная, но все же
есть веские основания полагать, что к
концу 2005 г. такие устройства перейдут
в разряд товаров широкого спроса.