Системы машинного перевода

Автор работы: Пользователь скрыл имя, 11 Февраля 2012 в 17:30, реферат

Краткое описание

Механизация перевода – это старейшая мечта человечества. Но в XX веке такая мечта стала реальностью. Во многом это связано с постоянным стремлением общества к глобализации и даже с этническими конфликтами и политическими катаклизмами, с упрочнением социально-экономических связей между государствами, интеграции многих ранее «закрытых» стран в мировое сообщество. Знание иностранных языков - это не только полезный навык в повседневной жизни, но также одно из основных требований при приеме на работу. В

Содержание работы

Введение ……………………………………………………….………………. 3
1.1 Что такое машинный перевод?.................................................................... 5
1.2 Начало машинного перевода ……..………….……...….………………… 8
1.3 Этапы развития машинного перевода …………………….………….…. 12
1.4 Современный машинный перевод ……………..……………………….. 15
1.5 Машинный перевод в Интернете …….………………………………….. 18
Заключение ……………………………………………………………………. 21
Литература …….……………………...……………………………………….. 22

Содержимое работы - 1 файл

Информационные технологии управления.doc

— 124.50 Кб (Скачать файл)

       В 1954 общественности были предъявлены  первые результаты: фирма IBM совместно  с Джорджтаунским университетом (США) успешно осуществили первый эксперимент. Он вошёл в историю как так  называемый Джорджтаунский эксперимент, на котором была представлена первая версия электронного переводчика. В ходе эксперимента был продемонстрирован полностью автоматический перевод более 60 предложений с русского языка на английский. Презентация положительно повлияла на развитие машинного перевода в последующие 12 лет.

       Эксперимент был задуман и подготовлен  с целью привлечения общественного и правительственного внимания. Парадоксально, но в его основе лежала довольно простая система: она была основана всего на 6 грамматических правилах, а словарь включал 250 записей. Система была специализированной: в качестве предметной области для перевода была выбрана органическая химия. Программа выполнялась на мэйнфрейме IBM 701.

       В том же 1954 первый эксперимент по машинному переводу был осуществлен  в СССР И.К.Бельской (лингвистическая часть) и Д.Ю.Пановым (программная часть) в Институте точной механики и вычислительной техники Академии наук СССР, а первый промышленно пригодный алгоритм машинного перевода и система машинного перевода с английского языка на русский на универсальной вычислительной машине были разработаны коллективом под руководством Ю.А.Моторина. После этого работы начались во многих информационных институтах, научных и учебных организациях страны. Особого упоминания заслуживают работа в этой области отечественных лингвистов, таких, как И.А.Мельчук и Ю.Д.Апресян (Москва), результатом которой стал лингвистический процессор ЭТАП. В 1960 г. в составе НИИ математики и механики в Ленинграде была организована экспериментальная лаборатория машинного перевода, преобразованная затем в лабораторию математической лингвистики Ленинградского государственного университета.

       Демонстрация  Джорджтаунского эксперимента была широко освещена в СМИ и воспринята как успех. Она повлияла на решение правительств некоторых государств, в первую очередь США, направить инвестиции в область вычислительной лингвистики. Организаторы эксперимента уверяли, что в течение трёх—пяти лет проблема машинного перевода будет решена. Идея машинного перевода стимулировала развитие исследований в теоретическом и прикладном языкознании во всем мире. Появились теории формальных грамматик, большое внимание стало уделяться моделированию языка и отдельных его аспектов, языковой и мыслительной деятельности, вопросам языковой формы и количественных распределений лингвистических явлений. Возникли новые направления лингвистической науки – вычислительная, математическая, инженерная, статистическая, алгоритмическая лингвистика и ряд других отраслей прикладного и теоретического языкознания. В течение 1950-х годов в учебных центрах многих стран мира были открыты отделения прикладной лингвистики и машинного перевода. Так, в СССР такие отделения были созданы в Москве (МГУ им. М.В.Ломоносова, МГПИИЯ им. М.Тореза – ныне МГЛУ), в Минском МГПИИЯ, в Ереване, Махачкале, Ленинградском университете, в университетах Киева, Харькова, Новосибирска, ряда других городов. Исследования и разработки по машинному переводу развернулись также во Франции, Англии, США, Канаде, Италии, Германии, Японии, Нидерландах, Болгарии, Венгрии и других странах, а также в международных организациях, где велик объем переводов с различных языков. В настоящее время исследования ведутся и в таких странах, как Малайзия, Саудовская Аравия, Иран и др.  

1.3 Этапы развития машинного перевода. 

       В результате такого успешного старта развития машинного перевода, казалось, что создание систем качественного  автоматического перевода вполне достижимо  в пределах нескольких лет. При этом акцент делался на развитие полностью автоматических систем, обеспечивающих высококачественные переводы; участие человека на этапе постредактирования расценивалось как временный компромисс. Профессиональные переводчики всерьез опасались в скором времени остаться без работы...

       Однако исследования по машинному переводу за свою историю переживали как подъемы, так и спады. В 1950-х годах в исследования были вложены значительные средства, однако результаты очень скоро разочаровали инвесторов. Одной из главных причин невысокого качества машинного перевода в те годы были ограниченные возможности аппаратных средств: малый объем памяти при медленном доступе к содержащейся в ней информации, невозможность полноценного использования языков программирования высокого уровня. Другой причиной было отсутствие теоретической базы, необходимой для решения лингвистических проблем. В результате этого первые системы машинного перевода сводились к пословному (слово за словом) переводу текстов без какой-либо синтаксической, а тем более смысловой целостности.

       В 1959 году философ Й. Бар-Хиллел выступил с утверждением, что высококачественный полностью автоматический перевод не может быть достигнут в принципе. Он исходил из того, что выбор того или иного перевода обусловлен знанием внеязыковой действительности, а это знание слишком обширно и разнообразно, чтобы вводить его в компьютер. Однако Бар-Хиллел не отрицал идею машинного перевода, как таковую, считая перспективным направлением разработку машинных систем, ориентированных на использование их человеком-переводчиком (своего рода "человеко-машинный симбиоз"). Но это выступление самым неблагоприятным образом отразилось на развитии машинного перевода в США. В начале 1960-х годов завершился первоначальный эйфорический этап в развитии МП. Этому в сильнейшей степени способствовала публикация так называемой «Черной книги машинного перевода» – доклада Специального комитета по прикладной лингвистике (ALPAC) Национальной академии наук США, в котором была констатирована невозможность создания в обозримом будущем универсальных систем высококачественного машинного перевода. Комиссия пришла к заключению, что машинный перевод нерентабелен: соотношение стоимости и качества было явно не в пользу последнего, а для нужд перевода технических и научных текстов было достаточно человеческих ресурсов. Следствием этой публикации было сокращение финансирования и общее снижение интереса к проблематике машинного перевода, однако полного сворачивания исследований, в особенности теоретических, не произошло. И первые системы перевода продолжали пользоваться популярностью в военных и научных учреждениях СССР и США.

       Новый этап развития технологий машинного  перевода начался в 1970-х годах. Этот подъём был связан с появлением вычислительной техники - появление микрокомпьютеров, развитие сетей, увеличение ресурсов памяти. Программисты отказались от идеи создания “идеальной” машины-переводчика: новые системы разрабатывались с целью многократного увеличения скорости перевода информации, но с обязательным участием человека на различных стадиях процесса перевода для достижения наилучшего качества работы.

       О возрождении машинного перевода в 70-80-е гг. свидетельствуют следующие  факты: Комиссия Европейских общин (CEC) покупает англо-французскую версию Systran, а также систему перевода с русского на английский (последняя развивалась после доклада ALPAC и продолжала использоваться ВВС США и NASA); кроме того, CEC заказывает разработку французско-английской и итальянско-английской версий. В то время благодаря CEC были заложены основы проекта EUROTRA, основанного на разработках групп SUSY и GETA. Одновременно происходит быстрое расширение деятельности по созданию систем машинного перевода в Японии; в США Панамериканская организация здравоохранения (PAHO) заказывает разработку испанско-английского направления (система SPANAM); ВВС США финансируют разработку системы МП в Лингвистическом исследовательском центре при Техасском университете в Остине; группа TAUM в Канаде достигает заметных успехов в разработке своей системы METEO (которая использовалась в основном для перевода метеорологических сводок). Целый ряд проектов, начатых в 70-80-е гг., впоследствии развились в полноценные коммерческие системы. В нашей стране разработку основ технологии машинного перевода продолжила группа специалистов в ВИНИТИ под руководством профессора Г. Г. Белоногова. В результате в 1993 г. была создана промышленная версия системы RETRANS фразеологического машинного перевода с русского языка на английский и обратно, которая применялась в министерствах обороны, путей сообщения, науки и технологий, а также во ВНТИЦ.

       Очередной этап исследований в области машинного перевода – это 90-е года прошлого века. Связано это, конечно же, с колоссальным прогрессом современных персональных компьютеров, появлением качественных и доступных массовому пользователю сканеров и эффективных программ оптического распознавания текста и, конечно же, с появлением глобальной компьютерной сети Интернет. Всё это придало новый стимул работам по машинному переводу, привлекло в данную область новые значительные инвестиции и увенчалось серьезными практическими результатами. А именно, появились достаточно эффективные системы машинного перевода и компьютерные словари для работы на персональном компьютере; произошло объединение систем машинного перевода с системами оптического распознавания текста и проверки орфографии. Были созданы специальные средства машинного перевода для работы в Интернет, обеспечивающие либо перевод текстов на серверах соответствующих компаний, либо онлайновый перевод Web-страниц, позволяющий преодолевать языковой барьер и осуществлять навигацию по иностранным сайтам. 

1.4 Современный машинный перевод. 

       Сегодняшние программы-переводчики имеют гораздо  более широкий «кругозор» и действуют  на основе более совершенных переводческих  технологий. Системы перевода активно используются во всем мире в случаях, когда требуется быстро понять смысл текста или часто переводить большие объемы информации. Некоторым разработчикам на сегодняшний день удалось достичь весьма приемлемого качества перевода по отдельным языковым направлениям.

       Современный машинный перевод следует отличать от использования компьютеров в  помощь человеку-переводчику. В последнем  случае имеется в виду автоматический словарь, помогающий человеку быстрее подбирать нужный переводной эквивалент. В содержание термина «машинный перевод» входит представление о том, что главную, большую часть работы по переводу и отысканию переводных эквивалентов и переводных соответствий машина берет на себя. Человеку предоставляется лишь контроль и исправление ошибок, в то время как компьютерный словарь в помощь человеку – это чисто вспомогательное средство для быстрого нахождения переводных соответствий.

       В практике переводческой деятельности и в информационной технологии различаются  два основных подхода к машинному  переводу. С одной стороны, результаты машинного перевода могут быть использованы для поверхностного ознакомления с содержанием документа на незнакомом языке. В этом случае он может использоваться как сигнальная информация и не требует тщательного редактирования. Другой подход предполагает использование машинного перевода вместо обычного «человеческого». Это предполагает тщательное редактирование и настройку системы перевода на определенную предметную область. Здесь играют роль полнота словаря, ориентированность его на содержание и набор языковых средств переводимых текстов, эффективность способов разрешения лексической многозначности, результативность работы алгоритмов извлечения грамматической информации, нахождения переводных соответствий и алгоритмов синтеза. На практике перевод такого типа становится экономически выгодным, если объем переводимых текстов достаточно велик, если тексты достаточно однородны, словари системы полны и допускают дальнейшее расширение, а программное обеспечение удобно для постредактирования. Такого рода системы машинного перевода используются в организациях, потребности которых в оперативных и качественных переводах достаточно велики.

       В рамках технологии машинного перевода существует два подхода: традиционный (основанный на правилах) и статистический (основанный на статистической обработке словарных баз). Традиционный метод МП используется большинством разработчиков систем перевода. Работа такой программы включает в себя несколько этапов и, по сути, заключается в использовании лингвистических правил (алгоритмов). Соответственно, создание такого электронного переводчика включает в себя разработку правил и пополнение словарных баз системы. От разработки необходимых алгоритмов зависит качество перевода на выходе. Богатый словарь системы также позволяет справиться с переводом самых разнообразных по тематике текстов. Статистический метод действует совсем по иному принципу. В его основе лежат математические методы для получения перевода. Точнее, весь принцип работы подобной системы основан на статистическом вычислении вероятности совпадений фраз из исходного текста с фразами, которые хранятся в базе системы перевода.

       В России с помощью традиционного  способа машинного перевода разрабатываются  программные продукты компании ПРОМТ - единственного в нашей стране производителя программ-переводчиков. В настоящее время компания ПРОМТ – ведущий разработчик систем автоматизированного перевода и обладает колоссальным технологическим багажом, что позволяет разрабатывать системы перевода с различными функциональными возможностями. Уникальные технологии построения систем перевода и оригинальные алгоритмы работы с текстами на естественных языках стали тем базисом, на котором были созданы все программные продукты компании, и который обеспечил возможность разработки широкого спектра решений для автоматизированного перевода с одного языка на другой. Программные продукты компании ПРОМТ одинаково полезны как для решения бизнес-задач, так и для домашнего использования. В последнее время особое внимание компания ПРОМТ уделяет созданию специальных средств и технологий для профессиональных переводчиков. В настоящее время системы ПРОМТ выполняют перевод для 24 языковых направлений. Генеральный словарь для одной языковой пары содержит от 40 до 200 тысяч словарных статей, которые в свою очередь содержат структурированное описание различной лингвистической информации, необходимой системе для работы сложнейших алгоритмов анализа и синтеза текста. Словари по тематикам содержат специфические слова и выражения, характерные для предметной области, их объем может меняться от 5 до 50 тысяч словарных статей. Например, для англо-русской и русско-английской систем разработаны специализированные словари, охватывающие более 50 различных тематик. 

1.5 Машинный перевод в Интернете. 

       Онлайновый  перевод информации в Интернете  становится все более популярным. Интернет стремительно превращается из преимущественно англоязычной в  многоязычную среду, что вынуждает владельцев Web-сайтов предоставлять информацию на нескольких языках. Наиболее часто к услугам МП прибегают информационные и поисковые сайты, которые стремятся привлечь на свои страницы разноязычных пользователей. Так, на канадском информационно-поисковом портале InfiniT (http://www.infiniT.com) открылся новый сервис переводов. На сайте теперь доступен онлайновый перевод текста с английского и немецкого языков на французский язык и обратно. Увеличение числа посетителей портала обусловлено возможностью онлайнового перевода Web-страниц. Для этого пользователю достаточно указать только адрес Web-страницы, выбрать направление перевода и нажать кнопку перевода. В результате через несколько секунд пользователь получает полностью переведенную Web-страницу с сохранением форматирования. 
Новый сервис позволяет ликвидировать языковую проблему в канадском Интернете, где в силу исторических особенностей широко используются два языка: английский и французский. Кроме того, онлайновый переводчик открывает доступ к сайтам на немецком языке тем жителям Канады, которые не владеют иностранными языками. Сервис работает на базе серверного Интернет-решения компании ПРОМТ под названием PROMT Internet Translation Server version 2.0. Проект был реализован совместно с компанией Softissimo, которая занимается продвижением продуктов компании ПРОМТ под торговой маркой REVERSO. Интересной особенностью Web-сайтов, знакомящих с программами МП, электронными словарями и другими программами лингвистической поддержки, является то, что с работой многих программных продуктов можно познакомиться в интерактивном режиме, используя версию, установленную на сервере и имеющую шлюз для удаленного общения через Web-интерфейс. На сервере Web-издательства "ИнфоАрт" (http://www. 
infoart.ru/misc/dict) организована интерактивная демонстрация словарей Lingvo и "МультиЛекс". Вы можете ввести слово или словосочетание и мгновенно получить перевод, толкование, примеры употребления и устойчивые словосочетания.

Информация о работе Системы машинного перевода