Автоматическое реферирование и аннотирование текста

Автор работы: Пользователь скрыл имя, 22 Апреля 2012 в 00:34, реферат

Краткое описание

Рефератом называется связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы, основные результа­ты описанного исследования или разработки. Рефераты обычно составляют к научно-техническим документам (науч­ным книгам, статьям, патентам на изобретение и т.п.) Реферат ак­центирует внимание читателя на новых сведениях и определяет целесообразность его обращения к исходному документу.

Содержимое работы - 1 файл

Системы автоматического реферирования.doc

— 188.50 Кб (Скачать файл)


 

Рис. 4. Правила вывода на базе иерархий обобщений.


Выдержки или изложение

 

Методы извлечения выдержек легко настроить для обработки крупных массивов информации. Поскольку их деятельность ограничена выбором фрагментов, предложений или фраз, текст реферата лишен связности. С другой стороны, метод формирования кратких изложений выдает более сложные аннотации, которые нередко содержат информацию, дополняющую исходный текст. Так как они опираются на формальное представление информационного наполнения документа, их можно настроить на весьма высокие степени сжатия, например, такие, которые требуются для рассылки сообщений на устройства PDA. Методы заполнения шаблонов подходят только для текстов, построенных по определенному шаблону, хотя средства реферирования могут использовать определенные статистические технологии на этапе анализа.
 

Методы, предполагающие опору на знания, как правило, требуют полноценных источников знаний. Это требование до сих служило препятствием для их широкого распространения. Последние тенденции в области систем NLP на базе наборов текстов сулят в будущем предоставление синтаксических анализаторов, охватывающих широкий диапазон знаний, исчерпывающих словарей (таких как WordNet) и онтологических справочников (таких как CYC или Penman Upper Model). Кроме того, для обучающих систем NLP наработан большой объем текстов, в том числе набор текстовых файлов, таких как The Wall Street Journal, или грамматически аннотированных наборов, таких как Penn Treebank консорциума Linguistic Data Consortium. И, наконец, разработчики средств реферирования все больше склоняются к гибридным системам, а исследователям все более успешно удается объединять статистические методы и методы, основанные на знаниях.

 

 

 

Методы оценки

 

Целью методов оценки рефератов является определения адекватности (и достоверности) или пользы реферата по отношению к оригинальному тексту. Сейчас известны две методики оценки. Первый – оценка «изнутри» (или нормативная оценка). Пользователи судят о качестве реферата, анализируя сам реферат. Пользователи оценивают гладкость текста, делают вывод о том, насколько хорошо реферат отражает основные идеи оригинала, либо сравнивают его с идеальным рефератом, написанным автором исходного текста или другим специалистом. Ни одна из этих оценок не может считаться полностью удовлетворительной. В частности, идеальный реферат составить исключительно сложно и такие продукты очень редки. Подобно тому, как существует множество способов описать некое событие, пользователи могут признать приемлемыми несколько рефератов, будь то настроенные на пользователя или общие краткие изложения или наборы выдержек. Как показывает практика, люди вообще редко приходят к согласию относительно того, какие положения или выражения следует включать в реферат.
 

Второй метод – оценка «извне». Пользователи оценивают качество реферата по тому, как он влияет на завершение той или иной работы, например, помогает ли он найти источники информации по данному вопросу или насколько хорошо он позволят ответить на определенные вопросы, относящиеся ко всему содержанию текста.
 

Недавно в США была проведена крупномасштабная оценка систем реферирования. Она проходила в рамках программы Tipster, целью которой было способствовать совершенствованию технологий обработки текстов. Программа предполагала две оценки. На первом этапе пользователь получал возможность ознакомиться либо с источником, либо с рефератом, ориентированным на пользователя, и должен был решить, соответствует ли увиденный им текст заявленной теме. На втором этапе пользователь мог ознакомиться либо с источником, либо с общим рефератом и должен был либо выбрать тему (из нескольких предложенных вариантов), к которой, по его представлению должен был относиться документ, или решить, соответствует ли он хотя бы какой-либо теме. Как видно из таблицы 1, автоматические средства реферирования проявили себя в этом испытании очень хорошо.
 


Таблица 1. Оценка релевантности с использованием рефератов по отношению к полному тексту


Тип реферата


Сжатие по длине


Сжатие по времени


Потери точности


Ориентированные на пользователя


77%


50%


5%


Общие


90%


60%


0%


На основании реферата, составляющего всего от 27 до 10% текста, пользователи могут составить заключение о тексте так же точно, как из него самого, затратив на это вполовину меньше времени (5-процентная погрешность не является статистически значимой).
 

В ходе этого тестирования не учитывались конкретные методы реферирования; все 16 систем реферирования основывались на подходе, не предполагающем опору на знания. Они различались своей способностью вырабатывать рефераты, ориентированные не пользователя; системы, наиболее точно отражающие потребности пользователей, демонстрировали сходное поведение при выделении предложений.

 

 

 

 

Новые сферы применения

 

Сейчас оформляются четыре области, где велика потребность в реферировании. Во всех четырех – средствам реферирования придется иметь дело с такими форматами документов, как HTML и XML. Кроме того, они должны будут пользоваться информацией, заключенной в тегах, связанных с каждым документом. Работа над средствами реферирования гибридных источников и источников на разных языках только начинается, первые прототипы были предложены для реферирования большого числа документов и подготовки аннотаций для мультимедийных источников.

Различные языки

 

Высококачественные машинные переводчики, обрабатывающие любой ввод, пока остаются предметом мечтаний. Все, на что можно рассчитывать сейчас в этой области, и что может оказаться действительно полезным, – это механизмы фильтрации. Пользователи могут применять такие фильтры для получения одноязычных рефератов, охватывающих информацию из источников на разных языках. После этого нетрудно решить, нужен ли более подробный перевод этих источников.

Гибридные источники

 

В этих приложениях средства реферирования должны извлекать информацию из отформатированных данных и из неотформатированного текста. Таковы, например, сообщения об игроке футбольной команды, в которых статистическая информация о нем объединена с информацией из базы данных, содержащей сведения о его последних успехах. Такие приложения еще очень новы и не имеют под собой серьезного теоретического фундамента.

Большое число документов

 

В средствах реферирования этого типа методы реферирования одного документа должны быть распространены на большой набор документов. Объем такого набора может варьироваться от гигабайт до байт. Для обработки разных объемов нужны разные механизмы. Каждый метод предполагает анализ каждого документа набора и извлечение информации из всех в процессе преобразования и синтеза. Средства реферирования по-прежнему должны выполнять операции отсечения информации, ее объединения и обобщения, и при этом иметь дело с набором документов вместо одного. Простое объединение рефератов каждого документа не может считаться удовлетворительным, т. к. при наличии большого числа рефератов они неизбежно будут содержать избыточную информацию.
 

Средства реферирования должны выявлять сходства и различия во всех документах (что общего, что присуще только одному документу, в чем они различаются) путем сравнения и слияния представлений содержимого документа, полученных на этапе анализа. Так, например, при использовании генератора естественного языка, средство реферирования может формировать по шаблону анонс новости дня о террористическом акте, причем информация о двух событиях находится в двух различных источниках.
 

По сообщениям агентства «Рейтер» в результате террористического акта совершенного в городе N, погибло 6 человек. Однако AP сообщает о большем количестве жертв.
 

Поскольку несколько отличающиеся друг от друга сообщения об одном и том же событии нередко появляется в различных источниках информации, были разработаны средства реферирования, которые отбрасывают избыточную информацию из всех сообщений и предоставляют их краткое изложение.
 

Другие средства реферирования могут отслеживать общую тему в различных сообщениях и представлять результаты своей работы при помощи диаграмм и графиков.

Мультимедиа

 

Хотя исследования в этой области находятся еще на очень ранней стадии, растущий объем мультимедийной информации делает ее едва ли не самым важным объектом для обработки средствами реферирования. Соответствующие технологии должны обрабатывать информацию из источников разного типа на этапе анализа, на этапе извлечения и на этапе синтеза, когда происходит интеграция информации разного типа. Существующие методы работы с аудио позволяют вычленять из потока информации законченные фрагменты (иными словами, распознавать периоды тишины в разговоре, смену говорящего, снятие телефонной трубки, а также осуществлять контентный анализ). Есть также технологии обработки видео (определения ключевых элементов и логотипа, например), которые помогают определить существенные ее фрагменты. Так, например, цель одной ведущейся в настоящее время работы состоит в том, чтобы определять содержание, скажем, видеофильмов, при помощи ПО распознавания шаблонов. Оно позволяет определить, какие фрагменты содержат интересные события (например, происшествия, драки, яркие проявления характеров и другие).
 

В перспективе, во всяком случае, в ближайшей, подход, не предполагающий опору на знания, будет доминировать, особенно в сочетании с механизмами обучения выбору. Приложения на базе знаний могут получать большее распространение в тех предметных областях, для которых существуют достаточно большого размера грамматики и источники знаний. Важно учитывать, что для работы с этими источниками нужны либо специалисты, обладающие широкими познаниями в своей области, либо необходимо сделать упор на методы машинного обучения. Для того чтобы сделать возможной эмпирическую оценку автоматически сформированных рефератов, необходимы дополнительные наборы текстов (и их рефератов).
 

В целом, отрасль средств реферирования находится в самом начале своего развития. Существует единое мнение о необходимости лучших методов оценки, однако, большинство задач еще не решено, в том числе, сохраняется необходимость в масштабируемых методологиях создания аннотаций. Тем не менее, многие из описанных здесь технологий уже работают, и можно ожидать, что инструменты реферирования будут играть решающую роль в завоевании широких информационных пространств в будущем.

6

 



Информация о работе Автоматическое реферирование и аннотирование текста