Автоматическое реферирование и аннотирование текста

Автор работы: Пользователь скрыл имя, 22 Апреля 2012 в 00:34, реферат

Краткое описание

Рефератом называется связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы, основные результа­ты описанного исследования или разработки. Рефераты обычно составляют к научно-техническим документам (науч­ным книгам, статьям, патентам на изобретение и т.п.) Реферат ак­центирует внимание читателя на новых сведениях и определяет целесообразность его обращения к исходному документу.

Содержимое работы - 1 файл

Системы автоматического реферирования.doc

— 188.50 Кб (Скачать файл)

Главным ограничением обоих методов является требование сжатия. Объем аннотации, или реферата должен составлять от 5 до 30% исходного текста. Подготовка аннотаций нескольких источников информации или формирование сводок для карманных устройств предполагает еще большую степень сжатия. Добиться выполнения таких жестких требований очень сложно, поскольку для этого необходим немалый запас знаний.
 

Еще одну сложность представляет оценка средств реферирования. Необходима гарантия того, что аннотация действительно является адекватной заменой текста, иными словами, пользователь должен быть уверен, что в кратком изложении выражены все основные мысли оригинала. Поэтому методы создания и оценки рефератов должны развиваться параллельно.

 

 

 

Различия средств реферирования

 

Главное различие между средствами реферирования состоит в том, что они, по существу, формируют  краткое изложение или набор выдержек. Так, выдержки из Геттисбергского обращения Авраама Линкольна могут выглядеть следующим образом: «Восемьдесят семь лет назад наши отцы ступили на эту землю, чтобы создать новую нацию». Краткое изложение того же текста будет звучать так: «В этой речи Авраам Линкольн призывает вспомнить солдат, которые отдали свои жизни в битве при Геттисберге». Оба типа изложения преследуют две основных цели: определить основную (или наиболее важную) мысль оригинала и принять решение о методе сокращения (или сжатия, или «урезания») информации. Однако рефераты различаются по функции  и целевым группам пользователей. Так, например, реферат может быть повествовательным, информативным или критическим.
 

Повествовательные рефераты формируются по классическому принципу извлечения информации: они предоставляют достаточный объем информации, чтобы создать у пользователя представление о соответствующих источниках, с тем чтобы их можно было отобрать для более внимательного прочтения.
 

Информативные рефераты заменяют собой текст, в основном они содержат основную или новую фактическую информацию в сокращенной форме.
 

Критические рефераты (или обзоры) сообщают не только суть информации, но и предлагают определенное мнение о ней. Критические рефераты обладают дополнительной ценностью по сравнению с оригиналом, поскольку предлагают выводы, которых нет в самом тексте. Критический реферат Геттисбергского обращения мог бы выглядеть так: «Несмотря на свою краткость, обращение, без сомнения, можно отнести к величайшим речам и истории Америки. Наиболее сильное впечатление оставляют его заключительные слова о власти народа».
 

Реферат может быть общим или ориентированным на специфического пользователя. Рефераты первого типа ориентируются на широкий круг читателей; к ним не предъявляются какие-либо специальные требования, поскольку реферат не предназначен для какой-то одной группы читателей. Рефераты второго типа, напротив, адресованы конкретному пользователю или группе пользователей с их специфическими потребностями (например, детям). Ориентированный на пользователя реферат обращения может быть, например, таким: «Сейчас мы ведем великую гражданскую войну... Мы должны принять главное сражение этой войны!»
 

До недавнего времени общие рефераты пользовались большей популярностью, однако, распространение полнотекстовых поисковых механизмов и средств фильтрации информации, адаптирующихся к требованиям конкретных пользователей, приводят к тому, что настраиваемые рефераты приобретают все большее значение.

 

 

 

Методы и архитектуры

 

Процесс реферирования распадается на три этапа: анализ исходного текста, определение его характерных фрагментов и формирование соответствующего вывода. Большинство современных работ концентрируются вокруг разработанной технологии реферирования одного документа.

Составление выдержек

 

Метод составления выдержек, предполагает акцент на выделение характерных фрагментов (как правило, предложений). Для этого методом сопоставления фразовых шаблонов, выделяются блоки наибольшей лексической и статистической релевантности. Создание итогового документа в данном случае - просто соединение выбранных фрагментов.
 

В большинстве методов применяется модель линейных весовых коэффициентов. Основу аналитического этапа в этой модели составляет процедура назначения весовых коэффициентов для каждого блока текста в соответствии с такими характеристиками, как расположение этого блока в оригинале, частота появления в тексте, частота использования в ключевых предложениях, а также показатели статистической значимости. Сумма индивидуальных весов, как правило, определенная после дополнительной модификации в соответствии со специальными параметрами настройки, связанными с каждым весом, дает общий вес всего блока текста U:
 

Weight(U) := Location(U) + CuePhrase(U) + StatTerm(U) + AddTerm(U)
 

Весовой коэффициент расположения (Location) в данной модели зависит от того, где во всем тексте или в отдельно взятом параграфе появляется данный фрагмент — в начале, в середине или в конце, а также используется ли он в ключевых разделах, например, вводной части или в заключении.
 

Ключевые фразы представляют собой лексические или фразовые резюмирующие конструкции, такие как «в заключение», «в данной статье», «согласно результатам анализа» и так далее. Весовой коэффициент ключевой фразы может зависеть также и от принятого в данной предметной области оценочного термина, типа «отличный» (наивысший коэффициент) или «малозначащий» (значительно меньший коэффициент).
 

Кроме того, при назначении весовых коэффициентов в этой модели учитывается показатель статистической важности (StatTerm). Статистическая важность вычисляется на основании данных, полученных в результате анализа автоматической индексации, при котором исследователи выявляют и оценивают целый ряд метрик, определяющих весовые коэффициенты термина. Эти метрики позволяют выделить документ из числа других в определенном наборе документов.
 

Одна группа метрик, например, метрика tf.idf, характеризует баланс между частотой появления термина в документе и частотой его появления в наборе документов (как правило, используется с другими метриками частоты и средствами нормализации длины).
 

И, наконец, эта модель предполагает просмотр терминов в блоке текста и определение его весового коэффициента в соответствии с дополнительным наличием терминов (AddTerm) – появляются ли они также в заголовке, в колонтитуле, первом параграфе и в пользовательском профиле запроса. Выделение приоритетных терминов, наиболее точно отражающих интересы пользователя, – это один из путей настроить реферат или аннотацию на конкретного человека или группу.
 

На рис. 1 приведена обобщенная архитектура реферирования без опоры на знания.


 


Рис. 1. Oбобщенная архитектура реферирования без опоры на знания


 

На аналитическом этапе применяется модель линейных весовых коэффициентов, предполагающая выполнение последовательности вычислений частоты и операций сопоставления строк или шаблонов, которые для каждого блока исходного текста выдают весовые коэффициенты четырех типов (Location, CuePhrase, StatTerm, AddTerm). Затем эти коэффициенты суммируются для каждого блока, после чего выбираются n блоков, обладающих наивысшей суммой коэффициентов (значение n может быть определено на основании степени сжатия) для включения в реферат.
 

Этот метод был создан еще в 60 – 70-х годах, но большинство систем, подготавливающих такого рода конспект на основе выдержек, до их пор используют подход, проиллюстрированный на рис. 1. Анализ сравнительных характеристик различных моделей, произведенный с целью определить производительность каждой, показал, что локализацию блоков текста можно считать одной из самых полезных функций, особенно в сочетании с функцией выявления ключевых фраз.
 

В большинстве систем пользователь задает параметры настройку вручную, и выбор параметров зависит скорее от текущих потребностей, поскольку относительная значимость различных характеристик может сильно различаться для текстов разного стиля. Пытаясь автоматизировать этот процесс и, возможно, повысить производительность, исследователи из Xerox PARC, такие как Джулиан Купьеч и его коллеги, разработали классификатор, способный обучаться правилам выделения фрагментов. На рис. 2 показано, как этот классификатор использует набор определенных пользователем рефератов и соответствующие исходные тексты для автоматического определения критериев адекватного выбора фрагментов.


 


Рис. 2. Автоматическое определение критериев адекватного выбора фрагментов.


 

Этот основанный на собрании документов метод, который используют системы реферирования Inxight, подходит для текстов различных стилей, но для этого пользователи должны располагать полными текстами и соответствующими рефератами для каждого стиля.

 

Конечно, главное преимущество линейной модели заключается в простоте ее реализации. Однако выделение предложений (или параграфов), не учитывающее взаимоотношений между ними, приводит к формированию бессвязных рефератов. Некоторые предложения могут оказаться пропущены, либо в них могут встречаться «висящие» слова или словосочетания (слово или фраза, которые невозможно понять без другого слова или фразы). Например, если в тексте содержится обоснование некоего положения, состоящее из нескольких фраз, а в реферат попадает только одна из них, смысл может быть потерян или искажен. Можно привести следующий текстовый фрагмент, который иллюстрирует эту проблему. «Билл Диксон поступил на работу в Procter & Gamble в 1994 году. В 1996 году он стал ее вице-президентом». В этом фрагменте можно указать два потенциально «висящих» слова «он» и «ее», которые не имеют смысла без предыдущей фразы, из которой становится ясно, что «он» – это Диксон, а «ее» – это компания Procter & Gamble. Если в реферате первая фраза будет потеряна, текст потеряет свою информативность.
 

Есть множество работ, в которых делаются попытки решить эту проблему, в основном за счет разного рода «заплаток». В ряде подходов создается специальное окно для предыдущего предложения реферата, с помощью которого можно определить наличие смыслового разрыва или «висящего» слова. В других случаях предложения, содержащие «висящие» слова, исключаются из реферата, либо делаются попытки разрешения ссылок, которые предполагают такие слова, или их сверки путем краткого лингвистического анализа. При таком подходе степень сжатия уменьшается, т. к. в реферат привносится посторонняя информация. Кроме того, когда основной реферат уже сформирован, трудно восстановить исходный процент сжатия.

 

Формирование краткого изложения

 

Когда Кельвина Кулиджа однажды спросили, что говорил священник на проповеди о грехе, он ответил: «Он рассказал, чего следует воздерживаться». Этот ответ служит примером возможностей интуитивного понимания, положенного в основу изложения – человеку, который уловил общий смысл информации, легче выделить главное и изложить вкратце ее содержание.
 

В отличие от линейной модели в методах подбора выдержек, для подготовки краткого изложения информации, требуются мощные вычислительные ресурсы для систем обработки естественных языков (NLP — natural language processing), в том числе грамматики и словари для синтаксического разбора и генерации естественно-языковых конструкций. Кроме того, для реализации этого метода нужны некие онтологические справочники, отражающие соображения здравого смысла и понятия, ориентированные на предметную область, для принятия решений во время анализа и определения наиболее важной информации.
 

Как показано на рис. 3, метод формирования краткого изложения предполагает два основных подхода.


 


Рис. 3. Два основных подхода метода формирования краткого изложения



 

Первый (вверху) опирается на традиционный лингвистический метод синтаксического разбора предложений.
 

В этом методе применяется также семантическая информация для аннотирования деревьев разбора. Процедуры сравнения манипулируют непосредственно деревьями с целью удаления и перегруппировки частей, например, путем сокращения ветвей на основании некоторых структурных критериев, таких как скобки или встроенные условные или подчиненные предложения. После такой процедуры дерево разбора существенно упрощается, становясь, по существу, структурной «выжимкой» исходного текста.
 

Второй подход к составлению краткого изложения уходит корнями в системы искусственного интеллекта и опирается на понимание естественного языка. Синтаксический разбор также входит составной частью в такой метод анализа, но деревья разбора в этом случае не порождаются. Напротив, формируются концептуальные репрезентативные структуры всей исходной информации, которые аккумулируются в текстовой базе знаний. В качестве структур могут быть использованы формулы логики предикатов или такие представления, как семантическая сеть или набор фреймов. Примером может служить шаблон банковских транзакций (заранее определенное событие), в котором перечисляются организации и лица, принимающие в нем участие, дата, объем перечисляемых средств, тип транзакции и т.д.
 

Представленный на рис. 3 этап преобразования уникален для реферирования на базе знаний. В процессе преобразования концептуальное представление претерпевает несколько изменений. Избыточная и не имеющая прямого отношения к тексту информация устраняется путем удаления поверхностных суждений или отсечения концептуальных подграфов. Затем информация подвергается дальнейшему агрегированию путем слияния графов (или шаблонов) или обобщения информации, например, при помощи таксономических иерархий отношений подклассов. Для выполнения этих преобразований предложены методологии на базе выводов, такие как макроправила, которые манипулируют логическими предположениями, или операторы, которые выделяют определяющие шаблоны в текстовой базе знаний. В результате преобразования формируется концептуальная репрезентативная структура реферата, по существу, концептуальные «выжимки» из текста.
 

Наличие этих формальных репрезентативных слоев (структурные и концептуальные «выжимки») отличает подход на базе знаний от подхода, не предполагающего опору на знания. Как видно из рис. 3, этап синтеза одинаков для обоих подходов: текстовый генератор преобразует структурное или концептуальное представление в естественно-языковую аннотацию. Некоторые системы предоставляют пользователю возможность управлять получаемыми «выжимками» методом указания, и не предполагают этапа генерации, при условии, что исходные тексты предоставляются наряду с их кратким изложением. Этот тип реферирования опирается на предварительно определенные структуры знаний, которые заранее указывают системе реферирования, какую концепцию считать более характерной, или какие концептуальные свойства (роли или поля) имеет та или иная концепция. Средство реферирования полностью представляет семантическую информацию в виде связей между узлами в концептуальном графе, как таксономические (подкласс или экземпляр) или метонимические (часть) отношения. В этом случае, он также задает направление и критерии выбора для процедуры поиска или формирования заключений. Правила вывода на базе рефератов или общие схемы вывода (такие как терминологическая классификация) используют эту информацию для определения информации, наиболее точно отражающей существо текста. Эта информация определяет, какие иерархии обобщения должны быть пройдены и какие концептуальные подграфы могут быть при необходимости сжаты. На рис. 4 показаны основы этого процесса.

Информация о работе Автоматическое реферирование и аннотирование текста