Лабораторная работа №2 -метапоисковые системы

Автор работы: Пользователь скрыл имя, 13 Марта 2012 в 15:56, лабораторная работа

Краткое описание

Отличия в стратегии и широте охвата материала различных поисковых систем часто приводят к тому, что разные средства поиска дают разноречивые ответы на один и тот же запрос. Этим воспользовались разработчики метапомсковых систем, которые в своей работе исполь¬зуют потенциал других средств информационного поиска

Содержимое работы - 1 файл

лаба№2.docx

— 54.48 Кб (Скачать файл)

Лабораторная работа №2

по курсу «Информационные системы в экономике»

Метапоисковые системы

 

1. Определение метапоисковых  систем.

Отличия в стратегии и широте охвата материала  различных поисковых систем часто приводят к тому, что разные средства поиска дают разноречивые ответы на один и тот же запрос. Этим воспользовались разработчики метапомсковых систем, которые в своей работе используют потенциал других средств информационного поиска (рис. 5.). Метапоисковые системы - это надстройки над поисковыми системами и электронными каталогами, которые не имеют собственной базы данных (индекса) и при поиске по поисковому предписанию пользователя самостоятельно формируют запросы для нескольких внешних средств

 

  Рис. 5. Типовая схема метапоисковой  системы

поиска, а затем анализируют полученные результаты и выдают список ссылок в порядке, определяемом соотношением рейтингов ответа сразу по нескольким средствам поиска. Иначе, такая система  ведет опрос нескольких поисковых систем, а затем отбирает ссылки, следуя собственному алгоритму. Метапоисковые системы позволяют сократить время, затраченное на поиск информации, так как при обработке запроса пользователя эти системы одновременно обращаются к нескольким различным средствам поиска. Метапоисковые системы наиболее эффективны на начальных этапах поиска информации. Они помогают локализовать средства поиска, в которых присутствуют сведения об искомой пользователем информации.

2. Рассмотрим метапоисковые системы nigma, Exactus, Hot Bot.

    а) Дата рождения проекта Нигма.РФ - 12 апреля 2005 года. Примерно за год до этой знаменательной даты родилась идея создания поисковой системы с новым методом обработки и анализа полученных данных - методом кластеризации.Создатель проекта - Виктор Лавренко - ранее работавший в компании Mail.ru. Активная работа по созданию принципиально новой поисковой системы началась в первой половине 2005 года и продолжается по сей день. Название Nigma (один из трех родов пауков семейства Dictunidae) появилось очень просто: во-первых, оно короткое и запоминающееся, во-вторых, нам нужна была аналогия с Сетью, Всемирной Паутиной, то есть Интернетом. В рамках проекта «Интеллектуальная поисковая система Нигма.РФ» команда программистов работает над созданием системы, построенной на основе разработок в области искусственного интеллекта. Конечная цель проекта — создание поисковой системы, позволяющей анализировать содержание документов и выдавать конкретную информацию на запрос пользователя, а не ссылки на другие сайты. Разработчиками были созданы такие сервисы, как «Нигма-математика» (решение математических задач), «Нигма-химия» (решение химических задач), сервис ответов на вопросы пользователей, табличный поиск и многие другие. Ежедневно пользователи поисковой машины «Нигма.РФ» делают более 1 миллиона переходов на сайты, ежемесячная аудитория сайта «Нигма.РФ» составляет более 3 000 000 уникальных посетителей.

б) Алгоритм поиска Exactus объединяет статистическую и лингвистическую составляющие. Из статистических характеристик текста Exactus учитывает TF*IDF веса термов и значимость фрагментов текстов (на основе HTML-разметки документов). Лингвистическая составляющая – значения синтаксем (минимальных семантико-синтаксических единиц текста) и их сочетаемость в конкретном предложении. Это позволяет отбирать только те тексты, в которых семантическое значение синтаксемы совпадает с ее семантическим значением в запросе (что невозможно в обычных статистических методах). Кроме того, это позволяет обработать ситуацию, когда целевая синтаксема является элементом более сложной синтаксической конструкции. Пример:

Запрос: «К чему приводит инфляция?».

Документ 1: «Инфляция приводит к снижению темпов экономического роста».

Документ 2: «Строительство непроизводственных мегаобъектов приводит к росту инфляции».

 

В результате для системы Exactus первый документ наиболее предпочтителен, так как во втором документе «инфляция» находится в другом семантическом значении. Пример показателен еще и тем, что для традиционных поисковых машин Интернет вопросительные слова и предлоги являются стоп-словами и не учитываются при поиске. Это приводит к невозможности отличить семантические значения слов и, как следствие, понижению точности поиска. В результате Документ1 и Документ2 являются равнозначными для традиционных поисковых машин, а для Exactus – совсем нет.

 

Поиск в  Excatus может быть проведен только после предварительной индексации документов. На этапе индексации производится преобразование документов к внутреннему формату Exactus, обсчет TF*IDF  весов термов с учетом морфологии русского языка. Параллельно этому производится синтаксический и семантический анализ текстов, что позволяет выявить подчинения синтаксем в тексте и их семантические значения. Полученные в результате анализа данные укладываются в линейные упорядоченные списки.

В результате поиск в Exactus представляет собой слияние и переранжирование линейных упорядоченных списков, что опять же аналогично концепции большинства поисковых машин. Особенностью алгоритма являются весовые коэффициенты и алгоритм предварительной индексации текстов, которые позволяют учесть как статистические, так и семантические составляющие единиц текста. 

в) Поисковая система Hot Bot (Хот Бот) самая молодая из рассматриваемых нами всемирных поисковых систем. Так же как Yahoo и Infoseek, в ней имеется каталог, но кроме него информация выдаётся по запросам, как в системе Alta Vista. Обычный поиск в данной системе аналогичен такой же операции в других системах. Но расширенные возможности поиска в системе Hot Bot реализованы достаточно оригинально. Для ввода запросов не требуется знать специальные правила, запросы формируются вами прямо на данной странице путём ввода значений и выбора других значений из списка.

Система Hot Bot достаточно удобна для поиска. Количество ссылок в системе растёт быстрыми темпами, но при этом скорость работы системы остаётся достаточно высокой.

В предыдущих опытах мы рассмотрели  поиск информации с помощью четырёх  популярных систем. В настоящее время  в Интернете работают сотни поисковых  систем, и выбор той или другой зависит от вашего вкуса и ваших  запросов. Однако основные принципы поиска остаются всегда неизменными.

3. Результаты поиска по  запросу «информационные системы»:

Nigma.ru  

При обычном поиске 536 млн. результатов,

При использовании расширенного поиска : с любым из слов 15 млн. результатов, с точной фразой 7,3 млн. результатов.

Excatus

При обычном поиске найдено 43 документа,

При использовании расширенного поиска: с семантическим профилем  найдено 92 документа, с профилем «поиск по ключевым словам» найдено 88 документов, с профилем « поиск точных фактов» найден 91 документ.

Hot Bot

В этой системе поиск производится в Yahoo, lyGO, and MSN!  В lyGO представляются в виде картинок. в Yahoo, MSN результаты  представлены в виде ссылок. Количество  не понятно.

4. В настоящее время в Интернете  работают сотни поисковых систем, и выбор той или другой зависит  от вашего вкуса и ваших  запросов. Однако основные принципы  поиска остаются всегда неизменными.

Мы выполнили  операции поиска с помощью нескольких систем, обеспечивающих поиск в русскоязычной  части Интернета и ведущих  обширные каталоги. Какая из этих систем станет наиболее удобной – покажет  время. Сейчас все они активно  развиваются, а кроме того появляются и другие поисковые системы. Мы советуем вам посмотреть на описание систем через некоторое время, возможно одна из них станет намного удобнее  и мощнее, чем другие, и вы предпочтёте  пользоваться её услугами.

 


Информация о работе Лабораторная работа №2 -метапоисковые системы