Информационный поиск

Автор работы: Пользователь скрыл имя, 05 Мая 2012 в 18:03, контрольная работа

Краткое описание

Сеть Интернет активно входит в жизнь каждого человека. Миллионы людей используют её для разных целей, одной из которых является поиск информации. Сеть Интернет похожа на огромную мировую библиотеку, имеющую только одно, но существенное отличие: для поиска книги в библиотеке есть каталог, в крайнем случае, можно обратиться к библиотекарю. Полного каталога Интернета не существует. Но, тем не менее, поиск в глобальной компьютерной сети возможен, и это, пожалуй, является одной из наиболее важных его сторон. Для поиска данных в сети используются специальные серверы, информация на которых поддерживается и обновляется практически автоматически.

Содержание работы

Введение стр. 2
Информационный поиск стр. 3
Поисковые системы стр. 6
История создания поисковых систем стр. 6
Структура и механизм работы стр. 8
Примеры поисковых систем стр. 11
Заключение стр. 16
Список литературы стр. 18

Содержимое работы - 1 файл

КР.docx

— 41.99 Кб (Скачать файл)

Содержание

  1. Введение          стр. 2
  2. Информационный поиск       стр. 3
  3. Поисковые системы        стр. 6

История создания поисковых  систем     стр. 6

Структура и механизм работы      стр. 8

Примеры поисковых систем       стр. 11

  1. Заключение         стр. 16
  2. Список литературы        стр. 18 

Введение

Сеть Интернет активно  входит в жизнь каждого человека. Миллионы людей используют её для разных целей, одной из которых является поиск информации. Сеть Интернет похожа на огромную мировую библиотеку, имеющую только одно, но существенное отличие: для поиска книги в библиотеке есть каталог, в крайнем случае, можно обратиться к библиотекарю. Полного каталога Интернета не существует. Но, тем не менее, поиск в глобальной компьютерной сети возможен, и это, пожалуй, является одной из наиболее важных его сторон. Для поиска данных в сети используются специальные серверы, информация на которых поддерживается и обновляется практически автоматически.

Сегодня, когда Интернет стал одним из основных источников информации, поиск в Сети приобретает  все большую практическую ценность. Но с быстрым увеличением объема доступных данных все более усложняется  и сама процедура поиска.

Интернет - это глобальная компьютерная сеть, которая связывает  между собой как пользователей  компьютерных сетей, так и пользователей  персональных компьютеров. В Сети существует гигантское количество информационных ресурсов. По некоторым оценкам, число документов превысило 65 млн. и продолжает стремительно расти. Такой объем информации требует правильной организации процесса поиска и применения специальных технических средств, таких как поисковые машины. Простой поиск по достаточно распространенному ключевому слову дает обычно от десятков тысяч до нескольких миллионов ссылок. Очевидно, что работа с таким большим количеством документов практически невозможна, тем более что подавляющая их часть содержит информацию, не относящуюся к делу.

 

  1. Информационный поиск.

Информационный поиск - процесс поиска неструктурированной документальной информации и наука об этом поиске. Термин «информационный поиск» был впервые введён Кельвином Муром в 1948 в его докторской диссертации, опубликован и употребляется в литературе с 1950.

Поиск информации представляет собой процесс выявления в  некотором множестве документов (текстов) всех тех, которые посвящены  указанной теме (предмету), удовлетворяют  заранее определенному условию  поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения, данные.

Процесс поиска включает последовательность операций, направленных на сбор, обработку  и предоставление необходимой информации заинтересованным лицам.

В общем случае поиск информации состоит из четырех этапов:

  • определение (уточнение) информационной потребности и формулировка информационного запроса;
  • определение совокупности возможных держателей информационных массивов (источников);
  • извлечение информации из выявленных информационных массивов;
  • ознакомление с полученной информацией и оценка результатов поиска.

Можно выделить несколько основных методов поиска информации в Интернете, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом:

  • Непосредственный поиск с использованием гипертекстовых ссылок.

Поскольку все сайты в  пространстве WWW фактически оказываются  связанными между собой, поиск информации может быть произведен путем последовательного  просмотра связанных страниц  с помощью браузера.

Хотя этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей более 60 млн. узлов, "ручной" просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое "копание" уступает место более глубокому анализу.

Использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников также относится к этому виду поиска.

  • Использование поисковых машин.

Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом последнего может являться список ресурсов Cети, подлежащих детальному рассмотрению.

Как правило, применение поисковых  машин основано на использовании  ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать.

Если делать все правильно, то формирование списка ключевых слов требует предварительной работы по составлению тезауруса.

  • Поиск с применением специальных средств

Этот полностью автоматизированный метод может оказаться весьма эффективным для проведения первичного поиска.

Одна из технологий этого  метода основана на применении специализированных программ - спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию.

Фактически это автоматизированный вариант просмотра с помощью  гипертекстовых ссылок, описанный выше (поисковые машины для построения своих индексных таблиц используют похожие методы).

Нет нужды говорить, что  результаты автоматического поиска обязательно требуют последующей  обработки.

Применение данного метода целесообразно, если использование  поисковых машин не может дать необходимых результатов (например, в силу нестандартности запроса, который не может быть адекватно  задан существующими средствами поисковых машин).

В ряде случаев этот метод  может быть очень эффективен.

Выбор между использованием спайдера или поисковых серверов являет собой вариант классического выбора между применением универсальных или специализированных средств.

  1. Поисковые системы.

Поисковая система- это программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете. Под поисковой системой обычно подразумевается сайт, на котором размещён интерфейс (фронт-энд) системы. Программной частью поисковой системы является поисковая машина (поисковый движок) — комплекс программ, обеспечивающий функциональность поисковой системы и обычно являющийся коммерческой тайной компании-разработчика поисковой системы.

Большинство поисковых систем ищут информацию на сайтах Всемирной  паутины, но существуют также системы, способные искать файлы на FTP-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet.

    1. История создания поисковых систем.

Одним из первых инструментов поиска в интернете (до Всемирной  паутины) был Archie. Это информационная система, основой которой является база данных, содержащая имя узлов, каталогов, подкаталогов и файлов. База данных обслуживается специальными Archie-серверами, расположенных в различных узлах сети Интернет. Связь с Archie –сервером можно установить тремя способами:

  • С помощью специальной программы локального интерфейса Archie-клиента.
  • С помощью ресурсов службы Telnet.
  • С помощью ресурсов службы электронная почта.

Первой поисковой системой для Всемирной паутины был  «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью Грэем из Массачусетского технологического института в 1993. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Первой полнотекстовой (т. н. «crawler-based», то есть индексирующей ресурсы при помощи робота) поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице — с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.

Вскоре появилось множество  других конкурирующих поисковых  машин, таких как «Excite», «Infoseek», «Inktomi», «Northern Light» и «AltaVista». В некотором смысле они конкурировали с популярными интернет-каталогами, такими, как «Yahoo!». Позже каталоги соединились или добавили к себе поисковые машины, чтобы увеличить функциональность. В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Alta Vista и оригинальные российские поисковые машины «Рамблер» и «Апорт». 23 сентября 1997 была открыта поисковая машина Яндекс.

В последнее время завоёвывает  всё большую популярность практика применения методов кластерного  анализа и поиска по метаданным. Из международных машин такого плана  наибольшую известность получила «Clusty» компании Vivísimo. В 2005 году на российских просторах при поддержке МГУ запущен поисковик «Нигма», поддерживающий автоматическую кластеризацию. В 2006 году открылась российская метамашина Quintura, предлагающая визуальную кластеризацию в виде облака тегов. «Нигма» тоже экспериментировала с визуальной кластеризацией.

Помимо поисковых машин  для Всемирной паутины, существовали и поисковики для других протоколов, такие как Archie для поиска по анонимным FTP-серверам и «Veronica» для поиска в Gopher.

 

2.2. Структура и механизм  работы.

Поисковые cистемы обычно состоят из трех компонент:

  • агент (паук, кроулер или каталог), который перемещается по Сети и собирает информацию;
  • база данных, которая содержит всю информацию, собираемую пауками;
  • поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

1.Агенты - самые "интеллектуальные" из поисковых средств. Они могут  делать больше, чем просто искать: они могут выполнять даже транзакции  от Вашего имени. Уже сейчас  они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.

Общий поиск информации в  Сети осуществляют программы, известные  как пауки:

  • "Пауки" или "Улитки" - это системы, которые автоматически запрашивают информацию с серверов сети, обрабатывают ее. Затем пользователи получают доступ к огромной базе данных, которая хранится на сервере системы-"паука". Преимуществами этих систем является большой объем, содержащейся в базе информации и периодическое обновление ее.
  • Кроулеры просматривают заголовки и возвращают только первую ссылку.
  • Каталоги - в отличие от систем-"пауков", информация в каталоги предоставляется самими пользователями сети, проверяется на корректность и только после этого заносится в систему. Большой плюс такого подхода - более точные результаты поиска.

Конкуренция среди поисковых  систем привела к тому, что создаются  системы, которые совмещают в  себе все вышеописанные виды.

Агенты извлекают и  индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся  документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск  может быть сделан поисковым механизмом и как полученная информация будет  интерпретирована.

Агенты могут также  перемещаться по Интернет и находить информацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут  определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма.

Люди могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который  они хотели бы поместить свою информацию. Эти данные передаются базе данных.

Когда кто-либо хочет найти  информацию, доступную в Интернет, он посещает страницу поисковой системы  и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать  критериям, используемым агентами при  индексации информации, которую они  нашли при перемещении по Сети.

  

2.  База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:

  1. Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).
  2. Тэги, в которых эти слова располагаются.
  3. Местоположение искомых слов в документе.
  4. Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.

Вышеприведённые принципы применяются  всеми поисковыми системами. Но существуют и другие:

  1. Время - как долго страница находится в базе поискового сервера.

Информация о работе Информационный поиск