Организация хранения и поиска информации в сети Internet

Автор работы: Пользователь скрыл имя, 22 Марта 2012 в 21:09, курсовая работа

Краткое описание

Цель курсовой работы заключается в изучении основных принципов хранения и поиска данных сети Интернет.
Главная задача состоит в рассмотрении:
1. понятия и значения гипертекстового документа;
2. видов графических файлов сети Интернет;
3. основных правил поиска информации.

Содержание работы

ВВЕДЕНИЕ 3
1 ХРАНЕНИЕ ДАННЫХ В СЕТИ ИНТЕРНЕТ 5
1.1 ГИПЕРТЕКСТОВЫЕ ДОКУМЕНТЫ, ВИДЫ ФАЙЛОВ 5
1.2 ГРАФИЧЕСКИЕ ФАЙЛЫ , И ИХ ВИДЫ И ОСОБЕННОСТИ 9
1.3 ПОИСКОВЫЕ СИСТЕМЫ И ПРАВИЛА ПОИСКА ИНФОРМАЦИИ 14
2 ОБЗОР И ХАРАКТЕРИСТИКА ПОИСКОВЫХ СИСТЕМ СЕТИ ИНТЕРНЕТ 17
2.1 RAMBLER 17
2.2 YANDEX 18
2.3 YAHOO 21
2.4 ALTAVISTA 23
ВЫВОДЫ И ПРЕДЛОЖЕНИЯ 25
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЯ

Содержимое работы - 1 файл

Копия Курсовая по информатике.doc

— 194.00 Кб (Скачать файл)

Расширенный запрос.

В расширенном запросе из предыдущего допускается применение символа `*`.

1 - Команда AND (символ &) означает, что-то, что стоит до нее, и то, что стоит после нее, должно присутствовать в тексте одновременно. Например, запрос "child* AND educ*" аналогичен использованию `+` в простом запросе.

2 - Команда OR (символ |) означает, что-то, что стоит до нее, или то, что стоит после нее, должно присутствовать в тексте. Например, запрос "(child* OR kid*)AND educ*" найдет больше чем предыдущий.

3 - Команда NOT (символ !) аналогична команде ` -`   в простом запросе. Например, запрос "(child* OR kid*) AND educ* NOT school*" найдет все, что связано с детским образованием, но кроме школьного.

4 - Команда NEAR (символ ~) отыскивает документы, в тексте которых слова, стоящие перед оператором и после него, находятся неподалеку. Например, запрос "(child* OR kid*) AND (educ* NEAR game*)" найдет все, что связано с обучающими играми.

5 - Круглые скобки ( ) объединяют группу операторов запроса.

2          Обзор поисковых систем сети Интернет

2.1       Rambler

Разработка поисковой системы Rambler началась в 1991 году, однако её полноценная эксплуатация началась только спустя пять лет. Эта поисковая система относится к немногочисленному разряду универсальных серверов. Она объединяет в себе поисковую машину, рейтинг, каталог, а также предоставляет целый ряд сервисов: бесплатная почта, словари и т. д. Кроме того, она сообщает последние новости и позволяет прослушивать через Интернет программы радиостанций. По сути, это мощный портал. Ежедневно Rambler обрабатывает свыше 600 тыс. запросов. В его базе данных содержится информация о 12 млн. документов, каждый день несколько одновременно работающих программ-роботов сканируют 48 тыс. сайтов.

Поскольку Rambler - это ещё и пользующийся высоким авторитетом рейтинг, при поиске в его каталоге вы получите о том или ином включённом в него сайте много статистической информации.

При сложном поиске опускаются предлоги, артикли и т. п. Большие и маленькие буквы, как правило, не различаются. Но если запрос состоит из двух, трёх или четырёх слов, каждое из которых написано с большой буквы, то предполагается поиск по имени собственному. Тогда поисковая машина автоматически изменяет ограничение на расстояние между словами запроса со значения, по умолчанию, на малую величину, значение которой пропорционально количеству слов запроса. Это позволяет находить группу слов, внутри которой присутствует не белее одного «лишнего» слова или знака препинания, например: «Баден-Баден», «А. Пушкин», «Фёдор Михайлович Достоевский».

Логические операторы, используемые при формировании запросов на поиск, приведены в приложении 1.

Операторы маскирования (* и?) использовать пока нельзя, но не исключено, что эта возможность появится в будущем.

Если запрос состоит из нескольких слов, и при этом некоторые из них вообще не удалось найти в Интернет, то выдаются результаты поиска по частичному запросу, из которого отсутствующие в Интернет слова исключены. При этом на странице результатов поиска выдаётся соответствующая диагностика.

Отсюда видно, что язык запросов Ramblera не отличается обширным «словарным запасом». Но зато эта поисковая система позволяет проводить расширенный поиск, благодаря чему даже любознательные пользователи могут значительно сужать круг поиска, а значит повышать его релевантность.

2.2       Yandex

Поисковая система Yandex начала работать в сентябре 1997 года. Одна из интерпретаций из его названий - «Языковой index». На сегодняшний день – это крупнейшая поисковая система русской части Интернет. По состоянию на начало 2004 года количество проиндексированных этой машиной документов составляло около 56 млн.

Зайти на Yandex можно через несколько «дверей». По адресу www. yandex. com расположен «вход» для англоязычных пользователей. Можно прямо здесь (в поле I`m looking for:) ввести ключевые слова запроса (в том числе и на русском языке) и щёлкнуть на кнопке Search, а можно начать поиск с каталога.

При поиске в каталоге (его можно быстро открыть, введя адрес http: // yaca. yandex. ru) пользователь имеет возможность значительно сузить область поиска. Во-первых, как правило, он может уточнить тему поиска. Во-вторых, указать регион, сайты которого его интересуют. (Это имеет смысл делать только в том случае, если пользователя интересуют Интернет-ресурсы конкретного региона – организации, в нём базирующиеся, телефонный справочник, музеи и т. д.). В-третьих, если пользователя интересует справочная информация, он может выбрать следующие варианты её представления:

1.                 Каталоги и поиск – Интернет-каталоги, собрания ссылок, поисковики (общие и тематические);

2.                 Справочники и базы данных – телефонные и адресные справочники, базы данных вакансий, прикладные справочники и т. д.;

3.                 Энциклопедии и словари – фундаментальные справочные издания и языковые словари;

4.                 Советы – советы и инструкции, подсказывающие, как удобнее что-то сделать;

5.                 Товары и услуги – сайты с предложениями товаров и услуг;

6.                 Частные объявления – предложения товаров и услуг от частных лиц (доски объявлений, сайты газет объявлений, сайты индивидуальных предпринимателей);

7.                 Организации – Internet-представительства разных организаций и фирм;

8.                 Персоны и группы – личные сайты, сайты, созданные группами единомышленников и т. д.;

9.                 Публикации – публикации различных материалов в сети; запрос можно уточнить, выбрав нужный жанр (научно-технический художественный, научно-популярный и т. д.;

10.             Общение – чаты, форумы, конференции.

Каталог поисковой системы Yandex весьма удобен и содержит множество ссылок на разные русскоязычные сайты.  Не менее сильной стороной этого поисковика является его язык запросов, позволяющий пользователю весьма конкретно объяснить, что именно он ищет. Если пользователь не искушён в составлении сложных запросов, он может задавать поисковой системе Yandex вопросы на естественном языке. Например, можно вести в поле «Я ищу»: слова «список вузов с военными кафедрами, и Yandex прекрасно поймёт пользователя, потому что проводит морфологический поиск с учётом падежей существительных и спряжений глаголов.

Непосредственно под полем ввода  ключевых слов расположен переключатель, позволяющий указать направление поиска. Можно искать информацию, нажав на кнопку «Везде» (на других поисковиках аналогичная кнопка обычно называется «В Internet»), в каталоге, в рубриках «Новости сайтов», среди предлагаемых к продаже товаров (кнопка «Маркет»), в словарях и энциклопедиях. Поисковая система Yandex может также найти изображения и рисунки (Картинки). Может даже показаться не вполне понятным, зачем осуществляется поиск в каталоге, если вы пользуетесь поисковой машиной. В каталоге обычно бывают представлены сайты, полезность которых проверена редакторами поисковой системы. Однако нужной рубрики в каталоге может не оказаться или искомые документы могут подпадать сразу под несколько рублик. Ограничивая область поиска по заданным ключевым словам каталогом, вы тем самым автоматически отсеиваете сайты, не удостоившиеся «внимания» редакторов каталога.

Поисковая система Yandex позволяет проводить сложный (строгий) поиск.

Независимо от того, в какой форме было использовано слово в запросе, при поиске учитываются все его формы по правилам русского языка. Например, был сформулирован запрос «идти». То в результате поиска будут найдены ссылки на документы, содержащие слова: «идти», «идёт», «шёл», «шла» и т. д.

Если слово в запросе было набрано с большой буквы, будут найдены только слова с большой буквы (если это слово не первое в предложении). В противном случае, будут найдены как слова с большой, так и с маленькой буквы. Например, по запросу «путина» найдётся и президент, и сезон интенсивного рыболовства. А по запросу «Путина» - президент и те случаи упоминания рыболовного сезона, когда соответствующий термин написан с большой буквы (например, если с него начинается предложение).

По умолчанию поиск учитывает все формы заданного слова согласно правилам русского языка. Однако существует возможность поиска по точной словоформе, для этого перед словоформой надо поставить восклицательный знак (!). Так, по запросу «! Лужкову» будут найдены все документы, содержащие словоформу «Лужкову», а по запросу «Лужков~~! Лужкову – документы, в которых упоминается Лужков, кроме тех, которые были найдены по первому запросу.

Операторы, которые можно использовать при сложном поиске на Yandex, представлены в таблице 2 (см. приложение 2).

Префиксы, используемые поисковой системой Yandex и представленные в таблице 2, позволяют проводить поиск не в тексте, а в различных элементах Web-страниц – их заголовках, ссылках, описаниях и т. д.

2.3       Yahoo

Это один из самых посещаемых поисковых Web-узлов не только в США, но и в странах СНГ. Несколько лет назад, когда Rambler и Yandex ещё только «набирали обороты» это был вообще самый популярный поисковый каталог. Сильная сторона Yahoo – именно подробнейший каталог. Но это ещё и мощный портал, представляющий множество сервисов. Вы можете с его помощью получить информацию о фирмах, товарах и Internet-магазинах, совершить разнообразные покупки, получить бесплатный почтовый ящик и бесплатно же разместить в Сети свой фотоальбом. Вы также можете завести адресную книгу и деловой календарь, который автоматически напомнит вам о важных встречах и делах, послав sms-сообщение на мобильный телефон или письмо по электронной почте. Вы можете хранить на Yahoo! свой «портфель» документов и осуществлять мгновенный обмен сообщениями с помощью Internet-пейджера Yahoo! Messenger.

Поначалу поисковая машина Yahoo! обладала весьма скромными возможностями. Но, учитывая растущий интерес пользователей именно к этому способу поиска, разработчики снабдили Yahoo! мощной поисковой машиной, а не так давно разместили её по отдельному адресу (www.search.yahoo.com), упростили и сделали максимально удобным интерфейс. Дело в том, что популярность Yahoo! была обусловлена не только большим числом включённых в каталог ссылок на Web-страницы, но и тем, что пользоваться каталогом может даже начинающий пользователь, ничего не знающий пользователь, ничего не знающий об операторах и синтаксисе запросов. Новый интерфейс поисковой машины как раз и должен привлечь к Yahoo! не желающих утруждать себя пользователей, которые хотели бы быстро находить в Сети интересующую их информацию.

С целью повышения релевантности поиска в Yahoo! делаются следующие ухищрения:

-предоставляется возможность провести поиск по страницам, имеющим отношение к уже найденным;

-поиск по уже введённым ключевым словам можно провести на сайтах, относящихся к категориям, указанным в верхней части страницы с результатами поиска;

- если то, что искал пользователь, находится, в том числе и на портале Yahoo!, ссылки на такие документы приводятся первыми и под заголовком Inside Yahoo!;

-для документов, найденных на портале Yahoo!, указываются рубрики портала, к которым могут относиться сайты аналогичной тематики;

- если предмет вашего поиска какой-то товар или услуга, Yahoo! Может под заголовком Sponsor Results: вывести информацию о скидках, предоставляемых при приобретении такого товара (например, о том, что при покупке картриджа для принтера второй вам предложат в подарок) или деловых предложениях;

-под заголовком Top Web Results: приводятся 20 ссылок на страницы, наиболее соответствующие запросу;

-наконец, щёлкнув на крохотной пиктограмме с изображением двух окон, расположенной справа от заголовка каждой ссылки, вы откроете соответствующий документ в новом окне, сохраняя полученные результаты запроса в старом.

Можно искать документы, содержащие все выделенные пользователем слова, точную фразу, хотя бы одного из слов, а также не содержащие определённые слова. «Срок давности» искомых документов может быть установлен равным трём месяцам, полугоду и году. Можно указать сайт, на котором должны искаться документы, или домен верхнего уровня (например, com либо edu). Имеется возможность включения фильтра, благодаря которому в результатах поиска будут отсутствовать ссылки на сайты «для взрослых». Можно указать регион поиска (страну) и выбрать несколько языков, на которых должны быть «написаны» искомые страницы. Можно проводить поиск страниц, содержащих ссылки на страницу, указанную в поле ввода, или имеющих похожий URL. Наконец, почти завершена разработка подсистемы, позволяющей получать информацию о тех или иных товарах (и, естественно, ценах на них).

Yahoo – прежде всего каталог. В запросах можно использовать операторы, но инструкции по их использованию скрыты «в недрах» поисковика. Особенностью синтаксиса является строгий порядок выполнения операторов. Поэтому при формировании запроса вначале нужно указывать операторы + или -, затем u: и t:, после этого двойные кавычки и только в самом конце – оператор * (см. приложение 3).

2.4       AltaVista

Это наиболее полная реализация поисковых возможностей Интернет. Некоммерческая поисковая машина свободного доступа AltaVista (http://atavistic.digital.com) поддерживается в Сети корпорацией Digital Equipment Corporation. Имеется также и расширение ее возможностей для коммерческого использования, которое существует в виде Business extension Program, поисковой машине на сегодня принадлежит абсолютная пальма первенства по числу заиндексированных ресурсов Web. Кроме того, благодаря наличию межпротокольных шлюзов машина располагает адресами ресурсов, доступных по протоколам, отличным от HTTP. Высокая скорость сканирования Паутины AltaVista позволяет предположить, что в ближайшие полтора-два года ее индексная база данных покрывать подавляющее количество открытых для свободного доступа узлов WWW. Индекс поисковой машины обновляется ежедневно с помощью специальной программы Scooter, причем частота посещения отдельного узла Сети зависит от частоты изменения информации на нем. На текущий момент AltaVista дает доступ к 30 миллионам www-страниц, расположенных на более чем 275 600 серверах и к 4 миллионам статей из 16 000 телеконференций Usenet news.

Информация о работе Организация хранения и поиска информации в сети Internet