Глобальные поисковые системы

Автор работы: Пользователь скрыл имя, 28 Октября 2011 в 22:57, реферат

Краткое описание

Данная курсовая работа посвящена теме «Глобальные поисковые си-стемы».
Internet — глобальная компьютерная сеть, охватывающая весь мир. Сегодня Internet имеет около 300 миллионов абонентов в более чем 180 странах мира. Ежемесячно размер сети увеличи¬вается на 5—7%. Internet образует как бы ядро, обеспечивающее связь различных информационных сетей, принадлежащих раз¬личным учреждениям во всем мире, одна с другой.

Содержимое работы - 1 файл

курсовая работа.doc

— 139.00 Кб (Скачать файл)

     Яаndех. Яаndех ежедневно просматривает сотни тысяч Web-страниц в поисках изменений или новых ссылок. Коллекция ссылок постоянно растет.

     Яаndех не требует от вас знания специальных команд для поиска. Достаточно набрать вопрос («где найти дешевые компьютеры» или «нужны телефоны Москвы и Московской области»), и вы получите результат — список страниц, где встречаются эти слова.

     Независимо  от того, в какой форме вы употребили слово в запросе, поиск учитывает все его формы по правилам русского языка. Например, если задан запрос «идти», то в результате поиска будут найдены ссылки на документы, содержащие слова «идти», «идет», «шел», «шла» и т.д. На запрос «окно» будет выдана информация, содержащая и слово «окон», а на запрос «отзывали» — документы, содержащие слово «отозвали».5

     При этом поиск не ограничен лишь словами  или фразами. Яаndех отыщет по названию Web-страницу компании или файл с нужной картинкой.

     Aport. Обычно запрос представляет из себя просто одно или несколько слов.

     По  такому запросу находятся документы, в которых встречаются все слова запроса. Есть, правда, ограниченное число слов (союзы, предлоги и т.п.), которые в запросе игнорируются, так как не несут сами по себе смысловой нагрузки.

     Например, по запросу: яблоки на снегу будут найдены все документы, в которых встречаются одновременно два слова: «яблоко» и «снег». Где в пределах документа расположены слова, в какой грамматической форме они находятся — не важно.

     Стоит еще раз подчеркнуть важное и  очень полезное свойство Апорта: независимо от того, в какой грамматической форме вы пишите в запросе слово, оно находится в документах во всех своих формах. Например, по запросу: человек шел будут найдены среди прочих и документы, содержащие текст «люди идут». Распознавание всех форм работает для обычных слов русского языка. Для экзотических слов, неологизмов и т.п. оно не проходит. В этом случае может пригодиться оператор «*».

     Например, вы хотите найти все, касающееся деятельности президента России, в том числе  и документы, содержащие слово «ельцинизм». Воспользуйтесь запросом: ельцин*. Он позволит вам найти то, что вы хотите (а также документы со словами Елъцинище, ельцинцы, ельциненок и т.п.), поскольку звездочка, заменяет собой любое число любых букв.

     Вы  можете искать документы не только по всему русскоязычному Internet, но и по его части. Самый простой случай — поиск по определенному серверу. Например: url=www.intel.ru собака.

     По  данному запросу будут найдены  все документы на сервере www.intel.ru, содержащие слово «собака». Возможно, вам интересно, а что будет, если написать просто: url=www.intel.ru

     В этом случае вы получите список всех документов, расположенных на указанном вами сервере

     Вы  можете ограничивать поиск и сильнее  — одним из каталогов сервера. Например: url=www.intel.ru/sobaki/сенбернар

     По  данному запросу документы, содержащие слово «сенбернар», будут искаться только в каталоге /sobaki (и его подкаталогах) московского сервера корпорации Intel.

     List. На главной странице в верхней ее части расположены ссылки на наиболее популярные проекты. Ниже, под логотипом каталога, поисковая форма. В правой колонке и нижней части страницы — блоки самых актуальных новостей. Список ссылок на основные категории каталога занимает центральную часть. Цифры рядом с названием категории показывают количество сайтов, содержащихся в ней. Записанные мелким шрифтом заголовки отсылают при нажатии на подкатегории раздела.

     Щелкнув по любому из названий, вы попадете в  соответствующую рубрику и под логотипом List.ru увидите полный путь до нее, начиная с главной страницы. Каждый промежуточный уровень структуры доступен по отдельной ссылке. Поиск в каталоге реализован таким образом, что в результате запроса могут быть найдены как отдельные сайты, так и рубрики.

     Допускается использованием языка запросов Яаndех. Расположенная рядом с поисковой формой ссылка «Структура каталога» открывает в отдельном окне полный рубрикатор каталога. Реализована возможность перехода из рубрикатора в любую выбранную подкатегорию. Более детальное тематическое деление текущей рубрики представлено списком ссылок.

     Помеченные  символом «@» приведут в подкатегории, структурно входящие в другие разделы, но содержащие близкую по содержанию информацию. Если Вы хорошо представляете, в какой рубрике содержатся нужные ресурсы, лучше перейти в нужную подкатегорию, воспользовавшись любым из предоставляемых средств навигации по каталогу. В противном случае можно искать их в полном списке.

     Каталог организован таким образом, что  все сайты, содержащиеся на нижних уровнях структуры, представлены и в рубриках. Показываемый ниже список ресурсов упорядочен в алфавитном порядке, но, выбрав соответствующую сортировку («По времени добавления» или «По переходам»), можно просмотреть их по порядку добавления в каталог (начиная с самых «свежих») или в зависимости от популярности среди посетителей каталога. Ссылка с названия сайта открывает в отдельном окне его зарегистрированную в данной рубрике страницу. Пометки RUS и ENG означают наличие на сайте страниц, соответственно на русском и английском языках.6

 

         ГЛАВА 2. ВЫБОР ПОИСКОВОЙ СИСТЕМЫ

     При поиске в Интернет важны две составляющие - полнота (ничего не потеряно) и точность (не найдено ничего лишнего). Обычно это все называют одним словом - релевантность, то есть соответствие ответа вопросу.

     2.1. Охват и глубина

     Под охватом имеется в виду объем базы поисковой системы, который измеряется тремя показателями – общим объемом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов. Под глубиной понимается – существует ли ограничение на количество страниц или на глубину вложенности директорий на одном сервере.

     Как проверить: Некоторые системы пишут на своем сайте статистику робота. Но можно проверить и самому – надо задать несколько поисковых запросов, состоящих из одного слова (чтобы исключить влияние языка запросов, в том числе – различного трактования пробела), и при этом смотреть на статистику результатов, выдаваемую системой – обычно в начале списка указано, сколько всего было найдено документов. Помимо того, что слова должны быть из разных областей, хорошо еще взять слова разных весов – редкие, «средние» и «тяжелые» (частотные), и сравнить количество найденного. Тяжелые слова, в частности, тестируют полнотекстовость (индексацию всех слов документа) поисковой системы.

     Глубину хождения робота проверить сложнее - для этого надо взять какие-то сайты, например, с разветвленной структурой архивов, и проверить, проиндексированы ли документы, на которые можно попасть только, например, за 6 переходов по ссылкам.

     2.2. Скорость обхода  и актуальность  ссылок

     Скорость  обхода Сети показывает, насколько быстро происходит индексация свежедобавленного ресурса и насколько быстро обновляется информация в базе. Важным показателем качества поисковой системы (ее робота) является не только захват новых территорий: но и отслеживание состояния уже охваченных. Сервера исчезают и появляются, страницы на них обновляются. Ссылки, которые выдает поисковая система в списке найденного, должны, во-первых, существовать, и, во-вторых, их содержание должно соответствовать запросу.

     Как проверить: Объективную информацию можно получить, проанализировав логи серверов – робот поисковой системы представляется обычно именем своей системы (или похожим образом), так что можно увидеть, как часто он бывает на сервере, сколько страниц просматривает и т.д. К сожалению, обычно для изучения бывает доступен лог только своего сайта, поэтому остается экспериментальный способ.

     Для определения скорости обхода надо создать  где-нибудь страничку текста, добавить ее в поисковые системы и посмотреть, как быстро она начнет находиться. Или изменить уже имеющуюся страничку. Для определения актуальности ссылок – проверить документы хотя бы на первой странице списка найденного по нескольким запросам. Сообщение Not Found свидетельствует о том, что документ более не существует.

     2.3. Качество поиска (субъективный показатель)

     Каждая  поисковая система имеет свои алгоритм сортировки результатов поиска. Чем ближе к началу списка оказывается нужный вам документ, тем лучше работает релевантность.

     Как проверить: Только путем эксперимента. Рекомендуется для сравнения делать запросы разной длины. Можно также использовать язык запросов, при этом те, кому неохота читать описание, могут воспользоваться развернутой страницей запроса («расширенный поиск» в Апорте и Яндексе, «детальный запрос» в Рэмблере – варианты перевода на русский язык «advanced search»).

     Кроме релевантности, существуют важные пользовательские характеристики.

     2.4. Скорость поиска

     Если  поисковая система отвечает медленно, работать с ней неэффективно. Стоит добавить, что видимая пользователю скорость зависит не только от самой поисковой системы, но и от Интернет-каналов.

     Как проверить: Путем эксперимента – надо поискать запросы разной длины, разной «тяжести» слов и в разное время суток (загрузка серверов существенно неравномерна по суткам, пик – около трех-четырех часов дня).

     2.5. Поисковые возможности  (работа с языком  документа, язык  запросов)

     Еще один пункт сравнения - что именно и как поисковая система вносит в индекс. Полнотекстовая поисковая система индексирует все слова видимого пользователю текста. Наличие морфологии дает возможность находить искомые слова во всех склонениях или спряжениях. Кроме этого, в языке HTML существуют тэги, которые также могут обрабатываться поисковой системой (заголовки, ссылки, подписи к картинкам и т.д.).  
Язык запросов в виде стандартных логических операторов (И, ИЛИ, НЕ) есть практически у всех систем. Некоторые умеют искать словосочетания или слова на заданном расстоянии - это часто важно для получения разумного результата. Дополнительной возможностью является поиск в зонах документа – заголовках, ссылках, ключевых словах (META KEYWORDS) и т.д. Дополнительная возможность языка запросов - естественно-языковый запрос, который не требует знания операторов.

     Как проверить: Обычно эта информация публикуется на сервере поисковой системы (в Help'е). Тем не менее, рекомендуется проверить на реальных запросах, поскольку иногда желаемое выдается за действительное.

     2.6. Дополнительные удобства

     Это - дополнительные возможности, которые  предоставляет пользователям поисковая система. Сюда входит всевозможные варианты поиска (специализированные страницы, поиск похожих документов, ограничение области поиска), и список найденных серверов, и поиск по датам и серверам, и удобный интерфейс поисковой системы, и возможность его персонализации.

     Как проверить: Информация может быть частично опубликована на сервере поисковой системы, но лучше всего попробовать самому поработать с этими возможностями.

     Понятно, что указанный анализ займет некоторое  время. Кроме этого, поисковые системы, как и весь Интернет, не стоят на месте. Однако, учитывая, что поиск информации – одна из важных составляющих компьютерных технологий, этому стоит уделить достаточное внимание – по крайней мере, не меньшее, чем умению работать в локальной сети.7

     На Yandex.ru был проведен опрос: зачем нужен Интернет и чего в нем не хватает (http://www.yandex.ru/polling/9.html). В порядке убывания данные опроса распределились следующим образом: Интернет используют как справочник (23,76%), инструмент исследования (15,.45%), развлечение (14,15%), и только на четвертом месте - источник новостей (12,32%). Оптимистично прозвучало, что 10% пользователей всегда, а 73% часто удается найти нужную информацию. А не хватает в Интернете: информации, хорошего поиска и порядка (в том числе: упорядоченности, структуры, структурности, структурированности, структуризации, а также системы, систематизации, системности, систематичности и систематизированности).

 

ЗАКЛЮЧЕНИЕ

     С развитием Internet появилась возможность быстрого и удобного поиска необходимой информации. Теперь можно не заниматься подбором и изучением огромного количества литературы в книжных магазинах и библиотеках. Информацию можно получить, не выходя из дома или офиса. Для этого нужен только непосредственно сам компьютер, подключенный к Internet с установленной специальной программой — браузером, предназначенной для просмотра содержимого Web-страниц.

Информация о работе Глобальные поисковые системы