Автор работы: Пользователь скрыл имя, 28 Октября 2011 в 22:57, реферат
Данная курсовая работа посвящена теме «Глобальные поисковые си-стемы».
Internet — глобальная компьютерная сеть, охватывающая весь мир. Сегодня Internet имеет около 300 миллионов абонентов в более чем 180 странах мира. Ежемесячно размер сети увеличи¬вается на 5—7%. Internet образует как бы ядро, обеспечивающее связь различных информационных сетей, принадлежащих раз¬личным учреждениям во всем мире, одна с другой.
Яаndех. Яаndех ежедневно просматривает сотни тысяч Web-страниц в поисках изменений или новых ссылок. Коллекция ссылок постоянно растет.
Яаndех не требует от вас знания специальных команд для поиска. Достаточно набрать вопрос («где найти дешевые компьютеры» или «нужны телефоны Москвы и Московской области»), и вы получите результат — список страниц, где встречаются эти слова.
Независимо от того, в какой форме вы употребили слово в запросе, поиск учитывает все его формы по правилам русского языка. Например, если задан запрос «идти», то в результате поиска будут найдены ссылки на документы, содержащие слова «идти», «идет», «шел», «шла» и т.д. На запрос «окно» будет выдана информация, содержащая и слово «окон», а на запрос «отзывали» — документы, содержащие слово «отозвали».5
При этом поиск не ограничен лишь словами или фразами. Яаndех отыщет по названию Web-страницу компании или файл с нужной картинкой.
Aport. Обычно запрос представляет из себя просто одно или несколько слов.
По такому запросу находятся документы, в которых встречаются все слова запроса. Есть, правда, ограниченное число слов (союзы, предлоги и т.п.), которые в запросе игнорируются, так как не несут сами по себе смысловой нагрузки.
Например, по запросу: яблоки на снегу будут найдены все документы, в которых встречаются одновременно два слова: «яблоко» и «снег». Где в пределах документа расположены слова, в какой грамматической форме они находятся — не важно.
Стоит еще раз подчеркнуть важное и очень полезное свойство Апорта: независимо от того, в какой грамматической форме вы пишите в запросе слово, оно находится в документах во всех своих формах. Например, по запросу: человек шел будут найдены среди прочих и документы, содержащие текст «люди идут». Распознавание всех форм работает для обычных слов русского языка. Для экзотических слов, неологизмов и т.п. оно не проходит. В этом случае может пригодиться оператор «*».
Например, вы хотите найти все, касающееся деятельности президента России, в том числе и документы, содержащие слово «ельцинизм». Воспользуйтесь запросом: ельцин*. Он позволит вам найти то, что вы хотите (а также документы со словами Елъцинище, ельцинцы, ельциненок и т.п.), поскольку звездочка, заменяет собой любое число любых букв.
Вы можете искать документы не только по всему русскоязычному Internet, но и по его части. Самый простой случай — поиск по определенному серверу. Например: url=www.intel.ru собака.
По данному запросу будут найдены все документы на сервере www.intel.ru, содержащие слово «собака». Возможно, вам интересно, а что будет, если написать просто: url=www.intel.ru
В этом случае вы получите список всех документов, расположенных на указанном вами сервере
Вы
можете ограничивать поиск и сильнее
— одним из каталогов сервера. Например:
url=www.intel.ru/sobaki/
По данному запросу документы, содержащие слово «сенбернар», будут искаться только в каталоге /sobaki (и его подкаталогах) московского сервера корпорации Intel.
List. На главной странице в верхней ее части расположены ссылки на наиболее популярные проекты. Ниже, под логотипом каталога, поисковая форма. В правой колонке и нижней части страницы — блоки самых актуальных новостей. Список ссылок на основные категории каталога занимает центральную часть. Цифры рядом с названием категории показывают количество сайтов, содержащихся в ней. Записанные мелким шрифтом заголовки отсылают при нажатии на подкатегории раздела.
Щелкнув по любому из названий, вы попадете в соответствующую рубрику и под логотипом List.ru увидите полный путь до нее, начиная с главной страницы. Каждый промежуточный уровень структуры доступен по отдельной ссылке. Поиск в каталоге реализован таким образом, что в результате запроса могут быть найдены как отдельные сайты, так и рубрики.
Допускается использованием языка запросов Яаndех. Расположенная рядом с поисковой формой ссылка «Структура каталога» открывает в отдельном окне полный рубрикатор каталога. Реализована возможность перехода из рубрикатора в любую выбранную подкатегорию. Более детальное тематическое деление текущей рубрики представлено списком ссылок.
Помеченные символом «@» приведут в подкатегории, структурно входящие в другие разделы, но содержащие близкую по содержанию информацию. Если Вы хорошо представляете, в какой рубрике содержатся нужные ресурсы, лучше перейти в нужную подкатегорию, воспользовавшись любым из предоставляемых средств навигации по каталогу. В противном случае можно искать их в полном списке.
Каталог организован таким образом, что все сайты, содержащиеся на нижних уровнях структуры, представлены и в рубриках. Показываемый ниже список ресурсов упорядочен в алфавитном порядке, но, выбрав соответствующую сортировку («По времени добавления» или «По переходам»), можно просмотреть их по порядку добавления в каталог (начиная с самых «свежих») или в зависимости от популярности среди посетителей каталога. Ссылка с названия сайта открывает в отдельном окне его зарегистрированную в данной рубрике страницу. Пометки RUS и ENG означают наличие на сайте страниц, соответственно на русском и английском языках.6
При поиске в Интернет важны две составляющие - полнота (ничего не потеряно) и точность (не найдено ничего лишнего). Обычно это все называют одним словом - релевантность, то есть соответствие ответа вопросу.
Под охватом имеется в виду объем базы поисковой системы, который измеряется тремя показателями – общим объемом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов. Под глубиной понимается – существует ли ограничение на количество страниц или на глубину вложенности директорий на одном сервере.
Как проверить: Некоторые системы пишут на своем сайте статистику робота. Но можно проверить и самому – надо задать несколько поисковых запросов, состоящих из одного слова (чтобы исключить влияние языка запросов, в том числе – различного трактования пробела), и при этом смотреть на статистику результатов, выдаваемую системой – обычно в начале списка указано, сколько всего было найдено документов. Помимо того, что слова должны быть из разных областей, хорошо еще взять слова разных весов – редкие, «средние» и «тяжелые» (частотные), и сравнить количество найденного. Тяжелые слова, в частности, тестируют полнотекстовость (индексацию всех слов документа) поисковой системы.
Глубину хождения робота проверить сложнее - для этого надо взять какие-то сайты, например, с разветвленной структурой архивов, и проверить, проиндексированы ли документы, на которые можно попасть только, например, за 6 переходов по ссылкам.
Скорость обхода Сети показывает, насколько быстро происходит индексация свежедобавленного ресурса и насколько быстро обновляется информация в базе. Важным показателем качества поисковой системы (ее робота) является не только захват новых территорий: но и отслеживание состояния уже охваченных. Сервера исчезают и появляются, страницы на них обновляются. Ссылки, которые выдает поисковая система в списке найденного, должны, во-первых, существовать, и, во-вторых, их содержание должно соответствовать запросу.
Как проверить: Объективную информацию можно получить, проанализировав логи серверов – робот поисковой системы представляется обычно именем своей системы (или похожим образом), так что можно увидеть, как часто он бывает на сервере, сколько страниц просматривает и т.д. К сожалению, обычно для изучения бывает доступен лог только своего сайта, поэтому остается экспериментальный способ.
Для
определения скорости обхода надо создать
где-нибудь страничку текста, добавить
ее в поисковые системы и
Каждая поисковая система имеет свои алгоритм сортировки результатов поиска. Чем ближе к началу списка оказывается нужный вам документ, тем лучше работает релевантность.
Как проверить: Только путем эксперимента. Рекомендуется для сравнения делать запросы разной длины. Можно также использовать язык запросов, при этом те, кому неохота читать описание, могут воспользоваться развернутой страницей запроса («расширенный поиск» в Апорте и Яндексе, «детальный запрос» в Рэмблере – варианты перевода на русский язык «advanced search»).
Кроме релевантности, существуют важные пользовательские характеристики.
Если поисковая система отвечает медленно, работать с ней неэффективно. Стоит добавить, что видимая пользователю скорость зависит не только от самой поисковой системы, но и от Интернет-каналов.
Как проверить: Путем эксперимента – надо поискать запросы разной длины, разной «тяжести» слов и в разное время суток (загрузка серверов существенно неравномерна по суткам, пик – около трех-четырех часов дня).
Еще
один пункт сравнения - что именно
и как поисковая система вносит
в индекс. Полнотекстовая поисковая система
индексирует все слова видимого пользователю
текста. Наличие морфологии дает возможность
находить искомые слова во всех склонениях
или спряжениях. Кроме этого, в языке HTML
существуют тэги, которые также могут
обрабатываться поисковой системой (заголовки,
ссылки, подписи к картинкам и т.д.).
Язык запросов в виде стандартных логических
операторов (И, ИЛИ, НЕ) есть практически
у всех систем. Некоторые умеют искать
словосочетания или слова на заданном
расстоянии - это часто важно для получения
разумного результата. Дополнительной
возможностью является поиск в зонах документа
– заголовках, ссылках, ключевых словах
(META KEYWORDS) и т.д. Дополнительная возможность
языка запросов - естественно-языковый
запрос, который не требует знания операторов.
Как проверить: Обычно эта информация публикуется на сервере поисковой системы (в Help'е). Тем не менее, рекомендуется проверить на реальных запросах, поскольку иногда желаемое выдается за действительное.
Это - дополнительные возможности, которые предоставляет пользователям поисковая система. Сюда входит всевозможные варианты поиска (специализированные страницы, поиск похожих документов, ограничение области поиска), и список найденных серверов, и поиск по датам и серверам, и удобный интерфейс поисковой системы, и возможность его персонализации.
Как проверить: Информация может быть частично опубликована на сервере поисковой системы, но лучше всего попробовать самому поработать с этими возможностями.
Понятно, что указанный анализ займет некоторое время. Кроме этого, поисковые системы, как и весь Интернет, не стоят на месте. Однако, учитывая, что поиск информации – одна из важных составляющих компьютерных технологий, этому стоит уделить достаточное внимание – по крайней мере, не меньшее, чем умению работать в локальной сети.7
На Yandex.ru
был проведен опрос: зачем нужен Интернет
и чего в нем не хватает (http://www.yandex.ru/polling/
С развитием Internet появилась возможность быстрого и удобного поиска необходимой информации. Теперь можно не заниматься подбором и изучением огромного количества литературы в книжных магазинах и библиотеках. Информацию можно получить, не выходя из дома или офиса. Для этого нужен только непосредственно сам компьютер, подключенный к Internet с установленной специальной программой — браузером, предназначенной для просмотра содержимого Web-страниц.