Автор работы: Пользователь скрыл имя, 12 Сентября 2011 в 16:00, курсовая работа
Существует мнение, что в сети Интернет есть всё или почти всё. Однако этим богатством надо ещё уметь воспользоваться, что представляет собой задачу нетривиальную. Во-первых, объём данных, размещённых в сети, очень велик, а сама эта информация практически никак не структурирована. Во-вторых, Интернет очень изменчив: ежедневно в нём появляются новые данные – страницы или целые сайты, что-то исчезает, а часть ресурсов меняет адрес.
Введение…………………………………………………………………..3
История……………………………………………………………………5
Информационный поиск как процесс…………………………………...6
Средства поиска информации…………………...…...…………...6
Основные методы поиска информации в Интернете…….…..….7
Виды поиска ………..……………...……………………….…….10
Проблемы, возникающие в процессе поиска информации…....10
Структура ИПС для Интернет………..………………...……….12
4. Примеры поисковых систем и их описание……………………………13
4.1. Yandex..…………………...…………………………………………13
4.2. Google..………………………………………………………………14
4.3. Yahoo!.................................................................................................15
4.4. Рейтинг поисковых систем - март 2011 г (в России)…….….…..19
4.5. Рейтинг английских поисковых систем…………..………………20
Заключение……….…………………………………………….………..21
Литература………………………………………………………………
Поиск по метаданным — это поиск по неким атрибутам документа, поддерживаемым системой — название документа, дата создания, размер, автор и т. д. Пример поиска по реквизитам — диалог поиска в файловой системе (например, MS Windows).
Поиск изображений — поиск по содержанию изображения. Поисковая система распознает содержание фотографии (загружена пользователем или добавлен URL изображения). В результатах поиска пользователь получает похожие изображения. Так работают поисковые системы: Polar Rose, Picollator и др.
3.4. Проблемы, возникающие в процессе поиска информации
Одна из проблем является чисто методологической. Для проведения эффективного поиска мы заинтересованы в одновременном решении двух противоположных задач:
Нетрудно видеть, что одновременно осуществить это довольно сложно, хотя зачастую все-таки возможно. Один из методов, если поисковая машина позволяет, - это введение явных ограничений (запрещенных слов). Другой состоит в правильном формировании запросов, в частности,- в предпочтении нескольких конкретизированных запросов одному общему. К сожалению, весьма ограниченный входной язык большинства машин не оставляет особенного простора для творчества в этом направлении.
Другая, связанная с этой, проблема - неоднозначность человеческого языка. Если сфера ваших интересов - нефть (оil) то около половины вываленных на вас ссылок будет касаться... живописи. Картина маслом, так сказать... К проблеме синонимов в русскоязычном Интернете добавляется еще проблема морфологических вариаций слов. Изготовим платы, изготовление плат... Добавьте сюда наличие в языке омонимов (абонентная плата, а в некоторых системах также зарплата и платан), и работа с тезаурусом покажется уже не блажью, а суровой необходимостью.
Много головной боли в нашем отечественном Интернете происходит от обилия кодировок. Я все понимаю: "загадочная русская душа", "сам хорош", "другим путем" (каждый своим) - но не до такой же степени! Изобрести три (!) основных кодировки, каждая из которых еще может существовать в вариациях (например, расположение буквы Ё в КОИ-8), плюс неосновные разной степени экзотичности!.. С этим общим врагом каждый борется, как умеет. Российские поисковые машины распознают вашу кодировку и кодировку сайта и пытаются по мере возможности привести их в соответствие. Это удается, но не всегда. Иначе: если вы ищете слово "Финансы", а на сайте ему соответствует загадочное "тХМЮМЯШ", поиск вряд ли будет удачным.
Поиск
может быть неудачным и в силу
формы представления
И последнее неудобство, докучающее в первую очередь пользователям русскоязычной части Сети, - это ее нестабильность. Меняются адреса, структура сайтов, сами они появляются и исчезают. Конечно, это издержки быстрого роста, но в худшем случае вы не сможете добраться до половины источников, выданных поисковой машиной. А иногда так хочется!
4. Примеры поисковых систем и их описание
Яндекс - На сегодня наиболее популярная поисковая система, ежемесячно к ней обращаются более 35 миллионов пользователей Русскоязычной части Интернета. Начала свою работу во второй половине 1997 года учитывая морфологию русского языка. История компании "Яндекс" началась в 1990 году с разработки поискового программного обеспечения в компании "Аркадия". За два года работ были созданы две информационно-поисковые системы - Международная Классификация Изобретений, 4 и 5 редакция, а также Классификатор Товаров и Услуг. Обе системы работали локально под DOS и позволяли проводить поиск, выбирая слова из заданного словаря, с использованием стандартных логических операторов. В1993 году "Аркадия" стала подразделением компании CompTek. В 1993-1994 годы программные технологии были существенно усовершенствованы благодаря сотрудничеству с лабораторией Ю. Д. Апресяна (Институт Проблем Передачи Информации РАН). В частности, словарь, обеспечивающий поиск с учетом морфологии русского языка, занимал всего 300Кб, то есть целиком грузился в оперативную память и работал очень быстро. С этого момента пользователь мог задавать в запросе любые формы слов.
Слово Яндекс придумал за несколько лет до этого один из основных и старейших разработчиков поискового механизма. "Яndex" означает "Языковой index", или, если по-английски, "Yandex" - "Yet Another indexer". За 4 года публичного существования Яndex возникли и другие толкования. Например, если в слове "Index" перевести с английского первую букву ("I" - "Я"), получится "Яndex".
В начале 1996 года был разработан алгоритм построения гипотез. Отныне морфологический разбор перестал быть привязан к словарю - если какого-либо слова в словаре нет, то находятся наиболее похожие на него словарные слова и по ним строится модель словоизменения. В это время Интернет в России только начинался. Еще через полгода стало очевидно, что ничто не отделяет CompTek от создания собственной глобальной поисковой машины. Объем Рунета составлял тогда всего несколько гигабайт. Осенью 1997 года был открыт Yandex.Ru.
Лидер поисковых машин Интернета, Google занимает более 60 % мирового рынка, а значит, шесть из десяти находящихся в сети людей обращаются к его странице в поисках информации в Интернете. Сейчас регистрирует ежедневно около 50 миллионов поисковых запросов и индексирует более 8 миллиардов веб - страниц.
Была разработана в 1998 выпускниками Стэндфордского университета Сергеем Брином и Лари Пейджем, которые применили для ранжирования документов технологию PageRank, где одним из ключевых моментов является определение "авторитетности" конкретного документа на основе информации о документах, ссылающихся на него. Говоря общими словами, чем больше документов ссылается на данный документ и чем они авторитетнее, тем более авторитетным данный документ становится. Количественное значение авторитетности документа (другими словами, взвешенное количество ссылок или PageRank) относится к так называемым статическим факторам (то есть независящим от конкретного запроса) и учитывается при определении релевантности документа конкретному запросу как весовой коэффициент. Наряду с этим Google применил для определения релевантности документа не только текст самого документа, но и текст ссылок на него. Эта технология позволила ему обеспечить выдачу довольно релевантных результатов на фоне других поисковиков. Довольно быстро Google стал лидировать в различных опросах по такому показателю, как удовлетворенность пользователей результатами поиска.
Google
осуществляет поиск по
Одна из самых первых Поисковых систем (создана Дэвидом Фило и Джерри Янгом в апреле 1994года) по сей день остается и самой популярной из них, традиционно сочетая поиск, как по ключевым словам, так и с помощью иерархического дерева разделов.
Нынешнее развитие Yahoo можно определить как движение в он-лайн, интерактивность. Yahoo быстро осваивает эту область Интернет-услуг, но возникает одна проблема: ядро Yahoo! не было на это рассчитано. Не была в 1994 году заложено в него "онлайновая" составляющая, ее "приклеил" Тим Кугл несколькими годами позже. Естественно возникает угроза хакерских атак через эту незащищенную область.
Одно из новшеств поисковой системы Yahoo - панель задач для браузера Firefox,. Этот инструмент помогает пользоваться поиском Yahoo, не заходя на официальный сайт, а лишь используя функциональные кнопки панели.
1
сентября 2005 года поисковик Yahoo, которому
принадлежит более 200 миллионов
адресов электронной почты по
всему миру, анонсировал запуск
новой системы поиска текстов,
фотографий и других
Необходимость такого нововведения возникла вслед за увеличением объёма хранимых данных, ведь некоторые пользователи создают целые почтовые архивы. Подгоняемый конкурентом Google и его почтовым сервисом Gmail, Yahoo для хранения почты предлагает отныне 1 гигабайт бесплатного места, или 2 гигабайта по годовому абонементу. "Как только вы получаете возможность хранить больше информации, вам необходимы и расширенные поисковые возможности", - объясняет Эрик Петерсон, аналитик компании Jupiter Research.
Пользователи поисковой системы Yahoo, в свою очередь, смогут теперь использовать возможности детализированного поиска слов в названии или непосредственно в тексте письма, а также в присоединенных документах, не открывая их. Результат поиска отражается в трёх строках с указанием всех атрибутов. На панели справа отображаются все похожие документы. Найденные фотографии выводятся на экран в уменьшенном виде, что значительно облегчает поиск. Система также учитывает орфографические ошибки, позволяя искать слова лишь по первым буквам.
Для
начала Yahoo планирует предложить новую
систему небольшому числу американских
пользователей, а затем распространить
её по всему миру. Со стороны клиентов
это не потребует никаких
По
данным comScore Media Metrix на июль этого года,
домену Yahoo принадлежит 219 миллионов
адресов электронной почты, что
составляет 31,5% мирового рынка, уступая
лишь Microsoft с 221 миллионом пользователей
сервиса Hotmail (35,5% рынка).
Rambler | Yandex | Апорт | |
Адрес | www.rambler.ru | www.yandex.ru | www.aport.ru |
Кол-во уникальных пользователей поисковой системы в день (среднее за неделю с 25 по 31 января) | 19 344 | 13 323 | 6 714 |
Кол-во уникальных пользователей поисковой системы в месяц (январь) | 137 300 | 94 775 | 55 200 |
Кол-во запросов к поисковой системе в день (среднее за неделю с 25 по 31 января) | 138 983 | 50 235 | 24 057 |
Размер поисковой системы | 3 815 679 (DOC) 5 143 907 (URLs) 24 897 (SERV) |
4 512 231 (DOC) 24 772 (SERV) |
1 757 208 (DOC) 2 999 585 (URL) 13 264 (SERV) |
Кол-во индексируемых в день страниц (среднее за неделю с 25 по 31 января) | 130 000 URLs 40 000 NEW |
900 000 URLs | ??? |
Период обновления страницы в индексах | от недели до месяца | 7 дней | от недели до месяца |
Появление в индексах после регистрации | ближайший выходной | 10 мин для доменов 'ru', 'su', 7 дней для остальных | 7 дней |
Появление в индексах незарегистрированных страниц | от недели до месяца | около 7 дней | от недели до месяца |
Глубина индексирования | не ограничена | не ограничена | не ограничена |
Поддержка фреймов | + | + | + |
Поддержка ImageMaps | + | + | + |
Индексация закрытых разделов | + | + | + |
Популярность веб-сайта | - | планируется | - |
Определение частоты обновления | - | + | + |
Robots.txt | + | + | + |
Meta Robots | + | + | + |
Возможность проверки страницы на наличие в индексах | + | + | + |
Возможность проверки на наличие ссылок с других страниц | - | планируется | + |