Хранение данных в сети Internet

Автор работы: Пользователь скрыл имя, 07 Октября 2011 в 19:16, курсовая работа

Краткое описание

Современный этап развития цивилизации характеризуется переходом наиболее развитой части человечества от индустриального общества к информационному. Одним из наиболее ярких явлений этого процесса является возникновение и развития глобальной информационной компьютерной сети.

Содержание работы

Введение………………………………………………………….
Глава 1. Хранение данных в сети Internet………………………….
1.1. Гипертекстовые документы, виды файлов………………
1.2. Графические файлы, их виды и особенности…………………….
1.3. Поисковые системы и правила поиска информации…………..
Глава 2. Обзор и характеристика поисковых систем сети Internet…………
2.1. Rambler……………………………………………………………..
2.2. Yandex…………………………………………………………….
2.3. Yahoo……………………………………………………………….
2.4. Altavista…………………………………………………………..
Выводы и предложения……………………………………………………
Список использованной литературы………………………………….

Содержимое работы - 1 файл

Курсовая работа_Глотов.doc

— 474.00 Кб (Скачать файл)
justify">      Еще одна уникальная особенность поисковика Rambler, это механизм ассоциаций. Помимо стандартной ответной страницы, в  которой найденные документы  расположены в порядке убывания релевантности, появляется строка - «У нас также ищут». В ней приведены слова и словосочетания тематически связанные с запросом. Новый механизм также исправляет ошибки запросов. На введенное «gjujlf» пользователь получит теперь положительный результат: сведения о погоде («gjujlf» – это слово «погода» набранное латиницей).

      Необходимо  отметить проекты Rambler-Группы и Rambler-Фото. Оба этих проекта предоставляют пользователям сети возможность использования заложенных в проекты программных алгоритмах в собственных целях. Проект Rambler-Группы дает людям возможность начинать обсуждения самых разных тем, которые существуют не только в виде форумов, но также и в виде открытых списков рассылки. Проект Rambler-Фото представляет пользователям сети возможность создания фотоальбомов в объеме до 20 мегабайт, причем это дисковое пространство зарегистрированные пользователи поисковой системы Rambler получают в дополнение к тем мегабайтам почты, на которые они могут претендовать по новым условиям e-mail обслуживания (15 мегабайт).

      Rambler Mass Media - первый и по-прежнему лидирующий  на рынке информационный дайджест. Помимо текстовых материалов и фоторепортажей, ставших визитной карточкой проекта, Rambler Mass Media представляет пользователям аудио и видеосюжеты. В числе поставщиков - ВГТРК и BBC, Deutsche Welle, радио «Маяк» и др. Заголовки важнейших новостей размещаются на первой странице портала Rambler.ru и в блоке «Главные новости дня» на главной странице Rambler Mass Media. Наиболее актуальные новости могут читать и посетители других сервисов Rambler - Rambler Почты, Погоды на Rambler.

      Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.

      Поисковый сервер работает следующим образом: полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде сниппета, то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).

      Полученные  данные передаются в качестве входных  параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для  каждого документа рассчитывается собственный рейтинг, характеризующий  релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.

      В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).

      Далее генерируется сниппет, то есть, для  каждого найденного документа из таблицы документов извлекаются  заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные  слова подсвечиваются.

      Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.

      Как видно, все эти компоненты тесно  связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.

      По  информации ООО «Рамблер Интернет Холдинг» обработка поискового запроса в  системе «Rambler» происходит, так, как это изображено на Рис 1. Разработка поискового запроса в системе «Rambler».

Рис 1. Разработка поискового запроса в системе  «Rambler» 

      Запрос  поступает в поисковую систему  через маршрутизатор Cisco 6000 series. Cisco передает его наименее загруженной  машине первого уровня - frontend (1.1 - 1.3). Frontend, в свою очередь, отправляет запрос дальше, на один из восьми proxy-серверов, также выбирая наиболее свободный сервер (2.1 - 2.8). Одновременно frontend отправляет запрос на машины, осуществляющие поиск по товарам (3.1 - 3.2) и по базе Тор 100 (4.1 - 4.2). На proxy проводится поиск по ссылочному индексу, и его результаты вместе с поисковым запросом передаются на машины, которые содержат основную индексную базу, - backends (5.1.х - 5.7.х) Та же информация отправляется на машины с «быстрой базой» (6.1 - 6.2).

      На  текущий момент в поиск включено 77 backend'ов. Они сгруппированы по 11 машин, и каждая группа содержит копию одной из частей поискового индекса. Таким образом, информация о сайтах, условно входящих в красный сектор Интернета, находится на backend'ах первой группы (5.1.1 - 5.1.11), оранжевый сектор - на backend'ах второй группы (5.2.1 - 5.2.11) и т.д. Proxy-сервер выбирает наименее загруженный backend в каждой группе машин и отправляет на него поисковый запрос с результатами ссылочного поиска. На backend'ах осуществляется поиск по частям индексной базы и ранжирование с учетом результатов поиска по ссылочному индексу. При ранжировании для всех найденных документов высчитываются веса по конкретному запросу.

      После того, как запрос обработан на backend'ах, информация о результатах и ранжировании отдается обратно на proxy-сервер. Туда же поступают отсортированные результаты с машин «быстрой базы». Proxy интегрирует данные, полученные с восьми машин: клеит дубли, объединяет зеркала сайтов, переранжирует документы в общий список по весам, рассчитанным на backend'ах. Так, первым, в списке найденного может быть документ с машины 5.3.1, вторым и третьим - с 6.1, четвертым - с 5.5.2 и т.д. На proxy-сервере также реализуется построение цитат к документам и подсветка слов запроса в тексте. Полученные результаты отдаются на frontend.

      Помимо  информации с proxy-сервера, frontend получает результаты из поиска по товарам и  из базы Тор 100, отсортированные, с цитатами и подсветкой слов запроса. Frontend осуществляет окончательное объединение результатов, генерирует html со списком найденного, вставляет баннеры и перевязки (ссылки на различные разделы Рис 1. Разработка поискового запроса в системе «Rambler») и отдает html Cisco, который маршрутизирует информацию пользователю. 

2.2.      Yandex

      Поисковик Yandex появился 23 сентября 1997 г. Разработчик, компания CompTek, представила новую  поисковую систему на выставке Softool. Ранее эта компания занималась производством  информационно-поисковых систем. Одним  из ее проектов стала система, обеспечивающая поиск с учетом морфологии русского языка. Она занимала 300 кб, грузилась в оперативную память полностью и работала очень быстро. На основе этой технологии был создан «Библейский компьютерный справочник» (поисковая система, обеспечивающая работу с Ветхим и Новым Заветом).

      Основными нововведениями поисковой системы www.yandex.ru были: проверка уникальности документа  – этим достигалось исключение копий  в различных кодировках. И отличительные  свойства поискового алгоритма Yandex. Поиск  с учетом морфологии русского языка, поиск с учетом расстояния, и тщательно разработанный алгоритм оценки релевантности. Несколько месяцев спустя, в поисковой системе www.yandex.ru был реализован естественно-языковой запрос. Теперь поисковик можно спрашивать «по-русски», задавая длинные вопросы. Например: «где купить холодильник» или «генетически модифицированные продукты».

      В 1998-99гг. вместе с ростом Рунета выросли  и услуги поисковой системы Yandex. Увеличение количества запросов привело к необходимости оптимизации поискового механизма. Новый поисковый робот позволил предоставить возможности поиска по разным зонам текста, ограничение поиска на группу сайтов, поиск по ссылкам и изображениям. Также, впервые в Рунете, было введено понятие «индекс цитирования» - количество сайтов, ссылающихся на данный ресурс. Был открыт «Семейный www.yandex.ru», фильтрация результатов поиска от мата и порнографии.

      В 2000 году поисковая система Yandex была преобразована  в юридическое  лицо. Тогда же начинается активное продвижение поисковика в традиционных, «оффлайновых» СМИ. Агрессивная, но эффективная рекламная кампания принесла свои плоды – слоган «Найдется все», некоторое время спустя, становится нарицательным. Для привлеченных рекламой пользователей поисковая система www.yandex.ru открывает новые службы – почта, новости, открытки и закладки. Плюс, стилизованный под Google Toolbar, спартанский поисковик ya.ru. Поиск теперь ведется не только по веб-страницам, но и по специализированным массивам данных – новостям и товарам.

      2003 год  - поисковая система Yandex продолжает  развиваться. Yandex научился находить документы не только в формате HTML. Служба Yandex Новости радикально преобразилась: пользователям предложен оригинальный сервис – автоматическое объединение новостей в сюжеты и выделение главных тем дня.

      На  сегодняшний  день www.yandex.ru- крупнейший российский портал: его доля среди  поисковых машин  Рунета составляет около 45%, в то время  как идущий следом Rambler может похвастаться лишь 22%. Каждый день более 500 серверов компании отдают 2.7 терабайт трафика двум с половиной миллионам посетителей.

      Yandex вошел в топ-10 поисковых машин. Согласно отчету, опубликованному компанией comScore, поисковая система Yandex попала в десятку самых популярных поисковиков  в мире по результатам декабря прошлого года. Согласно представленному отчету, в декабре было сделано 66,2 млрд. поисковых запросов. 566 миллионов из них были заданы Yandex, что позволило сервису занять 9-е место в списке поисковиков. Доля Yandex на мировом рынке поисковых сервисов составила 0,9%.

      Yandex является русскоязычной поисковой системой по российскому Интернету. При поиске используется вся имеющаяся информация. При каждом запросе ищутся (и получают более высокий ранг) фразы, точно совпадающие с запросом, затем предложения, содержащие все слова запроса, и т.д. Важную роль играет относительное положение слов.

      Так, например, если запрос из четырех слов не имеет точного ответа в базе данных, будут отранжированы выше предложения, содержащие три слова из запроса, в которых слова стоят в точно той же последовательности, что и в запросе. Это дает возможность решать типичную поисковую задачу - искать документ по «неточному цитированию». Вот, что определяет положение сайта на первой странице поисковой системы при запросе по одному слову.

      Для более эффективного поиска следует помнить несколько вещей:

1. Следует  задавать уникальные заголовки  документов, вкратце описывающие  сайт и текущий документ (но  не более 20-25 слов). Слова в заголовках  имеют больший вес, чем остальные.

2. Не  стоит забывать о ключевых  словах, по возможности уникальных  для каждой страницы

3. Чем  длиннее документ, тем менее заметны  в нем будут слова, заданные  в запросе и, следовательно,  нужная страница будет ниже  в результатах поиска при прочих равных.

4. Яndex работает  только с текстами и не умеет  распознавать графические изображения.  Поэтому, если название нарисовано, стоит продублировать его в  текстовом виде.

5. Следует  соблюдать правила оформления  документов:

  • не набирать слова в разрядку;
  • не набирать слова большими буквами без необходимости;
  • точки и запятые нужно прижимать к слову, за которым они стоят, после них, ставя пробел

6. Нужно  подумать, по каким словам и  фразам вы сами искали бы  сайт вашей тематики. Если сайт посвящен заработку в Интернете и вы не находите его по слову «Заработок» - значит, это слово мало используется в документах сайта. Те, кто интересуется именно «Заработком», могут его не найти.

      Это означает, что, с точки зрения Яndex количество повторов слова в «keywords» не может «поднять» документ в результатах поиска - на ранжирование влияет совпадение фактов наличия этого слова и в ключевых словах, и в основном тексте документа (ну и, естественно, в запросе пользователя). Так выглядит стартовая страница поисковой системы Яndex Рис 1. Стартовая страница поисковой системы Яndex. 

Рис 1. Стартовая  страница поисковой системы Яndex

2.3.       Yahoo 

      В 1994 году, студенты Стэндфордского университета, Джерри Янг и Дэвид Фило, готовились к защите диссертации в области компьютерного проектирования интегральных схем. Для этого им приходилось много времени проводить в сети Интернет, в поисках нужной информации и копить ссылки. Списки со ссылками росли, потом Янг и Фило забросили диссертацию и принялись исключительно коллекционировать ссылки. К середине 1994 года их стало много, они отсортировали ссылки по категориям, потом в категориях ссылок стало тоже много, появились подкатегории. Но список Джерри и Дэвида не был предназначен для всеобщего обозрения - он составлялся исключительно для друзей. Время шло, а посещаемость все росла и росла. Адрес сайта пошел по рукам.

Информация о работе Хранение данных в сети Internet