Рускоязычные поисковые системы

Автор работы: Пользователь скрыл имя, 15 Мая 2012 в 19:34, реферат

Краткое описание

Поисковые системы уже давно стали неотъемлемой частью российского Интернета. В силу того, что они, хотя и различными средствами, самостоятельно обеспечивают все этапы обработки информации от ее получения с узлов-первоисточников до предоставления пользователю возможности поиска, их часто называют «автономными поисковыми системами».

Содержание работы

Введение…………………………………………………………………….3
1 Поисковые машины: состав, функции, принцип работы
1.1 Состав поисковых систем……………………………….….…………4
1.2 Особенности поисковых машин…………………………...….……..5
1.3 Принципы работы поисковых систем………………………………..5
2 Обзор функционирования поисковых систем
2.1 Зарубежные поисковые системы: состав и принципы работы……..13
2.2 Русскоязычные поисковые системы: состав и принципы работы….15
Вывод……………………………………………………………..……....…17
Список использованной литературы и ссылки ………………….……….18

Содержимое работы - 1 файл

Рускоязычные поисковые системы.docx

— 459.20 Кб (Скачать файл)

Министерство высшего  и среднего специального образования  Республики Узбекистан

Бухарский Инженерно-технический  институт высоких технологий

 

 

 

 

 

 

 

РЕФЕРАТ

по дисциплине:

«Информатика и информационные технологии»

 

на тему: «Русскоязычные поисковые системы»

 

 

 

 

 

       Выполнил:            ст. гр. 25-11 ЕСМТ Аппазов Энвер

      

       Приняла:                    доц. каф. «И.И.Т.» Убайдуллаева Ш.Р.

 

 

 

 

 

 

 

 

Бухара – 2012 год

 

Содержание

Введение…………………………………………………………………….3

1 Поисковые машины: состав, функции, принцип работы

   1.1 Состав поисковых  систем……………………………….….…………4

   1.2  Особенности  поисковых машин…………………………...….……..5

   1.3 Принципы работы поисковых  систем………………………………..5

2 Обзор функционирования поисковых  систем 

   2.1 Зарубежные поисковые  системы: состав и принципы  работы……..13

   2.2 Русскоязычные поисковые  системы: состав и принципы  работы….15

Вывод……………………………………………………………..……....…17

Список использованной литературы и ссылки ………………….……….18

Введение

 

Поисковые системы уже давно  стали неотъемлемой частью российского  Интернета. В силу того, что они, хотя и различными средствами, самостоятельно обеспечивают все этапы обработки  информации от ее получения с узлов-первоисточников  до предоставления пользователю возможности  поиска, их часто называют «автономными поисковыми системами».

 Поисковые системы сейчас  – это огромные и сложные  механизмы, представляющие собой  не только инструмент поиска  информации, но и заманчивые сферы  для бизнеса. Эти системы могут  различаться по принципу отбора  информации, который в той или  иной степени присутствует и  в алгоритме сканирующей программы  автоматического индекса, и в  регламенте поведения сотрудников  каталога, отвечающих за регистрацию.  Как правило, сравниваются два  основных показателя:

  • пространственный масштаб, в котором работает ИПС,
  • и ее специализация.

Большинство пользователей поисковых  систем никогда не задумывались (либо задумывались, но не нашли ответа) о  принципе работы поисковых систем, о схеме обработки запросов пользователей, о том, из чего эти системы состоят  и как функционируют… Поисковые  системы можно сравнить со справочной службой, агенты которой обходят  предприятия, собирая информацию в  базу данных. При обращении в службу информация выдается из этой базы. Данные в базе устаревают, поэтому агенты их периодически обновляют. Некоторые  предприятия сами присылают данные о себе, и к ним агентам приезжать  не приходится. Иными словами, справочная служба имеет две функции: создание и постоянное обновление данных в  базе и поиск информации в базе по запросу клиента.

 

1 Поисковые машины: состав, функции, принцип работы

1.1 Состав поисковых систем

 

Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления  поиска в сети Интернет и реагирующий  на запрос пользователя, задаваемый в  виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники  информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые  системы: «Google», «Yahoo», «MSN».

В русском Интернете это – «Яндекс», «Рамблер», «Апорт».

Аналогично, поисковая машина состоит  из двух частей: так называемого  робота (или паука), который обходит  серверы Сети и формирует базу данных поискового механизма.

База робота в основном формируется  им самим (робот сам находит ссылки на новые ресурсы) и в гораздо  меньшей степени - владельцами ресурсов, которые регистрируют свои сайты  в поисковой машине. Помимо робота (сетевого агента, паука, червяка), формирующего базу данных, существует программа, определяющая рейтинг найденных ссылок.

Принцип работы поисковой  машины сводится к тому, что она  опрашивает свой внутренний каталог (базу данных) по ключевым словам, которые  пользователь указывает в поле запроса, и выдает список ссылок, ранжированный  по релевантности.

Следует отметить, что, отрабатывая  конкретный запрос пользователя, поисковая  система оперирует именно внутренними  ресурсами (а не пускается в путешествие  по Сети, как часто полагают неискушенные пользователи), а внутренние ресурсы, естественно, ограниченны. Несмотря на то, что база данных поисковой машины постоянно обновляется, поисковая машина не может проиндексировать все Web-документы: их число слишком велико. Поэтому всегда существует вероятность, что искомый ресурс просто неизвестен конкретной поисковой системе.

 

1.2 Особенности поисковых  систем

 

В работе поисковый процесс представлен  четырьмя стадиями: формулировка (происходит до начала поиска); действие (начинающийся поиск); обзор результатов (результат, который пользователь видит после  поиска); и усовершенствование (после  обзора результатов и перед возвращением к поиску с иной формулировкой  той же потребности). Более удобная  нелинейная схема поиска информации состоит из следующих этапов:

- фиксация информационной  потребности на естественном  языке; 

- выбор нужных поисковых  сервисов сети и точная формализация  записи информационной потребности  на конкретных информационно-поисковых  языках (ИПЯ);

- выполнение созданных  запросов;

- предварительная обработка  и выборка полученных списков  ссылок на документы; 

- обращение по выбранным  адресам за искомыми документами; 

- предварительный просмотр  содержимого найденных документов;

- сохранение релевантных  документов для последующего  изучения;

- извлечение из релевантных  документов ссылок для расширения  запроса; 

- изучение всего массива  сохраненных документов;

- если информационная  потребность не полностью удовлетворена,  то возврат к первому этапу.

1.3 Принципы работы поисковых  систем

 

Задача любой поисковой системы  – доставлять людям ту информацию, которую они ищут. Научить людей  делать “правильные” запросы, т.е. запросы, соответствующие принципам работы поисковых систем невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям именно ту информацию, которую они ищут. Это означает, поисковая система должна “думать” также как думает пользователь при поиске информации.

Поисковые системы в большинстве  своем работает по принципу предварительного индексирования. По такому же принципу работают база данных большинства поисковых  систем.

Есть и другой принцип построения. Прямой поиск. Он заключается в том, что вы в поиске ключевого слова  перелистываете книгу страницу за страницей. Конечно, этот способ гораздо мене эффективен.

В варианте с инвертированным индексом поисковые системы сталкиваются с проблемой величины файлов. Как  правило, они значительно велики. Эту проблему обычно решают двумя методами. Первый заключается в том, что из файлов удаляется все лишнее, а остается лишь то, что действительно нужно для поиска. Второй метод заключается в том, что для каждой позиции запоминается не абсолютный адрес, а относительный т.е. разница адресов между текущей и предыдущей позициями.

Таким образом, два главных процесса, выполняемых поисковой системой – это индексирование сайтов, страниц  и поиск. В общем,  процесс индексирования для поисковиков проблем не вызывает. Проблемой является обработка миллиона запросов в сутки. Это связано  с большими объемами информации, которая  подвергается обработке больших  компьютерных комплексов. Главный фактор, определяющий количество участвующих  в поиске серверов, - поисковая нагрузка. Это объясняет некоторые странности возникающие при поиске информации.

Поисковые системы состоят  из пяти отдельных программных компонент:

- spider (паук): браузера-подобная программа, которая скачивает веб-страницы.

- crawler : «путешествующий» паук, который автоматически идет по всем ссылкам, найденным на странице.

- indexer (индексатор): «слепая» программа, которая анализирует веб-страницы, скаченные пауками.

- the database (база данных): хранилище скаченных и обработанных страниц.

- search engine results engine (система выдачи результатов): извлекает результаты поиска из базы данных.

Spider: Паук – это программа, которая скачивает веб-страницы. Он работает точно как ваш браузер, когда вы соединяетесь с веб-сайтом и загружаете страницу. Паук не имеет никаких визуальных компонент. То же действие (скачивание) вы можете наблюдать, когда просматриваете некоторую страницу и когда выбираете «просмотр HTML-кода» в своем браузере.

Crawler: Как и паук скачивает страницы, он может «раздеть» страницу и найти все ссылки. Это его задача – определять, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов.

Indexer: Индексатор разбирает страницу на различные ее части и анализирует их. Элементы типа заголовков страниц, заголовков, ссылок, текста, структурных элементов, элементов BOLD, ITALIC и других стилевых частей страницы вычленяются и анализируются.

Database: База данных – это хранилище всех данных, которые поисковая система скачивает и анализирует. Это часто требует огромных ресурсов.

Search Engine Results: Система выдачи результатов занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. Эта информация является наиболее ценной и интересной для нас – именно с этим компонентом поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции сайта в выдаче, поэтому в дальнейшем мы подробно рассмотрим все факторы, влияющие на ранжирование результатов.

Работа поискового указателя  происходит в три этапа, из которых два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает информацию из World Wide Web. Для этого используют специальные программы, аналогичные браузеры. Они способны скопировать заданную Web-страницу на сервер поискового указателя, просмотреть ее, найти все гиперссылки, которые на ней имеют те ресурсы, которые найдены там, снова разыскать имеющиеся в них гиперссылки и т. д. Подобные программы называют червяками, пауками, гусеницами, краулерами, спайдерами и другими подобными именами. Каждый поисковый указатель эксплуатирует для этой цели свою уникальную программу, которую нередко сам и разрабатывает. Многие современные поисковые системы родились из экспериментальных проектов, связанных с разработкой и внедрением автоматических программ, занимающихся мониторингом Сети. Теоретически, при удачном входе спайдер способен прочесать все Web-пространство за одно погружение, но на это надо очень много времени, а ему еще необходимо периодически возвращаться к ранее посещенным ресурсам, чтобы контролировать происходящие там изменения и выявлять «мертвые» ссылки, т. е. потерявшие актуальность.

После копирования разысканных Web-ресурсов на сервер поисковой системы начинается второй этап работы — индексация. Индексирование страниц производится специальной программой называемой роботом. У каждой поисковой машины таких роботов очень много. Все это служит целью параллельного скачивания документов из различных мест сети. Скачивать документы по очереди не имеет смысла, так малоэффективно. Представьте себе постоянно растущее дерево. На стволах которого вновь и вновь появляются лепесточки (страницы сайтов). Конечно же, вновь появляющиеся сайты будет проиндексированы значительно быстрее, если роботов пустить по каждому ответвлению дерева, а не делать это последовательно.

Технически модуль скачивания бывает либо мультимедийным (Altavista Merkator), либо используется асинхронный ввод-вывод (GoogleBot). Также разработчикам постоянно приходится решать задачу многопоточного DNS-сервера.

В мульти-трендовой схеме скачивающие треды называются червями (worms), а их менеджер – погоняльщиком червей (wormboy).

Не многие серверы выдержат нагрузки нескольких сотен червей, поэтому менеджер следит затем, чтобы  не перегружать серверы.

Для скачивания страниц роботы используют протоколы HTTP. Работает он следующим образом. Робот на сервер передает запрос “get/path/document” и другие полезные строки, относящиеся в HTTP запросу. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.

Целью скачивания является уменьшение сетевого трафика при максимальной полноте.

Абсолютно все поисковые роботы подчиняются файлу robots.txt, где web мастер может ограничить индексацию страниц роботом. Также у роботов есть и свои фильтры.

Например, некоторые роботы опасаются  индексировать динамические страницы. Хотя сейчас web мастера без проблем обходят эти места. Да и таких роботов остается все меньше.

Также у каждого бота есть список ресурсов, отнесенных к спаму. Соответственно, эти ресурсы посещаются ботами значительно  меньше, либо вообще игнорируются в  течение определенного времени, при этом поисковые системы не фильтруют информацию

У моделей скачивания в поддержке  есть другие модули, выполняющие вспомогательные  функции. Они помогают уменьшать  трафик, увеличивать глубину поиска, обрабатывают часто обновляемые ресурсы, хранят URL и ссылки, чтобы повторно не скачивать ресурсы.

Существуют модули отслеживания дубликатов. Они помогают отсеивать страницы с повторной информацией. Т.е. если робот находит дубликат уже существующей страницы или со слегка измененной информацией, то он просто не идет дальше по ссылкам страницы. Есть отдельный модуль определения кодировки и языка документа.

После того как страница было скачена, она обрабатывается html-парсером. Он оставляет лишь ту информацию от документа, которая действительно важна для поиска: текст, шрифты, ссылки и т.д. Хотя сейчас роботы индексируют почти все. И java script и флэш-технологии. Но, тем не менее не стоит забывать про некоторую ограниченность роботов.

Информация о работе Рускоязычные поисковые системы