Автор работы: Пользователь скрыл имя, 27 Октября 2013 в 19:03, доклад
В Інтернет розміщено кілька мільярдів документів у вигляді веб-сторінок. Для швидкого пошуку даних у мережі використовується такі засоби:
тематичні каталоги (або веб-каталоги);
пошукові машини.
Тематичним каталогом називається сайт, де зберігаються впорядковані за темами посилання на інші сайти. Якщо потрібні загальні відомості, які стосується глобальної теми або певних її галузей, доцільно скористатися саме тематичними каталогами.
В Інтернет розміщено кілька мільярдів документів у вигляді веб-сторінок. Для швидкого пошуку даних у мережі використовується такі засоби:
Тематичним каталогом називається сайт, де зберігаються впорядковані за темами посилання на інші сайти. Якщо потрібні загальні відомості, які стосується глобальної теми або певних її галузей, доцільно скористатися саме тематичними каталогами. Вони створюються вручну редакторами на основі даних, зібраних на сайтах Інтернету, тому добірки досить якісні. Найбільш відомі тематичні каталоги представлені у табл. 2.
Таблиця 2.
Українські |
Російські |
Світові |
Каталог «Вибране»: http://www.favorites.com.ua
Інтернет портал: http://www.era.com.ua
Український портал (каталог сайтів України): http://www.uacenter.com Каталог Silver: http://www.silver.kiev.ua Каталог ualist: http://www.ualist.com |
Каталог дитячий ресурсів Рунету: http://www.kinder.ru
Федеральный портал «Российское образование»: http://www.poral.edu.ru Шкільний світ: каталог освітніх ресурсів: http://www.school.holm.ru Russia on the Net: http://www.ru List.ru: http://www.list.ru Max.ru: http://www.max.ru Weblist.ru: http://www.weblist.ru MavicaNet: http://www.mavica.ru |
Yahoo! – каталог ресурсів (англійською мовою): http://www.yahoo.com Yahooligans – веб-путівник для дітей (англійською мовою): http://www.yahooligans.com Публічна бібліотека Інтернету: http://www.ipl.org
Look Smart: http://www.looksmart.com Відкритий каталог: http://www.dmoz.org WebBrain: http://www.web-sitebrain.com |
Тематичні каталоги мають деревоподібну структуру, що дозволяє користувачу переходити від загальних тем до більш вузьких. Каталоги призначені насамперед для пошуку сайтів, присвячених загальним темам, тому знайти з їх застосуванням відповідь на специфічне питання практично неможливо.
Каталоги можуть стати хорошою відправною точкою у пошуку даних, (бази даних значно поступаються базам даних пошукових машин).
Кожний каталог має свою систему класифікації, проте загальний принцип організації даних в них приблизно однаковий.
Абсолютна більшість каталогів також має систему пошуку. Пошук здійснюється у коротких описах сайтів та назвах категорій, а не у вмісті веб-сторінок, як у пошукових системах.
Недоліком тематичних каталогів є неповне охоплення існуючих у мережі ресурсів, оскільки відслідкувати всі наявні в Інтернеті відомості фактично неможливо, навіть маючи для обслуговування серверу значну кількість персоналу.
Пошуковими машинами називають сайти, які використовуються для пошуку потрібних даних в інтернет-просторі та мають для цієї мети спеціальні засоби.
Якщо відомі конкретна назва, фраза або термін, то для одержання даних щодо предмета пошуку слід використовувати саме пошукові машини.
Пошук на таких машинах здійснюється за допомогою спеціально розроблених для цього програм, які постійно відвідують веб-сайти Інтернету з метою створення каталогів веб- сторінок.
Для визначення місцезнаходження певних даних, наприклад, якогось відомого документа, зображення або фрази, а не загальної теми, найліпше застосовувати саме пошукові
машини.
Пошукові машини працюють з використанням автоматичних засобів, що дозволяє швидко опрацьовувати велику кількість веб-документів і створювати бази даних обсягом у сотні мільйонів веб-сторінок. Але при цьому ніхто не може гарантувати, що наявність у документі певних слів, за якими здійснюється пошук, вказує на належність документа до конкретної теми. Тому точність пошуку даних в таких базах даних залишає бажати кращого.
Бази даних пошукових машин значно більші за обсягом, ніж бази даних тематичних каталогів, та й поновлюються вони частіше.
Робота пошукової машини проводиться у три етапи:
Пошукова машина здатна самостійно збирати дані про наявні у веб-просторі сайти, впорядковувати ці дані та робити їх доступними для користувача.
Найбільш відомі пошукові машини представлені у табл. 3.
Таблиця 3.
Українські |
Російські |
Світові |
Meta: www.meta.ua Quick Search: www.Qs.kiev.ua Atlas: www.atlasua.net Avaport: www.avaport.com Bigmir: www.bigmir.net Topping: www.topping.com.ua Uaport: www.uaport.net Uaportal: www.uaportal.com Uaplus: www.uaplus.com |
Рамблер: www.rambler.ru Яндекс: www.yandex.ru Апорт: www.aport.ru Metabot: www.metebot.ru |
Google: www.google.com AltaViasta: www.altavista.com AskJeeves: www.askjeeves.com Lycos: www.lycos.com SciSeek (пошук наукової інформації): www.sciseek.com All the Web: www.alltheweb.com Excite: www.excite.com Hotbot: www.hotbot.lycos.com Northern Light: www.northernlight.com |
Пошук у мережі описано у схемі на рис. 1.
Рис. 1. Схема організації пошуку даних у мережі.
Розглянемо використання пошукових машин. Кожна така машина має свій сайт з домашньою сторінкою. Кожна пошукова система зберігається на певному сервері, який називають пошуковим.
Для успішного пошуку потрібно правильно підібрати ключові слова, які описують тему, і задати їх пошуковій системі. На пошуковому сервері, задана спеціальна форма для введення ключових слів, які будуть використовуватися у процесі пошуку.
Після введення в поле такої форми, потрібного слова треба клацнути на кнопку Знайти (на інших сайтах подібна кнопка може називатися Пошук, Найти, GO). Ключова фраза буде передана на сервер пошукової машини, яка знайде у своїх базах даних адреси веб-ресурсів, що містять вказані ключові слова.
За успішного пошуку на екран виводяться дані про чергові десять сторінок, що відповідають зазначеним критеріям пошуку.
Зверху у вікні відображається загальна кількість знайдених посилань. Щоб переглянути одну зі знайдених веб-сторінок, потрібно клікнути мишею на посиланні на неї.
Кожна пошукова машина має власний набір параметрів пошуку та способів їхнього введення. Правила складання запитів на пошук зазвичай містяться на сторінці довідки, яка відкривається після вибору посилання на зразок Допомога, Підказка, Правила складання запитів тощо.
Всі машини забезпечують такі можливості:
Крім того, пошукові машини дозволяють формувати критерії з використанням логічних операцій І (AND), АБО (OR) та НЕ (NOT).
У веб-просторі, під логічними операціями розуміють способи об’єднання декількох простих критеріїв пошуку в один складений.
Об’єднання двох критеріїв за допомогою логічної операції І (AND) означає, що на сторінці мають бути присутні обидва вказані елементи.
При використанні операції АБО (OR) будуть пропонуватися сторінки, що містять хоча б один із заданих елементів.
Операція НЕ (NOT), застосована до одного з критеріїв, означає, що відповідний елемент не повинен міститися на сторінці.
Зверніть увагу! Операцію І всі найбільші пошукові машини застосовують до введених Вами слів за умовчанням, тобто коли Ви вводите декілька слів без лапок.
Запит до пошукової служби має складатися з таких ключових слів, що найточніше характеризують тему або завдання пошуку.
Ключових слів краще підбирати три і більше. Вказуючи декілька ключових слів, Ви забезпечуєте пошук більшої кількості веб-сторінок, на яких вони містяться.
За призначенням усі команди пошукових систем можна поділити на три групи.
Для простого пошуку. Запити створюються нескладними методами, але це звичайно призводить до занадто великої кількості результатів, з яких важко вибрати потрібний.
Для розширеного пошуку. Команди даного типу дозволяють досить точно описати необхідний документ.
Для спеціального пошуку. Ці команди призначені не для пошуку документів за вмістом,а, наприклад, для пошуку веб-сайтів за їх назвами, фрагментами адрес, а також адресами посилань, які зустрічаються на веб-сторінках.
Незалежно від того, яка форма слова вказана в запиті, у процесі пошуку враховуються всі словоформи за правилами російської та української (у деяких пошукових системах) мов.
Якщо в запиті слово набрано з великої літери, то всі пошукові системи будуть враховувати регістр, у якому набрані літери (мала/велика).
Якщо запит складається з одного чи кількох слів, то в результаті проведення пошуку будуть знайдені документи, в яких зустрічаються всі слова запиту, крім обмеженої кількості спів (сполучники, прийменники та ін.), які ігноруються, оскільки не несуть змістового навантаження. Зірочка наприкінці слова означає будь-яку кількість довільних літер.
Лапки вказують пошуковій системі, що задані в запиті слова належать до ключової фрази, яку слід шукати в тексті повністю.
При складанні запиту можна комбінувати ключові слова за допомогою логічних операцій І (AND), АБО (OR), HE (NOT).
Група операторів, яка дозволяє задати відстань між словами запиту.
Оператор |
Синоніми |
Описання |
" " |
Подвійні лапки дозволяють знаходити словосполучення, вказане в них або близьке до нього. Останнє застереження пов’язано з двома обставинами. По-перше, стоп-слова (прийменники, сполучники тощо) в лапках нехтуються, як у звичайному запиті. По-друге, граматична форма слів також лапками не фіксується (щодо запитів російською мовою). Наприклад, за запитом «погода в Криму» будуть знайдені документи, що містять наступні словосполучення: «погода в Криму», «погода та Крим», «погода над Кримом», «погода Крим» тощо. | |
сл2(...) |
с2(...) w2(...) [2,...] |
Обмеження відстані у словах (двійка вказана як приклад). Якщо Ви потребуєте, щоб задані Вами слова зустрічались, скажімо, у межах 5 слів, треба написати: сл5(сонце вітер вода). У цьому випадку будуть знайдені документи, де мiж словами «сонце», «вітер» та «вода» розташовано не більш двох інших слів (тобто загальне число слів у фрагменті не перевищує 5). Порядок, в якому зустрічаються задані слова – не важливий. |
пр2(...) |
п2(...) реч2(...) s2(...) {2,...} |
Обмеження вiдстанi у реченнях (двійка вказана як приклад). Якщо Ви потребуєте, щоб задані Вами слова зустрічались, скажімо, у межах 1 речення, треба написати: пр1(сонце вітер вода). |
Ще один поширений випадок – пошук за адресами Web-серверів.
Оператор |
Синоніми |
Описання |
url= |
url: |
Обмеження пошуку одним або декількома серверами, або навіть частиною сервера. Приклад. Запит:url=www.kharkiv.com За таким запитом будуть видані всі документи, проіндексовані машиною на сервері www.kharkiv.com. У цьому разі документи видаються у випадковому порядку. url=*.kharkiv.com. |
Окрім позначених вище можна користуватися спеціалізованими операторами – зрізання та нормальної форми.
Оператор |
Синоніми |
Описання |
* |
Оператор зрізання. Зірочка наприкінці слова замінює довільне число будь-яких літер. Отже, за запитом вол* окрім «вола» буде знайдено документи, що містять слова «воля», «Волинь», «вольт» та інші у будь-якій граматичній формі. | |
! |
Оператор нормальної форми. Іноді деякі форми різних слів співпадають за написанням. Наприклад, слово «лада» – це нормальна форма іменника жіночого роду та одночасно родовий відмінок слова «лад». Для того, щоб усунути таку неоднозначність, Ви можете поставити поперед слова у запиті знак вигуку (!). Таким чином, Ви підкреслюєте, що це нормальна форма, та відтинаєте деяку частину непотрібних словоформ та якось обмежуєте видачу результатів. За запитом !лад не буде знаходитись словоформа «ладой», що є тільки у іменника жіночого роду «лада». |
На відміну від операторів розширеного пошуку, які встановлюють взаємозв’язок між словами, оператори параметрів запиту дозволяють обмежити область пошуку (як за часом створення, так і за рядом службових полів документа).
Оператор обмеження інтервалу дат:
Оператор |
Синоніми |
Описання |
дата= |
дата: date= date: |
Цей оператор дозволить Вам обмежити пошук тільки тими документами, які попадають в заданий інтервал дат. Приклад, запит: Україна дата=01/01/99-01/02/99 За таким запитом будуть видані всі документи, що містять слово «Україна», і що мають дату від 1 січня 1999 року до 1 лютого 1999 року. Запит: date=01/01/99 Україна За таким запитом будуть видані всі документи, що містять слово «Україна», і що мають дату 1 січня 1999 року. Запит: дата:<01/02/99 Україна або дата:-01/02/99 Україна За таким запитом будуть видані всі документи, що містять слово «Україна», і що мають дату не пізніше 1 лютого 1999 року. |