Поиск информации в сети Интернет в школьном курсе информатики

Автор работы: Пользователь скрыл имя, 29 Марта 2012 в 15:43, дипломная работа

Краткое описание

Цель исследования конкретизируется в следующих основных задачах:
 изучить теоретические аспекты указанной проблемы и дать общую характеристику существующего подхода к изучению основ работы глобальной сети Интернет и ее сервисов (на примере поиска информации) в рамках базового курса информатики;
 проанализировать методические аспекты преподавания раздела «Поиск информации в сети Интернет» на уроках информатики;
 провести отбор учебного материала по данному разделу и представить его в гипертекстовом формате;
 разработать поурочные методические рекомендации для преподавания раздела «Поиск информации в сети Интернет».

Содержание работы

Введение
3
Глава 1. Теоретические основы функционирования сети Интернет ……………………………………………………..

7
1.1. Развитие глобальной сети Интернет: историческая справка .………………………………………………………..
7
1.2. Представление информации в сети Интернет………….
11
1.3. Классификация средств поиска….………………………
16
Глава 2. Тема «Поиск информации в сети Интернет» в школьном курсе информатики……………………………
34
2.1. Роль и место темы «Поиск информации в сети Интернет» в авторских программах ………………………….
34
2.2. Методические рекомендации: обобщенный алгоритм обучения поиску информации ….…………………………….
44
2.3. Дидактическое обеспечение темы «Поиск информации в сети Интернет»……………………………………………….
57
Заключение…………………………………………………………….
92
Литература……………………………………………………………..
94

Содержимое работы - 1 файл

ДИПЛОМ.doc

— 6.63 Мб (Скачать файл)

      относительная частота (отношение количества вхождений слов за­проса в документ к общему количеству слов в документе);

      популярность найденной страницы — поисковая машина автомати­чески вычисляет коэффициент популярности каждой страницы Ин­тернета на основе анализа гипертекстовых ссылок между страницами;

      ссылочный вес документа — при ранжировании учитывается ссы­лочный вес страницы (индекс цитирования), рассчитанный на ос­новании учета гиперссылок, содержащих слова запроса.

Перечисленные правила используются почти во всех ведущих поисковых системах, и создатели веб-страниц о них прекрасно осведомлены. Чтобы добиться более высокого положения ссылок на свои страницы, некоторые недоб­росовестные авторы используют различные ухищрения. Например, многократно повторяют ключевые слова и фразы в заголовке документа, помещают такие же наборы ключевых слов в текст документа, а для того чтобы те не попадались на глаза читателю, либо делают их исключительно мелким  шрифтом, либо применяют цвет текста, совпадающий с цветом фона. За такие «хитрости» поисковая система может и наказать Web-страницу, присвоив ей штрафной отрицательный рейтинг.

Необходимость в ранжировании результатов поиска очевидна. Без этого пользователи захлебнулись бы в потоке предлагаемых ссылок и, может быть, так никогда и не добрались бы до самых полезных для себя ресурсов.  Однако у ранжирования есть и негативная сторона. У каждой поисковой системы своя политика ранжирования. Очень может быть и так, что до каких-то ценных для себя ресурсов пользователь никогда и не доберется, потому что по результатам ранжирования они всегда будут отодвигаться глубоко вниз. Из этого можно сделать несколько выводов:

      стараться избегать прямолинейного поиска по одному слову. Дать поисковой системе группу ключевых слов, а еще лучше – фразу.

      для поиска по группе слов или по ключевой фразе использовать ту систему поиска, к которой наиболее привыкли.

      если пользоваться поиском по одному слову, то, наоборот, надо применять как можно больше разных поисковых систем. Они используют разные алгоритмы рейтингования, это дает шанс не пропустить какой-то значимый ресурс.

Релевантность — далеко не единственный критерий, по которому до­кументы могут быть упорядочены в списке результатов. Зачастую более важной является «свежесть» документа, то есть дата его создания. По­этому многие поисковые системы позволяют пользователям выбирать более подходящий способ ранжирования найденных документов [5].

Количество релевантных документов в результатах поиска в значительной степени зависит от умения пользователя грамотно составлять запрос на поиск [7]. Другими словами, чтобы повысить эффективность поиска, требуется  знать основные особенности построения запросов [5].

Все поисковые указатели реализуют несколько алгоритмов поиска. К ним относятся: простой поиск, расширенный поиск, контекстный поиск и специальный поиск.

Простой поиск. При простом поиске в поле запроса вводится одно или несколько слов, которые могут характеризовать содержание документа. Если слово одно, то, как правило, в ответ выдается такое большое количество ссылок, с которым непонятно что делать. Если вводится несколько слов, то результат зависит от того, как эти слова введены, а это, в свою очередь, зависит от конкретной используемой системы.  Приемы простого поиска в разных поисковых системах, как правило, свои, и прежде чем ими пользоваться, желательно почитать инструкцию.

Расширенный поиск. Расширенный поиск  всегда подразумевает запрос из группы слов. При расширенном поиске в большинстве случаев разрешается  связывать ключевые слова логическими операторами. Основное достоинство расширенного поиска состоит в том, что правила записи ключевых слов и логических операторов в разных системах либо одинаковы, либо очень похожи.

Контекстный поиск. Это очень полезный вид поиска, который, к сожалению, реализован не во всех поисковых указателях. Системы, которые его поддерживают, следует ценить особо. При контекстном поиске требуется точное совпадение фразы или группы слов. В большинстве поисковых систем, включающих этот метод, ключевая фраза должна быть заключена в кавычки.

Специальный поиск. С помощью команд специального поиска разыскивают дополнительную информацию. Например, такие команды позволяют определить, как часто в Сети встречаются гиперссылки, указывающие на какой-либо ресурс, с их помощью можно найти ключевые слова, входящие в заголовки Web-страниц и т.п. Как правило, команды специального поиска в различных поисковых системах свои [10].

Большое значение  в современных полнотекстовых ИПС уделяется морфологическому анализу, т.е. автоматическим средствам обработки отдельных слов, как в текстах исходных документов, так и в запросах пользователей.

Стоп-слова. Большинство естественных языков имеет так называемые вспомогательные слова типа артиклей и предлогов, которые входят в большинство документов и не влияют на процесс выявления документов, удовлетворяющих информационным потребностям пользователей, занимающихся поиском. Такие слова называются стоп-словами (stop words). Поисковые системы обычно не включают стоп-слов в свой индекс, однако  учитывают при сквозной нумерации слов, что позволяет выполнять поиск фраз, содержащих «стоп-слова», например «чай с молоком» (хотя имеется  ненулевая вероятность появления различных фраз, содержащих значимые слова на определенных местах). Исключение стоп-слов из индекса ведет  к его существенному сокращению и повышению эффективности работы. Однако некоторые запросы, состоящие только из стоп-слов (типа «to be or not to be»), в этих случаях уже не пройдут.

Морфемный анализ. При построении базы данных из массива документов (в случае сетевых ИПС такими документами выступают отдельные Web-страницы) формируется индекс из всех слов, входящих в эти документы, иногда за исключением стоп-слов. Построенный  словарный  индекс системы во многих реализациях ИПС лемматизируется, т.е. все слова  приводятся к каноническим формам, например, существительные – к именительному падежу, глаголы – к инфинитивной форме и т.д.  Это особенно характерно для славянских языков, для которых, в отличие, например, от английского, специфично достаточно много словоизменений. В системах, работающих с учетом  морфологии, лемматизации должны подвергаться и запросы пользователей, т.е. если в исходном документе присутствует слово «конфета», пользователь получит  ссылки даже на те документы, в которых это  слово используется в различных формах, например «конфеты», «конфетами», «конфет». Более того, представленное в запросе слово «люди» обеспечит поиск и  по слову «человек».

Тезаурус. Еще при появлении первых ИПС возникла дискуссия, предметом которой стало использование в качестве  индексов систем автоматически формируемых словарей или подключение заранее подготовленных словарных массивов, снабженных рядом дополнительных атрибутов,  –  тезаурусов. В тезаурусах каждой лексической единице приписывается небольшой пояснительный текст – словарная статья и ссылки на другие слова этого словарного массива. При формировании поискового индекса системы на основе тезауруса каждое слово из документов, входящих в базу данных ИПС, анализируется на вхождение в тезаурус. Особый смысл имеет использование  тематических тезаурусов для специализированных баз данных, однако сегодня остается открытым вопрос построения политематического тезауруса и индекса ИПС на его основе. При формировании баз данных на основе Web-сайтов Internet именно политематический тезаурус представляет самый большой интерес.

Семантические методы. В последнее время в технологии поиска все чаще стали внедряться элементы контент-анализа — методологии, возникшей в конце ХIХ-начале XX вв. Эта ме­тодология, изначально ориентированная на применение в психологии и социоло­гии, сегодня все чаще используется в различных автоматизированных системах. Различают количественный и качественный контент-анализ. Если качественный контент-анализ базируется на глубоком лингвистическом и семантическом ана­лизе отдельных предложений и всего текста, то основой количественного кон­тент-анализа являются статистические подходы.

В последнее время получили развитие такие направления контент-анализа, как «Data Mining» и «Text Mining», которые предполагают автоматическое вы­явление из текстовых массивов нового смысла, новых данных, феноменов, фак­тов-знаний. Все чаще возникают попытки привлечения методов контент-анализа, а точнее Text Mining, в реальные поисковые системы. И эти попытки не умозри­тельны — они обусловлены объемами и темпами роста Сети. Во многие совре­менные сетевые поисковые системы внедрены такие компоненты, как:

      автоматическая группировка документов по определенному заранее клас­сификатору;

      автоматическое определение новых, не заданных заранее классов на основе неструктурированных или слабо структурированных документов;

      ранжирование документов по смысловой релевантности;

      выявление семантически подобных документов — поиск подобных доку­ментов на основе эталона;

      автоматический анализ и смысловое преобразование запросов  пользователей.

Логические операторы. Для ввода сложных запросов требуется использование булевых контекстных операторов, скобок.  Во всех современных системах реализованы булевы операторы AND, OR и NOT, а также работа со скобками. Однако в двух из них – AltaVista и Excite – оператор NOT записывается в виде AND NOT, что подчеркивает его бинарность (в математической логике оператор NOT в чистом виде является унарным). В режимах простого поиска булевы операторы реализуются не всегда указанием их в явном виде. Например, во многих поисковых системах пробел между словами запроса по умолчанию воспринимается как оператор AND (Allthenews, Google, META и UAport). В Alltheweb допускается использование перед словами операторов + и – фактически как синонимов операторов AND и NOT соответственно. Точно так же используются эти операторы в AltaVista, Excite, Lycos и Апорт. У самой популярной сегодня системы Google – самый лаконичный набор логических операторов: +, OR и – .

Таблица 1. Обозначение логических операторов языка запросов

Оператор

Полное обозначение

Сокращенное

обозначение

Обозначение при простом поиске

ИЛИ

OR

Пробел

И

AND

&

+

НЕ

NOT

!

И-НЕ

AND NOT

&!

~

 

Операторы контекстной близости. Большинство профессиональных поисковых систем обеспечивает выполнение операций контекстной близости, одна из реализаций которой — поиск выраже­ний в кавычках.

Например, в системе Google реализована только возможность поиска по фра­зам в кавычках, в AltaVista реализован оператор NEAR (~), обеспечивающий на­хождение документов, у которых два слова находятся на расстоянии не более 10 слов. В системе Lycos функции контекстной близости получили наибольшее развитие и реализованы с помощью четырех операторов: ADJ, NEAR, FAR и BEFORE. Оператор ADJ обеспечивает близость двух слов в тексте в любом по­рядке, а оператор NEAR позволяет находить документы, в которых слова-операнды удалены не более, чем на 25 слов. FAR — оператор, противоположный по смыслу оператору NEAR, т.е. он исключает близость терминов запроса в пре­делах 25 слов текста документа, а оператор BEFORE похож на оператор ADJ, только с учетом порядка встречаемости терминов в тексте. Оригинально решен вопрос контекстной близости в системе Рамблер. Значение ограничения контекста в этой системе можно изменять конструкцией (число, запрос), где число — любое положительное число, а запрос — любой корректный запрос, состоящий более чем из одного слова. Таким образом, по запросу (2, красная роза) будут найдены только те документы, в которых между словами «красная» и «роза» хотя бы раз не стоит ни одного слова. В системе Yandex режим контекстного поиска называется «поиском с расстоянием». В общем виде ограничение по расстоянию задается в строке данных выражением вида /(п т), где п — минимальное, а т — максималь­ное допустимое расстояние. В системе Апорт существует два вида ограничения по расстоянию: в словах wN(...), где N — число слов, и в предложениях sN(...), где N — число предложений. В этой системе также подвергаются интеллекту­альной обработке выражения в кавычках. Например, запрос «яблоки на снегу» эквивалентен запросам «яблоки и снег», «яблоки под снегом», «яблоко снег».

Большинство из названных систем способно реализовать контекстный поиск заключенной в кавычки фразы (Google, Alltheweb, AltaVista, Lycos и др.). Такая способность — это реализация неявно указанных с помощью кавычек операторов контекстной близости [9].

Регистр. Если в запросе слово набрано с прописной буквы, то все ИПС будут учитывать регистр, в котором набраны буквы (прописная/строчная). Например, запрос «ле­бедь» найдет и птицу, и генерала. Запрос же «Лебедь» — только генерала и те случаи упоминания птицы, когда ее название написано с прописной буквы.

Звездочка. Звездочка в конце слова символизирует (как это принято и в MS-DOS) произ­вольное количество любых букв. Например, по запросу «зелен*» будут найдены документы, содержащие любое из слов: «зеленка», «зелень», «зеленый», «Зелено­град» в любой грамматической форме [8].

Информация о работе Поиск информации в сети Интернет в школьном курсе информатики