Автор работы: Пользователь скрыл имя, 29 Марта 2012 в 15:43, дипломная работа
Цель исследования конкретизируется в следующих основных задачах:
изучить теоретические аспекты указанной проблемы и дать общую характеристику существующего подхода к изучению основ работы глобальной сети Интернет и ее сервисов (на примере поиска информации) в рамках базового курса информатики;
проанализировать методические аспекты преподавания раздела «Поиск информации в сети Интернет» на уроках информатики;
провести отбор учебного материала по данному разделу и представить его в гипертекстовом формате;
разработать поурочные методические рекомендации для преподавания раздела «Поиск информации в сети Интернет».
Введение
3
Глава 1. Теоретические основы функционирования сети Интернет ……………………………………………………..
7
1.1. Развитие глобальной сети Интернет: историческая справка .………………………………………………………..
7
1.2. Представление информации в сети Интернет………….
11
1.3. Классификация средств поиска….………………………
16
Глава 2. Тема «Поиск информации в сети Интернет» в школьном курсе информатики……………………………
34
2.1. Роль и место темы «Поиск информации в сети Интернет» в авторских программах ………………………….
34
2.2. Методические рекомендации: обобщенный алгоритм обучения поиску информации ….…………………………….
44
2.3. Дидактическое обеспечение темы «Поиск информации в сети Интернет»……………………………………………….
57
Заключение…………………………………………………………….
92
Литература……………………………………………………………..
94
относительная частота (отношение количества вхождений слов запроса в документ к общему количеству слов в документе);
популярность найденной страницы — поисковая машина автоматически вычисляет коэффициент популярности каждой страницы Интернета на основе анализа гипертекстовых ссылок между страницами;
ссылочный вес документа — при ранжировании учитывается ссылочный вес страницы (индекс цитирования), рассчитанный на основании учета гиперссылок, содержащих слова запроса.
Перечисленные правила используются почти во всех ведущих поисковых системах, и создатели веб-страниц о них прекрасно осведомлены. Чтобы добиться более высокого положения ссылок на свои страницы, некоторые недобросовестные авторы используют различные ухищрения. Например, многократно повторяют ключевые слова и фразы в заголовке документа, помещают такие же наборы ключевых слов в текст документа, а для того чтобы те не попадались на глаза читателю, либо делают их исключительно мелким шрифтом, либо применяют цвет текста, совпадающий с цветом фона. За такие «хитрости» поисковая система может и наказать Web-страницу, присвоив ей штрафной отрицательный рейтинг.
Необходимость в ранжировании результатов поиска очевидна. Без этого пользователи захлебнулись бы в потоке предлагаемых ссылок и, может быть, так никогда и не добрались бы до самых полезных для себя ресурсов. Однако у ранжирования есть и негативная сторона. У каждой поисковой системы своя политика ранжирования. Очень может быть и так, что до каких-то ценных для себя ресурсов пользователь никогда и не доберется, потому что по результатам ранжирования они всегда будут отодвигаться глубоко вниз. Из этого можно сделать несколько выводов:
стараться избегать прямолинейного поиска по одному слову. Дать поисковой системе группу ключевых слов, а еще лучше – фразу.
для поиска по группе слов или по ключевой фразе использовать ту систему поиска, к которой наиболее привыкли.
если пользоваться поиском по одному слову, то, наоборот, надо применять как можно больше разных поисковых систем. Они используют разные алгоритмы рейтингования, это дает шанс не пропустить какой-то значимый ресурс.
Релевантность — далеко не единственный критерий, по которому документы могут быть упорядочены в списке результатов. Зачастую более важной является «свежесть» документа, то есть дата его создания. Поэтому многие поисковые системы позволяют пользователям выбирать более подходящий способ ранжирования найденных документов [5].
Количество релевантных документов в результатах поиска в значительной степени зависит от умения пользователя грамотно составлять запрос на поиск [7]. Другими словами, чтобы повысить эффективность поиска, требуется знать основные особенности построения запросов [5].
Все поисковые указатели реализуют несколько алгоритмов поиска. К ним относятся: простой поиск, расширенный поиск, контекстный поиск и специальный поиск.
Простой поиск. При простом поиске в поле запроса вводится одно или несколько слов, которые могут характеризовать содержание документа. Если слово одно, то, как правило, в ответ выдается такое большое количество ссылок, с которым непонятно что делать. Если вводится несколько слов, то результат зависит от того, как эти слова введены, а это, в свою очередь, зависит от конкретной используемой системы. Приемы простого поиска в разных поисковых системах, как правило, свои, и прежде чем ими пользоваться, желательно почитать инструкцию.
Расширенный поиск. Расширенный поиск всегда подразумевает запрос из группы слов. При расширенном поиске в большинстве случаев разрешается связывать ключевые слова логическими операторами. Основное достоинство расширенного поиска состоит в том, что правила записи ключевых слов и логических операторов в разных системах либо одинаковы, либо очень похожи.
Контекстный поиск. Это очень полезный вид поиска, который, к сожалению, реализован не во всех поисковых указателях. Системы, которые его поддерживают, следует ценить особо. При контекстном поиске требуется точное совпадение фразы или группы слов. В большинстве поисковых систем, включающих этот метод, ключевая фраза должна быть заключена в кавычки.
Специальный поиск. С помощью команд специального поиска разыскивают дополнительную информацию. Например, такие команды позволяют определить, как часто в Сети встречаются гиперссылки, указывающие на какой-либо ресурс, с их помощью можно найти ключевые слова, входящие в заголовки Web-страниц и т.п. Как правило, команды специального поиска в различных поисковых системах свои [10].
Большое значение в современных полнотекстовых ИПС уделяется морфологическому анализу, т.е. автоматическим средствам обработки отдельных слов, как в текстах исходных документов, так и в запросах пользователей.
Стоп-слова. Большинство естественных языков имеет так называемые вспомогательные слова типа артиклей и предлогов, которые входят в большинство документов и не влияют на процесс выявления документов, удовлетворяющих информационным потребностям пользователей, занимающихся поиском. Такие слова называются стоп-словами (stop words). Поисковые системы обычно не включают стоп-слов в свой индекс, однако учитывают при сквозной нумерации слов, что позволяет выполнять поиск фраз, содержащих «стоп-слова», например «чай с молоком» (хотя имеется ненулевая вероятность появления различных фраз, содержащих значимые слова на определенных местах). Исключение стоп-слов из индекса ведет к его существенному сокращению и повышению эффективности работы. Однако некоторые запросы, состоящие только из стоп-слов (типа «to be or not to be»), в этих случаях уже не пройдут.
Морфемный анализ. При построении базы данных из массива документов (в случае сетевых ИПС такими документами выступают отдельные Web-страницы) формируется индекс из всех слов, входящих в эти документы, иногда за исключением стоп-слов. Построенный словарный индекс системы во многих реализациях ИПС лемматизируется, т.е. все слова приводятся к каноническим формам, например, существительные – к именительному падежу, глаголы – к инфинитивной форме и т.д. Это особенно характерно для славянских языков, для которых, в отличие, например, от английского, специфично достаточно много словоизменений. В системах, работающих с учетом морфологии, лемматизации должны подвергаться и запросы пользователей, т.е. если в исходном документе присутствует слово «конфета», пользователь получит ссылки даже на те документы, в которых это слово используется в различных формах, например «конфеты», «конфетами», «конфет». Более того, представленное в запросе слово «люди» обеспечит поиск и по слову «человек».
Тезаурус. Еще при появлении первых ИПС возникла дискуссия, предметом которой стало использование в качестве индексов систем автоматически формируемых словарей или подключение заранее подготовленных словарных массивов, снабженных рядом дополнительных атрибутов, – тезаурусов. В тезаурусах каждой лексической единице приписывается небольшой пояснительный текст – словарная статья и ссылки на другие слова этого словарного массива. При формировании поискового индекса системы на основе тезауруса каждое слово из документов, входящих в базу данных ИПС, анализируется на вхождение в тезаурус. Особый смысл имеет использование тематических тезаурусов для специализированных баз данных, однако сегодня остается открытым вопрос построения политематического тезауруса и индекса ИПС на его основе. При формировании баз данных на основе Web-сайтов Internet именно политематический тезаурус представляет самый большой интерес.
Семантические методы. В последнее время в технологии поиска все чаще стали внедряться элементы контент-анализа — методологии, возникшей в конце ХIХ-начале XX вв. Эта методология, изначально ориентированная на применение в психологии и социологии, сегодня все чаще используется в различных автоматизированных системах. Различают количественный и качественный контент-анализ. Если качественный контент-анализ базируется на глубоком лингвистическом и семантическом анализе отдельных предложений и всего текста, то основой количественного контент-анализа являются статистические подходы.
В последнее время получили развитие такие направления контент-анализа, как «Data Mining» и «Text Mining», которые предполагают автоматическое выявление из текстовых массивов нового смысла, новых данных, феноменов, фактов-знаний. Все чаще возникают попытки привлечения методов контент-анализа, а точнее Text Mining, в реальные поисковые системы. И эти попытки не умозрительны — они обусловлены объемами и темпами роста Сети. Во многие современные сетевые поисковые системы внедрены такие компоненты, как:
автоматическая группировка документов по определенному заранее классификатору;
автоматическое определение новых, не заданных заранее классов на основе неструктурированных или слабо структурированных документов;
ранжирование документов по смысловой релевантности;
выявление семантически подобных документов — поиск подобных документов на основе эталона;
автоматический анализ и смысловое преобразование запросов пользователей.
Логические операторы. Для ввода сложных запросов требуется использование булевых контекстных операторов, скобок. Во всех современных системах реализованы булевы операторы AND, OR и NOT, а также работа со скобками. Однако в двух из них – AltaVista и Excite – оператор NOT записывается в виде AND NOT, что подчеркивает его бинарность (в математической логике оператор NOT в чистом виде является унарным). В режимах простого поиска булевы операторы реализуются не всегда указанием их в явном виде. Например, во многих поисковых системах пробел между словами запроса по умолчанию воспринимается как оператор AND (Allthenews, Google, META и UAport). В Alltheweb допускается использование перед словами операторов + и – фактически как синонимов операторов AND и NOT соответственно. Точно так же используются эти операторы в AltaVista, Excite, Lycos и Апорт. У самой популярной сегодня системы Google – самый лаконичный набор логических операторов: +, OR и – .
Таблица 1. Обозначение логических операторов языка запросов
Оператор | Полное обозначение | Сокращенное обозначение | Обозначение при простом поиске |
ИЛИ | OR | │ | Пробел |
И | AND | & | + |
НЕ | NOT | ! | – |
И-НЕ | AND NOT | &! | ~ |
Операторы контекстной близости. Большинство профессиональных поисковых систем обеспечивает выполнение операций контекстной близости, одна из реализаций которой — поиск выражений в кавычках.
Например, в системе Google реализована только возможность поиска по фразам в кавычках, в AltaVista реализован оператор NEAR (~), обеспечивающий нахождение документов, у которых два слова находятся на расстоянии не более 10 слов. В системе Lycos функции контекстной близости получили наибольшее развитие и реализованы с помощью четырех операторов: ADJ, NEAR, FAR и BEFORE. Оператор ADJ обеспечивает близость двух слов в тексте в любом порядке, а оператор NEAR позволяет находить документы, в которых слова-операнды удалены не более, чем на 25 слов. FAR — оператор, противоположный по смыслу оператору NEAR, т.е. он исключает близость терминов запроса в пределах 25 слов текста документа, а оператор BEFORE похож на оператор ADJ, только с учетом порядка встречаемости терминов в тексте. Оригинально решен вопрос контекстной близости в системе Рамблер. Значение ограничения контекста в этой системе можно изменять конструкцией (число, запрос), где число — любое положительное число, а запрос — любой корректный запрос, состоящий более чем из одного слова. Таким образом, по запросу (2, красная роза) будут найдены только те документы, в которых между словами «красная» и «роза» хотя бы раз не стоит ни одного слова. В системе Yandex режим контекстного поиска называется «поиском с расстоянием». В общем виде ограничение по расстоянию задается в строке данных выражением вида /(п т), где п — минимальное, а т — максимальное допустимое расстояние. В системе Апорт существует два вида ограничения по расстоянию: в словах wN(...), где N — число слов, и в предложениях sN(...), где N — число предложений. В этой системе также подвергаются интеллектуальной обработке выражения в кавычках. Например, запрос «яблоки на снегу» эквивалентен запросам «яблоки и снег», «яблоки под снегом», «яблоко снег».
Большинство из названных систем способно реализовать контекстный поиск заключенной в кавычки фразы (Google, Alltheweb, AltaVista, Lycos и др.). Такая способность — это реализация неявно указанных с помощью кавычек операторов контекстной близости [9].
Регистр. Если в запросе слово набрано с прописной буквы, то все ИПС будут учитывать регистр, в котором набраны буквы (прописная/строчная). Например, запрос «лебедь» найдет и птицу, и генерала. Запрос же «Лебедь» — только генерала и те случаи упоминания птицы, когда ее название написано с прописной буквы.
Звездочка. Звездочка в конце слова символизирует (как это принято и в MS-DOS) произвольное количество любых букв. Например, по запросу «зелен*» будут найдены документы, содержащие любое из слов: «зеленка», «зелень», «зеленый», «Зеленоград» в любой грамматической форме [8].
Информация о работе Поиск информации в сети Интернет в школьном курсе информатики