Автор работы: Пользователь скрыл имя, 29 Марта 2012 в 15:43, дипломная работа
Цель исследования конкретизируется в следующих основных задачах:
изучить теоретические аспекты указанной проблемы и дать общую характеристику существующего подхода к изучению основ работы глобальной сети Интернет и ее сервисов (на примере поиска информации) в рамках базового курса информатики;
проанализировать методические аспекты преподавания раздела «Поиск информации в сети Интернет» на уроках информатики;
провести отбор учебного материала по данному разделу и представить его в гипертекстовом формате;
разработать поурочные методические рекомендации для преподавания раздела «Поиск информации в сети Интернет».
Введение
3
Глава 1. Теоретические основы функционирования сети Интернет ……………………………………………………..
7
1.1. Развитие глобальной сети Интернет: историческая справка .………………………………………………………..
7
1.2. Представление информации в сети Интернет………….
11
1.3. Классификация средств поиска….………………………
16
Глава 2. Тема «Поиск информации в сети Интернет» в школьном курсе информатики……………………………
34
2.1. Роль и место темы «Поиск информации в сети Интернет» в авторских программах ………………………….
34
2.2. Методические рекомендации: обобщенный алгоритм обучения поиску информации ….…………………………….
44
2.3. Дидактическое обеспечение темы «Поиск информации в сети Интернет»……………………………………………….
57
Заключение…………………………………………………………….
92
Литература……………………………………………………………..
94
центральное ядро (28% Web-страниц) — компоненты сильной связности (SCC) или узел галстука. Сюда относятся Web-страницы, связанные так тесно, что, просто следуя по гиперссылкам, из любой из них в конечном счете можно попасть на любую другую;
«отправные» Web-страницы (IN) (22% Web-страниц) — они содержат гиперссылки, которые в конечном счете ведут к ядру, но из ядра к ним попасть нельзя;
«оконечные» Web-страницы (OUT) (столько же — 22%) — к ним можно прийти по ссылкам из ядра, но нельзя вернуться назад в ядро;
«отростки» (еще 22% Web-страниц) — полностью изолированы от центрального ядра: это либо «мысы», связанные гиперссылками со страницами любой другой категории, либо «перешейки», соединяющие две Web-страницы, не входящие в ядро.
Указанные четыре основных множества, в сумме составляющие более 90% всех исследованных Web-страниц, каждая из которых топологически относится к одной компоненте связности, и обусловили название полученной модели (рис. 1) — Bow Tie («галстук-бабочка»). Помимо этого, в Web существуют и «острова», которые вообще не пересекаются с остальными ресурсами Internet. Единственный способ обнаружить ресурсы этой группы — знать их адрес. Никакие поисковые машины не смогут найти эти острова, если они в прошлом каким-то образом не соединялись с другими частями Internet.
Рис. 1. Модель Bow Tie
Исследователи обнаружили, что пропорции этих четырех категорий в течение нескольких месяцев оставались неизменными, несмотря на значительное увеличение общего объема Web-ресурсов.
Были исследованы такие параметры данной модели, как среднее количество сайтов, через которые связываются любые два сайта гиперссылками, а также распределение входящих и исходящих ссылок. Было показано, что распределение полустепеней захода и исхода вершин графа Web-пространства подчиняется степенному закону, т.е. вероятность того, что соответствующая степень вершины равна i, пропорциональна 1/ik (для входящих ссылок k ≈ 2,1, а для исходящих k ≈ 2,45).
По словам исследователей, эксперимент выявил гораздо более детальную и сложную картину: значительная область WWW вообще отделена от других крупных частей, — говорится в отчете компаний. С большой степенью вероятности случайно выбранные Web-страницы окажутся никак не связаны. Если же путь все-таки существует, среднее количество щелчков, необходимых для переходов между ними, составляет 16. А если этот путь двусторонний, то среднее число промежуточных щелчков сокращается до семи.
Топология и характеристики модели оказались примерно одинаковыми для различных подмножеств Web-пространства, подтверждая тем самым наблюдение о том, что «Web — это фрактал», т.е. свойства структуры Bow Tie всего Web-пространства также верны и для его отдельных подмножеств. Таким образом, алгоритмы, использующие информацию о структуре Web-пространства, предположительно будут работать и на отдельных его подмножествах.
Информация о структуре Web-пространства уже достаточно широко используется при решении многих задач, например, для оптимизации эффективности механизмов сканирования, при анализе и прогнозе его развития, при построении новых Web-сервисов.
Полученные в результате исследований сведения заставили заново взглянуть и на стратегии Web-серфинга. Теория Bow Tie поясняет динамический характер Сети и позволяет получить представление о некоторых особенностях сложной организации WWW. Благодаря полученным результатам, уже сегодня может быть создан инструментарий, способный превратить Web-пространство в систему двустороннего движения [9].
1.2. Представление информации в сети Интернет
Практически любая публикация в Интернете представляет собой одну или несколько связанных между собой страниц. Роль нитей, связывающих страницы, играют гипертекстовые ссылки (гиперссылки). Набор страниц, связанных гиперссылками, называют гипертекстовым документом [5].
Гипертекст, появившийся как форма гиперсвязи между отдельными фрагментами текста, настолько же древнее понятие, как и письменность. Библия, с ее сложным употреблением аннотаций и комментариев, — один из древнейших примеров гипертекста. Словари и энциклопедии также могут рассматриваться как сети из текстовых блоков, соединенных ссылками.
В XX веке (1945) Ванневер Буш (Vannevar Bush) создал первую фотоэлектрическую память и вычислительное устройство Memex (memory extension), представляющее собой справочник, реализованный путем гиперссылок в пределах документа. Тед Нельсон (Ted Nelson) в 1965 году ввел термин «гипертекст» и создал гипертекстовую систему Xanadu с двухсторонними гиперсвязями.
В 1980 году Тим Бернерс-Ли (Berners-Lee), консультант CERN (Европейская организация ядерных исследований), написал программу, позволяющую создавать и просматривать гипертекст и реализующую двунаправленные связи между документами в коллекции. В 1990 году для поддержки документации, циркулирующей в CERN, Бернерс-Ли начал работу над графическим интерфейсом пользователя (GUI) для гипертекста. Эта программа была названа «WorldWideWeb». К концу 1993 года существовало несколько сотен HTTP-серверов. Год 1994 стал переломным: была основана Mosaic Communications Corporation (позже Netscape), состоялась первая конференция WorldWideWeb и MIT совместно с CERN основали Консорциум WorldWideWeb (W3C) [9].
В качестве гиперссылки может использоваться слово, фраза или некоторый графический элемент документа. Понятие «гипертекстовый» не ограничивает содержимое документа только текстовой информацией. Такой документ может содержать рисунки, видеоклипы, звуковой ряд и другие мультимедийные элементы [5]. В таком случае вместо термина «гипертекст» употребляется термин «гипермедиа» [15].
Каждая страница реализована в виде отдельного HTML-файла (файла с расширением .htm или .html). HTML (HyperText Markup Language – язык гипертекстовой разметки) – это язык программирования, предназначенный для описания содержимого документа [5]. HTML позволяет не только придать должную форму тексту (разбить его на абзацы, снабдить заголовком и подзаголовками и т.д.), но и разместить на Web-странице таблицы, изображения, аудио- и видеофайлы, любую другую информацию в электронном виде. Более того, HTML позволяет установить связь как между отдельными элементами одной Web-страницы, так и между Web-страницами, даже если они находятся на компьютерах, установленных на разных континентах [7]. Главное достоинство HTML – это возможность быстро и легко создавать гиперссылки [5].
Сейчас все большее распространение получает другой язык гипертекстовой разметки XML (eXtensible Markup Language), разработанный консорциумом W3C. Его возможности намного шире, чем языка HTML. Считается, что с XML связано будущее Internet [7]. XML представляет собой метаязык, т.е. язык, на базе которого можно определять новые языки. Но он предназначен не только для организации обмена данными в Web, но и для распознавания семантики этих данных. В отличие от HTML, XML обеспечивает представление информации в чистом виде, предполагая ее структурную, а не оформительскую разметку. При этом потребовались стандарты не только для синтаксической формы документов, но и для их семантического наполнения. В результате консорциумом W3C были разработаны стандарты языков XML и RDF, которые совместно позволяют поддерживать семантическую совместимость в Сети.
Вместе с тем, формально элементы разметки (теги) XML оторваны от определения их смыслового наполнения. Поэтому параллельно с XML была начата разработка стандарта для схемы описания источников RDF — языка формального описания содержимого Web-сайтов в рамках единого стандарта.
RDF является языком общего назначения для описания информации в Web. RDF-документы представляют собой совокупность RDF-предложений, состоящих из троек элементов: ресурс — именованное свойство — значение свойства (или объект — атрибут — значение атрибута). Ресурсом может выступать понятие, которому можно приписать некоторый URI (Uniform Resource Identifiers). Значение свойства или атрибута — это его контент, т.е. содержимое.
Совокупность Web-страниц, объединенных и связанных по смыслу или ссылкам и размещенных на каком-либо сервере в Internet, называют сайтом (от англ. site), или узлом [9]. Правда, второй вариант чаще используется для обозначения подключенного к Сети компьютера, имеющего собственное доменное имя.
Как правило, физически сайт размещается в одной папке на жестком диске компьютера, подключенного к Сети. Эта папка может содержать другие вложенные папки для более удобной работы с файлами сайта. Например, может быть создана отдельная папка для рисунков, включаемых в HTML-страницы, еще одна — для звуковых файлов или для флэш-фильмов и т. д. (рис. 2). В отдельной папке также хранятся файлы с программами-сценариями, обеспечивающими интерактивность сайта.
Обычно компьютер, на котором размещен сайт, называют веб-сервером, поскольку он «обслуживает» запросы, поступающие от клиентов — посетителей Интернета (точнее, от браузеров посетителей).
Рис. 2. Типовая структура небольшого сайта
В большинстве случаев начальная (главная) страница сайта размещается непосредственно в корневой папке сайта, и веб-сервер при поступлении адреса сайта от клиента пересылает браузеру в качестве ответа на запрос именно эту страницу. Обычно такой файл называется Index.html, Default.html или Home.html (см. рис. 2).
Чтобы обратиться к конкретному ресурсу (файлу), входящему в состав сайта, недостаточно доменного имени компьютера. Необходимо указать специальный адрес, который называется Uniform Resource Locator (универсальный адрес ресурса), сокращенно URL.
Поскольку физическим носителем (точнее, хранителем) ресурса является компьютер, то основу URL составляет доменное имя этого компьютера. Однако для обращения к конкретному файлу-ресурсу требуется указывать дополнительные сведения — маршрут доступа к необходимому файлу. Маршрут доступа отделяется от доменного имени наклонной чертой (слэшем). Наряду с адресом ресурса URL обычно содержит также наименование протокола, который должен использоваться при работе с запрашиваемым ресурсом.
Наиболее распространенные протоколы (методы) доступа к ресурсам Интернета:
http — сокращение от HyperText Transfer Protocol (протокол пересылки гипертекста); применяется для доступа к гипертекстовым документам;
ftp — сокращение от File Transfer Protocol (протокол передачи файлов); применяется для обращения к файлам, хранящимся в FTP-архивах;
news — применяется для доступа к новостям системы Usenet;
file — применяется для доступа к локальным файлам.
Далеко не всегда имена папок и файлов, используемые в URL, совпадают с именами физических папок и файлов, расположенных на веб-сервере. Одна из причин — попытка владельцев сайта защитить информацию от злоумышленников. Другая причина состоит в том, что современные программные средства позволяют создавать запрашиваемые документы динамически. То есть до тех пор, пока документ не понадобится посетителю сайта, он вообще может не существовать. Характерный пример использования такой технологии — поиск и выдача информации из базы данных [5].
1.3. Классификация средств поиска
Все средства поиска, используемые в настоящее время, можно достаточно условно разделить на следующие классы:
каталоги (Directory – Dir);
поисковые машины (Search Engine - SE);
средства поиска в FTP-архивах (FTP Search – ftpS);
базы данных адресов электронной почты (e-mail addresses database – mailDB);
средства поиска в архивах Gopher (Gopher Archives - GA);
средства поиска новостей Usenet News (Usenet Search – US или Newsgroups Search –NS);
интерфейсы к другим поисковым системам (Interfaces) и метапоисковые интерфейсы (Metasearch Pages – MP), которые называют также поисковыми агентами [5].
Совокупность сведений и данных, необходимых пользователю в данный момент времени, называют информационной потребностью [18].
Информационные потребности пользователя могут относиться к разным областям, которые могут быть как узкоспециализированными, так и достаточно типовыми. На практике основная часть информационных потребностей приходится именно на типовые области применения:
поиск отдельных Web-страниц;
поиск новостей;
поиск людей и организаций;
поиск литературных произведений;
поиск программного обеспечения;
поиск музыкальных произведений;
поиск графических изображений;
поиск видеоинформации;
поиск коммерческой информации [9].
Различают четыре вида информационной потребности:
реальная потребность – неосознанная истинная информационная потребность пользователя (например, возникающая при поиске некой новой информации исследователем, про которую он сам точно ничего не знает).
осознанная потребность – то, как пользователь понимает стоящую перед ним неосознанную проблему.
выраженная потребность – то, как пользователь описывает свою потребность средствами естественного языка.
формализованная потребность – представление выраженной потребности средствами языка запросов поисковой системы.
Успешность поиска в Интернете определяется двумя факторами:
насколько точно и корректно посетитель сформулировал запрос (комбинация ключевых слов);
насколько адекватно поисковая система воспринимает поступивший запрос [7].
Поиск по адресу. Если пользователь знает адрес (URL) нужной веб-страницы, то достаточно ввести его в адресной строке браузера и терпеливо ждать результата. Через несколько секунд или минут в окне браузера появится именно то, что пользователь хотел увидеть. Но иногда случается так, что вместо красочной страницы на экране появляется унылое сообщение о том, что запрошенная страница не найдена. Наиболее распространенными можно считать следующие причины:
Информация о работе Поиск информации в сети Интернет в школьном курсе информатики