Поиск информации в сети Интернет в школьном курсе информатики

Автор работы: Пользователь скрыл имя, 29 Марта 2012 в 15:43, дипломная работа

Краткое описание

Цель исследования конкретизируется в следующих основных задачах:
 изучить теоретические аспекты указанной проблемы и дать общую характеристику существующего подхода к изучению основ работы глобальной сети Интернет и ее сервисов (на примере поиска информации) в рамках базового курса информатики;
 проанализировать методические аспекты преподавания раздела «Поиск информации в сети Интернет» на уроках информатики;
 провести отбор учебного материала по данному разделу и представить его в гипертекстовом формате;
 разработать поурочные методические рекомендации для преподавания раздела «Поиск информации в сети Интернет».

Содержание работы

Введение
3
Глава 1. Теоретические основы функционирования сети Интернет ……………………………………………………..

7
1.1. Развитие глобальной сети Интернет: историческая справка .………………………………………………………..
7
1.2. Представление информации в сети Интернет………….
11
1.3. Классификация средств поиска….………………………
16
Глава 2. Тема «Поиск информации в сети Интернет» в школьном курсе информатики……………………………
34
2.1. Роль и место темы «Поиск информации в сети Интернет» в авторских программах ………………………….
34
2.2. Методические рекомендации: обобщенный алгоритм обучения поиску информации ….…………………………….
44
2.3. Дидактическое обеспечение темы «Поиск информации в сети Интернет»……………………………………………….
57
Заключение…………………………………………………………….
92
Литература……………………………………………………………..
94

Содержимое работы - 1 файл

ДИПЛОМ.doc

— 6.63 Мб (Скачать файл)

      центральное ядро (28% Web-страниц) — компоненты сильной связности (SCC) или узел галстука. Сюда относятся Web-страницы, связанные так тесно, что, просто следуя по гиперссылкам, из любой из них в конечном счете можно попасть на любую другую;

      «отправные» Web-страницы (IN) (22% Web-страниц) — они содержат ги­перссылки, которые в конечном счете ведут к ядру, но из ядра к ним попасть нельзя;

      «оконечные» Web-страницы (OUT) (столько же — 22%) — к ним можно прийти по ссылкам из ядра, но нельзя вернуться назад в ядро;

      «отростки» (еще 22% Web-страниц) — полностью изолированы от цен­трального ядра: это либо «мысы», связанные гиперссылками со страница­ми любой другой категории, либо «перешейки», соединяющие две Web-страницы, не входящие в ядро.

Указанные четыре основных множества, в сумме составляющие более 90% всех исследованных Web-страниц, каждая из которых топологически относится к одной компоненте связности, и обусловили название полученной модели (рис. 1) — Bow Tie («галстук-бабочка»). Помимо этого, в Web существуют и «острова», которые вообще не пересекаются с остальными ресурсами Internet. Единственный способ обнаружить ресурсы этой группы — знать их адрес. Ника­кие поисковые машины не смогут найти эти острова, если они в прошлом ка­ким-то образом не соединялись с другими частями Internet.

Рис. 1. Модель Bow Tie

Исследователи обнаружили, что пропорции этих четырех категорий в течение нескольких месяцев оставались неизменными, несмотря на значительное увели­чение общего объема Web-ресурсов.

Были исследованы такие параметры данной модели, как среднее количество сайтов, через которые связываются любые два сайта гиперссылками, а также рас­пределение входящих и исходящих ссылок. Было показано, что распределение по­лустепеней захода и исхода вершин графа Web-пространства подчиняется степенному закону, т.е. вероятность того, что соответствующая степень вершины равна i, про­порциональна 1/ik (для входящих ссылок k ≈ 2,1, а для исходящих k ≈ 2,45).

По словам исследователей, эксперимент выявил гораздо более детальную и сложную картину: значительная область WWW вообще отделена от других крупных частей, — говорится в отчете компаний. С большой степенью вероятно­сти случайно выбранные Web-страницы окажутся никак не связаны. Если же путь все-таки существует, среднее количество щелчков, необходимых для пере­ходов между ними, составляет 16. А если этот путь двусторонний, то среднее число промежуточных щелчков сокращается до семи.

Топология и характеристики модели оказались примерно одинаковыми для различных подмножеств Web-пространства, подтверждая тем самым наблюдение о том, что «Web — это фрактал», т.е. свойства структуры Bow Tie всего Web-пространства также верны и для его отдельных подмножеств. Таким образом, алгоритмы, использующие информацию о структуре Web-пространства, предпо­ложительно будут работать и на отдельных его подмножествах.

Информация о структуре Web-пространства уже достаточно широко исполь­зуется при решении многих задач, например, для оптимизации эффективности механизмов сканирования, при анализе и прогнозе его развития, при построении новых Web-сервисов.

Полученные в результате исследований сведения заставили заново взглянуть и на стратегии Web-серфинга. Теория Bow Tie поясняет динамический характер Сети и позволяет получить представление о некоторых особенностях сложной организации WWW. Благодаря полученным результатам, уже сегодня может быть создан инструментарий, способный превратить Web-пространство в систему двустороннего движения [9].

 

 

1.2. Представление информации в сети Интернет

 

Практически любая публикация в Интернете представляет собой одну или несколько связанных между собой страниц. Роль нитей, связывающих  страницы, играют гипертекстовые ссылки (гиперссылки). Набор страниц, связанных гиперссылками, называют гипертекстовым документом [5].

Гипертекст, появившийся как форма гиперсвязи между отдельными фрагмен­тами текста, настолько же древнее понятие, как и письменность. Библия, с ее сложным употреблением аннотаций и комментариев, — один из древнейших примеров гипертекста. Словари и энциклопедии также могут рассматриваться как сети из текстовых блоков, соединенных ссылками.

В XX веке (1945) Ванневер Буш (Vannevar Bush) создал первую фотоэлектри­ческую память и вычислительное устройство Memex (memory extension), пред­ставляющее собой справочник, реализованный путем гиперссылок в пределах документа. Тед Нельсон (Ted Nelson) в 1965 году ввел термин «гипертекст» и создал гипертекстовую систему Xanadu с двухсторонними гиперсвязями.

В 1980 году Тим Бернерс-Ли (Berners-Lee), консультант CERN (Европейская организация ядерных исследований), написал программу, позволяющую созда­вать и просматривать гипертекст и реализующую двунаправленные связи между документами в коллекции. В 1990 году для поддержки документации, цир­кулирующей в CERN, Бернерс-Ли начал работу над графическим интерфейсом пользователя (GUI) для гипертекста. Эта программа была названа «WorldWideWeb». К концу 1993 года существовало несколько сотен HTTP-серверов. Год 1994 стал переломным: была основана Mosaic Communications Corporation (позже Netscape), состоялась первая конференция WorldWideWeb и MIT совме­стно с CERN основали Консорциум WorldWideWeb (W3C) [9].

В качестве гиперссылки может использоваться слово, фраза или некоторый графический элемент документа. Понятие «гипертекстовый» не ограничивает содержимое документа только текстовой информацией. Такой документ может содержать рисунки, видеоклипы, звуковой ряд и другие мультимедийные элементы [5]. В таком случае вместо термина «гипертекст» употребляется термин «гипермедиа» [15].

Каждая страница реализована в виде отдельного HTML-файла (файла с расширением .htm или .html). HTML (HyperText Markup Language – язык гипертекстовой разметки) – это язык программирования, предназначенный для описания содержимого документа [5]. HTML позволяет не только придать должную форму  тексту (разбить его на абзацы, снабдить заголовком и подзаголовками и т.д.), но и разместить на Web-странице таблицы, изображения, аудио- и видеофайлы, любую другую информацию в электронном виде. Более того, HTML позволяет установить  связь как между отдельными элементами одной Web-страницы, так и между Web-страницами, даже если они находятся на компьютерах, установленных на разных континентах [7]. Главное достоинство HTML – это возможность быстро и легко создавать гиперссылки [5].

Сейчас все большее распространение получает другой язык гипертекстовой разметки XML (eXtensible Markup Language), разработанный консорциумом W3C. Его возможности намного шире, чем языка HTML. Считается, что с XML связано будущее Internet [7]. XML представляет собой метаязык, т.е. язык, на базе которого можно опре­делять новые языки. Но он предназначен не только для организации обмена данными в Web, но и для распознавания семантики этих данных. В отличие от HTML, XML обеспечивает представление информации в чистом виде, предпола­гая ее структурную, а не оформительскую разметку. При этом потребовались стандарты не только для синтаксической формы документов, но и для их семан­тического наполнения. В результате консорциумом W3C были разработаны стандарты языков XML и RDF, которые совместно позволяют поддерживать се­мантическую совместимость в Сети.

Вместе с тем, формально элементы разметки (теги) XML оторваны от опреде­ления их смыслового наполнения. Поэтому параллельно с XML была начата раз­работка стандарта для схемы описания источников RDF — языка формального описания содержимого Web-сайтов в рамках единого стандарта.

RDF является языком общего назначения для описания информации в Web. RDF-документы представляют собой совокупность RDF-предложений, состоящих из троек элементов: ресурс — именованное свойство — значение свойства (или объект — атрибут — значение атрибута). Ресурсом может выступать понятие, которому можно приписать некоторый URI (Uniform Resource Identifiers). Зна­чение свойства или атрибута — это его контент, т.е. содержимое.

Совокупность Web-страниц, объединенных и связанных по смыслу или ссылкам и размещенных на каком-либо сервере в Internet, называют сайтом (от англ. site), или узлом [9]. Правда, второй вариант чаще используется для обозначения подключенного к Сети компьютера, имеющего собственное доменное имя.

Как правило, физически сайт размещается в одной папке на жестком диске компьютера, подключенного к Сети. Эта папка может содержать другие вложенные папки для более удобной работы с файлами сайта. Например, может быть создана отдельная папка для рисунков, включае­мых в HTML-страницы, еще одна — для звуковых файлов или для флэш-фильмов и т. д. (рис. 2). В отдельной папке также хранятся файлы с программами-сценариями, обеспечивающими интерактивность сайта.

Обычно компьютер, на котором размещен сайт, называ­ют веб-сервером, поскольку он «обслуживает» запросы, поступающие от клиентов — посетителей Интернета (точнее, от браузеров посетителей).

Рис. 2. Типовая структура небольшого сайта

В большинстве случаев начальная (главная) страница сайта разме­щается непосредственно в корневой папке сайта, и веб-сервер при по­ступлении адреса сайта от клиента пересылает браузеру в качестве  ответа на запрос именно эту страницу. Обычно такой файл называется Index.html, Default.html или Home.html (см. рис. 2).

Чтобы обратиться к конкретному ресурсу (файлу), входящему в со­став сайта, недостаточно доменного имени компьютера. Необходимо ука­зать специальный адрес, который называется Uniform Resource Locator (универсальный адрес ресурса), сокращенно URL.

Поскольку физическим носителем (точнее, хранителем) ресурса яв­ляется компьютер, то основу URL составляет доменное имя этого ком­пьютера. Однако для обращения к конкретному файлу-ресурсу требуется указывать дополнительные сведения — маршрут доступа к необходи­мому файлу. Маршрут доступа отделяется от доменного имени наклон­ной чертой (слэшем). Наряду с адресом ресурса URL обычно содержит также наименова­ние протокола, который должен использоваться при работе с запраши­ваемым ресурсом.

Наиболее распространенные протоколы (методы) доступа к ре­сурсам Интернета:

      http — сокращение от HyperText Transfer Protocol (протокол пере­сылки гипертекста); применяется для доступа к гипертекстовым документам;

      ftp — сокращение от File Transfer Protocol (протокол передачи фай­лов); применяется для обращения к файлам, хранящимся в FTP-архивах;

      news — применяется для доступа к новостям системы Usenet;

      file — применяется для доступа к локальным файлам.

Далеко не всегда имена папок и файлов, используемые в URL, совпадают с именами физических папок и фай­лов, расположенных на веб-сервере. Одна из причин — попытка вла­дельцев сайта защитить информацию от злоумышленников. Другая причина состоит в том, что современные программные средства позво­ляют создавать запрашиваемые документы динамически. То есть до тех пор, пока документ не понадобится посетителю сайта, он вообще может не существовать. Характерный пример использования такой техноло­гии — поиск и выдача информации из базы данных [5].

 

1.3. Классификация средств поиска

 

Все средства поиска, используемые в настоящее время, можно достаточно условно разделить на следующие классы:

      каталоги (Directory – Dir);

      поисковые машины (Search Engine - SE);

      средства поиска в FTP-архивах (FTP Search – ftpS);

      базы данных адресов электронной почты (e-mail addresses database – mailDB);

      средства поиска в архивах Gopher (Gopher Archives - GA);

      средства поиска новостей Usenet News (Usenet Search – US или Newsgroups Search –NS);

      интерфейсы к другим поисковым системам (Interfaces) и метапоисковые интерфейсы (Metasearch Pages – MP), которые называют также поисковыми агентами [5].

Совокупность сведений и данных, необходимых пользователю в данный момент времени, называют информационной потребностью [18].

Информационные потребности пользователя могут относиться к разным областям, которые могут быть как узкоспециализированными, так и достаточно типовыми. На практике основная часть информационных потребностей приходится именно на типовые области применения:

      поиск отдельных Web-страниц;

      поиск новостей;

      поиск людей и организаций;

      поиск литературных произведений;

      поиск программного обеспечения;

      поиск музыкальных произведений;

      поиск графических изображений;

      поиск видеоинформации;

      поиск коммерческой информации [9].

Различают четыре вида информационной потребности:

      реальная потребность – неосознанная истинная информационная потребность пользователя (например, возникающая при поиске некой новой информации исследователем, про которую он сам точно ничего не знает).

      осознанная потребность – то, как пользователь понимает стоящую перед ним неосознанную проблему.

      выраженная потребность – то, как пользователь описывает свою потребность средствами естественного языка.

      формализованная потребность – представление выраженной потребности средствами языка запросов поисковой системы.

Успешность поиска в Интернете определяется двумя факторами:

      насколько точно и корректно посетитель сформулировал запрос (комбинация ключевых слов);

      насколько адекватно поисковая система воспринимает поступивший запрос [7].

Поиск по адресу. Если пользователь знает адрес (URL) нужной веб-страницы, то достаточно ввести его в адресной строке браузера и терпеливо ждать результата. Через несколько секунд или минут в окне браузера появится именно то, что пользователь хотел увидеть. Но иногда случается так, что вместо красочной страницы на экране появляется унылое сообщение о том, что запрошенная страница не найдена. Наиболее распространенными можно считать следующие причины:

Информация о работе Поиск информации в сети Интернет в школьном курсе информатики