Автор работы: Пользователь скрыл имя, 21 Июня 2013 в 11:18, контрольная работа
Проблема поиска и сбора информации - одна из важнейших проблем информационно поисковых систем. Конечно, нельзя сравнивать в этом отношении, скажем, средние века, когда поиск информации был проблемой потому, что этой информации было мало, и требовались усилия только для того, чтобы найти хоть что-то по более или менее значительному интересующему вопросу. Так, сначала появилась возможность пойти в библиотеку и, потратив там время на выбор нужной книги по каталогу, найти необходимую информацию. Но каталоги не решают полностью проблем поиска информации даже в рамках одной библиотеки, так как в каталожную запись входит относительно мало информации: заголовок, автор, место издания.
Введение………………………………………………………………………………3
1. Основная часть…………………………………………………………………….5
1.1. Понятие информационных поисковых систем…………………………5
1.2. Виды информационно поисковых систем………………..……………..6
1.3. Особенности реализации хранилища документов
и механизмов поиска………………………………………………..……………….8
1.4. Информационное оповещение………………………………………….10
1.5. Информационно-поисковый язык……………….……………………..11
Заключение………………………………………………………………………….15
Список использованной литературы………………………..…………………….16
Содержание
Введение…………………………………………………………
1. Основная часть…………………………………………………………………
1.1. Понятие информационных поисковых систем…………………………5
1.2. Виды информационно поисковых систем………………..……………..6
1.3. Особенности реализации хранилища документов
и механизмов поиска………………………………………………..…………
1.4. Информационное оповещение………………………………………….10
1.5. Информационно-поисковый язык……………….……………………..11
Заключение……………………………………………………
Список использованной
литературы………………………..…………………….
Введение
Современный этап развития
цивилизации характеризуется
Проблема поиска и
сбора информации - одна из важнейших
проблем информационно
На современном этапе все информационное пространство, в котором мы живем, все больше погружается в Internet. Internet становится основной формой существования информации, не отменив традиционных, такие как журналы, радио, телевидение, телефон, всевозможные справочные службы.
Целью исследования является изучение информационно - поисковых систем.
Задачей в данной курсовой
работе рассматриваются теоретические
основы автоматизированного
При появлении сети Internet проблема поиска становилась более актуальной. Internet - всемирная компьютерная сеть, представляющая собой единую информационную среду и позволяющая получить информацию в любое время. Но с другой стороны в Интернете хранится очень много полезной информации, но для поиска её требуется затрачивать много времени. Эта проблема послужила поводом к появлению поисковых систем. В данном реферате будут рассмотрены поисковые системы в сети Internet.
1. Основная часть
1.1. Понятие информационных поисковых систем
Поиск информации - задача, которую человечество решает уже многие столетия. По мере роста объема информационных ресурсов, потенциально доступных одному человеку (например, посетителю библиотеки), были выработаны все более изощренные и совершенные поисковые средства и приемы, позволяющие найти необходимый документ.
Автоматизированная поисковая
система - система, состоящая из персонала
и комплекса средств
Опыт и практика создания систем в различных сферах деятельности позволяет дать более широкое и универсальное определение, которое полнее отражает все аспекты их сущности.
Информационно-поисковая система - это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска .
Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска - релевантность.
Релевантность - это соответствие результатов поиска сформулированному запросу.
Далее мы будем, в основном,
рассматривать ИПС для
1.2. Виды информационно поисковых систем
Информационно-поисковые системы (ИПС) Интернет, при всем их внешнем разнообразии, также попадают в один из этих классов. Поэтому, прежде чем знакомиться с этими ИПС, рассмотрим абстрактные алфавитные (словарные), систематические и предметные ИПС. Для этого дадим определение некоторым терминами из теории информационного поиска.
Классификационные информационно-поисковые системы
В классификационных ИПС используется иерархическая (древовидная) организация информации, которая называется КЛАССИФИКАТОРОМ. Разделы классификатора называются РУБРИКАМИ. Библиотечный аналог классификационной ИПС - систематический каталог. Классификатор разрабатывается и совершенствуется коллективом авторов. Затем его использует другой коллектив специалистов, называемых СИСТЕМАТИЗАТОРАМИ. Систематизаторы, зная классификатор, читают документы и приписывают им классификационные индексы, указывающие, каким разделам классификатора эти документы соответствую.
Предметная ИПС с точки зрения пользователя устроена наиболее просто. Ищи название нужного предмета своего интереса (предметом может быть и нечто невещественное, например, индийская музыка), а с названием связаны списки соответствующих ресурсов Интернет. Это было бы особенно удобно, если полный перечень предметов невелик.
Культурные проблемы, связанные с использованием классификационных ИПС, привели к созданию ИПС словарного типа, с обобщенным англоязычным названием search engines. Основная идея словарной ИПС - создать словарь из слов, встречающихся в документах Интернет, в котором при каждом слове будет храниться список документов, из которых взято данное слово.
Теория информационного поиска предполагает два основных алгоритма работы словарных ИПС: с использованием ключевых слов и с использованием дескрипторов. В первом случае, для оценки содержимого документа используются только те слова, которые в нем встречаются, и по запросу ИПС сопоставляет слова из запроса со словами документа, определяя по количеству, расположению, весу слов из запроса в документе его релевантность. Все работающие ИПС по историческим причинам используют этот алгоритм, в различных модификациях.
При работе с дескрипторами
индексируемые документы
То есть, запрос пользователя переводится в дескрипторы и обрабатывается ИПС уже в этой форме. Такой подход более затратен по вычислительным ресурсам, но и потенциально более продуктивен, так как позволяет отказаться от критерия релевантности и работать непосредственно с пертинентностью документов.
Словарные ИПС способны выдавать списки документов, содержащие миллионы ссылок. Даже просто просмотреть такие списки невозможно, да и не нужно. Было бы удобно иметь возможность задать формальные критерии (хотя бы относительной) важности (с точки зрения пертинентности) документов с тем, чтобы наиболее важные документы попадали бы в начало списка. Все ИПС в настоящее время уделяют основное внимание именно алгоритму ранжирования полученных ссылок.
Наиболее часто используемыми критериями при ранжировании в ИПС являются наличие слов из запроса в документе, их количество, близость к началу документа, близость к друг другу;
Наличие слов из запроса в заголовках и подзаголовках документов (заголовки должны быть специально отформатированы);
Количество ссылок на данный документ с других документов; «рекспектабельность» ссылающихся документов.
В зависимости от особенностей реализации хранилища документов и механизмов поиска документальные ИПС делятся:
Рис.1. Виды ИПС
В семантически-навигационных системах документы, помещаемые в хранилище (базу) документов оснащаются специальными навигационными конструкциями, соответствующими смысловым связям (отсылкам) между различными документами или отдельными фрагментами одного документа. Такие конструкции реализуют некоторую семантическую (смысловую) сеть в базе документов. Поиск осуществляется путем явной навигации по смысловым отсылкам между документами. В настоящее время такой подход реализуется в гипертекстовых ИПС.
В системах на основе индексирования исходные документы помещаются в базу без дополнительного преобразования (за исключением возможного сжатия), но смысловое содержание каждого документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство или индексирование заключается в присвоении каждому документу некоторого индекса-координаты в поисковом пространстве.
Индексирование – описание содержания документа посредством формализованного информационного языка.
Поисковым образом документа (ПОД) называется формализованное описание индекса документа.
Поисковым образом запроса (ПОЗ) к базе документов называется выражение пользователем своих информационных потребностей средствами и языком поискового пространства.
Система на основе определенных критериев и способов ищет документы, ПОД которых соответствуют или близки ПОЗ, и выдает соответствующие документы.
Рис.2. Поиск документов по запросам
Релевантностью называется соответствие найденных документов запросу пользователя
Особенностью документальных ИПС является то, что в их функции, как правило, включаются и задачи информационного оповещения пользователей по всем новым поступающим в систему документам, соответствующим заранее определенным информационным потребностям пользователя. Принцип решения этой задачи в документальных ИПС на основе индексирования аналогичен поиску документов по запросам.
Рис.3. Информационное оповещение
Поисковым профилем пользователя (ППП) называется отображение в поисковое пространство информационных потребностей пользователя.
ИПС по мере поступления и индексирования новых документов сравнивает их ПОД с имеющимися ППП и принимает решение о соответствующем оповещении.
Поисковое пространство, отображающее ПОД и реализующее механизмы информационного поиска документов строятся на основе языков баз данных, называемых информационно-поисковыми языками (ИПЯ).
Информационно-поисковый язык – формализованная семантическая система, предназначенная для выражения содержания документа и запросов по поиску необходимых документов.
Рис.4. Информационно-поисковый язык