Информационно-аналитическая система Internet Analyst

Автор работы: Пользователь скрыл имя, 26 Сентября 2011 в 01:52, контрольная работа

Краткое описание

Управление любым бизнесом основано на постоянном сборе и анализе информации, необходимой для принятия своевременных решений. Качество управления напрямую зависит как от полноты исходной информация, так и от глубины ее анализа.

Содержание работы

1. ВВЕДЕНИЕ 3
2. ФУНКЦИОНАЛЬНАЯ СТРУКТУРА СИСТЕМЫ 4
2.1. ПОЛУЧЕНИЕ И ПЕРВИЧНАЯ ОБРАБОТКА ИНФОРМАЦИИ 5
2.1.1. Получение информации из источников и ее очистка 5
2.1.2. Рубрикация информации 7
2.1.3. Создание рубрикаторов экспертами. Авто-рубрикация 9
2.1.4. Расширение рубрикатора пользователями. Персональные профили 10
2.1.5. Рубрикатор как средство мониторинга. Рассылка документов 11
2.2. ВЫБОРКА ИНФОРМАЦИИ. РАБОТА С КОНТЕКСТОМ 12
2.2.1. Поиск документов в Internet Analyst 13
2.2.2. Поиск известного (сужение контекста) 14
2.2.3. Поиск неизвестного (расширение контекста) 16
2.2.4. Поиск связей (пересечение контекстов) 18
2.2.5. Использование временных рядов 19
2.3. АНАЛИЗ РЕЗУЛЬТАТОВ И ПОДГОТОВКА ОТЧЕТНОСТИ 21
2.3.1. Выявление фактов 21
2.3.2. Подсветка ключевых и контекстных терминов 22
2.3.3. Аннотирование документов 22
2.3.4. Выявление дубликатов 23
2.3.5. Поиск похожих документов 25
2.3.6. Работа с Корзиной и подготовка итогового Отчета 26

Содержимое работы - 1 файл

Контрольная работа.doc

— 1.11 Мб (Скачать файл)

     Автоматическое  создание рубрикаторов незаменимо при  обработке больших архивов документов или баз данных, содержащих документы неизвестного заранее содержания. Модуль кластеризации в этом случае создает иерархическую структуру тематик и помогает разобраться с истинным содержанием информационных массивов. 

     Рис. 6. Авторубрикация (кластеризация) информации 

     2.1.4. Расширение рубрикатора  пользователями. Персональные профили

     На  стадии внедрения эксперты создают  «постоянную часть» рубрикатора, общую  для всех пользователей. Однако, каждый пользователь Системы может самостоятельно создавать для себя дополнительные категории рубрикатора. Такие персональные категории называются профилями и по сути ничем не отличаются от рубрик, кроме того, что их создает, редактирует и использует каждый пользователь по своему усмотрению и для решения своих задач (рис. 7). Остальные пользователи не имеют к ним доступа.

     При создании профиля задаются текстовый фильтр из ключевых словосочетаний, тематический контекст и пороговая релевантность (степень соответствия документов данному контексту). С помощью этих инструментов можно очень точно настроить свои персональные профили - рубрики своей персональной газеты.

     Профиль представляет собой «замороженный» запрос, и процедура его создания будет более подробно описана в следующем разделе. Кроме этого можно указать почтовый ящик на который автоматически будут отсылаться документы поступающие в данную рубрику-профиль. Система автоматически наполняет профиль документами в момент его создания, после чего пользователь сразу может осуществлять выборки с учетом данного профиля. 

     Рис. 7. Создание персонального профиля 

     2.1.5. Рубрикатор как  средство мониторинга. Рассылка документов

     Поскольку рубрикация документов происходит в  момент их поступления в Систему, рубрикатор является идеальным средством для мониторинга внешней информации. Каждая рубрика (или персональный профиль) является одновременно тематической новостной лентой, показывающей развитие событий по данному вопросу. Internet Analyst предоставляет очень удобную возможность подписаться на любой набор профилей и получать соответствующие документы в реальном времени по электронной почте, без необходимости обращаться к Системе с соответствующими запросами. Система генерирует название профилей в обратном адресе сообщения, позволяя сортировать полученные документы по тематическим папкам средствами почтового клиента.

     Для любого руководителя естественно желание не пропустить какие-то «горячие» события, информационные всплески по любым вопросам, касающимся его бизнеса. Система Internet Analyst обеспечивает автоматический режим отслеживания информационных всплесков по всему набору «объектов учета» (рубрик и профилей) (рис. 8).

     Те  категории, в которых в настоящий  момент выявлено резкое изменение потока документов, подсвечиваются красным цветом. Порог чувствительности мониторинга, косвенно определяющий количество «горячих тем», определяется в настройках (при желании эту опцию можно отключить).

     Рис. 8. Увеличение количества сообщений  в рубриках 

     Таким образом, одного взгляда на рубрикатор достаточно, чтобы понять где на информационном поле в данный момент происходят основные события.

     Система предоставляет также возможность ретроспективного поиска информационных всплесков в развитии каждой темы в прошлом. Эта возможность будет описана ниже в разделе о работе с временными рядами. 

     2.2. Выборка информации. Работа с контекстом

     Выборка информации по определенному критерию фокусирует внимание аналитика на интересующем его вопросе, предлагая ограниченный набор документов для их изучения и анализа.

     Получить  набор необходимых документов можно  различными способами. Например, просто «раскрыв» одну из папок рубрикатора, Вы получите подборку документов по данной тематике, отсортированную по времени.

     С помощью Панели запросов, можно формировать  новые, весьма прецизионные выборки документов, комбинируя ключевые понятия с поясняющими их смысл контекстными терминами и словосочетаниями (под контекстом мы понимаем текущий «смысл» в котором упоминается то или иное слово. Например, фраза «управление финансами» может употребляться как в контексте «управление финансами государства», так и в контексте «управление корпоративными финансами». Чем точнее определен контекст, тем лучше результаты поиска. Именно отсутствием контекста объясняются трудности пользования обычными поисковыми серверами). Любой такой запрос можно сохранить в качестве постоянно действующего профиля для мониторинга соответствующей темы. Кроме того, можно анализировать развитие этой темы во времени с помощью технологии временных рядов.

     Отличительной чертой системы Internet Analyst является диалоговый режим формирования контекста, при котором Система помогает сформулировать прецизионные информационные фильтры, содержащие до нескольких сотен контекстных терминов и словосочетаний буквально за несколько минут и с минимальными затратами усилий со стороны пользователя. 

     2.2.1. Поиск документов в Internet Analyst

     Поиск документов в системе Internet Analyst реализуется  Модулем поиска по Запросу пользователя. Запрос содержит как ключевые (обязательные), так и контекстные (поясняющие контекст запроса) слова и словосочетания.

     Ключевые слова и словосочетания работают как фильтр, пропуская через себя лишь документы, содержащие их определенные комбинации. Как у большинства поисковых машин, в поле ключевых терминов можно употреблять логические операторы (И, ИЛИ, НЕ и некоторые другие).

     Контекстные слова и словосочетания ранжируют прошедшие через логический фильтр документы в соответствии с количеством и расположением этих терминов в документах. Чем больше контекст, тем точнее определены информационные потребности пользователя, и тем легче находятся нужные ему документы.

     Отсутствие  возможности определить контекст запроса  в традиционных поисковых серверах является главной причиной низкого качества поиска - большого количества документов «не в тему». Действительно, по двум-трем ключевым словам в принципе невозможно понять в каком из своих многочисленных смыслов (о многих из которых пользователь и не подозревал) употребляются эти слова в найденных документах. Контекстные слова и словосочетания помогают Системе понять, что именно интересует пользователя в данный момент (рис. 9).

     Важно, что Система постоянно подсказывает варианты уточнения контекста Запроса, превращая процесс поиска в человеко-машинный диалог. Машина становится своего рода «усилителем интеллекта» эксперта, мгновенно просматривая за него сотни документов в поисках наиболее характерных контекстных терминов и тем самым помогая пользователю наиболее точно сформулировать свои информационные потребности. 

     Рис. 9. Выборка информации в диалоговом режиме 

     Работа  в режиме человеко-машинного диалога открывает перед экспертами совершенно новые возможности. В качестве примеров, ниже мы рассмотрим несколько способов выборки документов в системе Internet Analyst:

    • поиск известного (сужение контекста);
    • поиск неизвестного (расширение контекста);
    • поиск связей (пересечение контекстов).
 

     2.2.2. Поиск известного (сужение  контекста)

     Этот  вид поиска используется в тех  случаях, когда эксперт понимает какая информация ему в данный момент необходима. Пользователь задает нужную ему комбинацию обязательных ключевых терминов, а затем уточняет контекст запроса в специальном контекстном окне. При этом выборка сужается, и наверх «поднимаются» документы, соответствующие указанному контексту. 

     Рис. 10 Поиск известного 

     Например: количество документов по запросу «Финансы» составляет 10000, по запросу «Финансы» в контексте «Ипотечное кредитование» - 1500, по запросу «Финансы» в контексте «Пенсионная реформа» - 1000, по запросу «Финансы» в контексте «Банковская реформа» - 3000 (рис. 10).

     При этом варианты контекстных терминов и словосочетаний, поясняющие смысл ключевых терминов подсказываются Системой. Пользователь может добавить в контекст любое понятие или их комбинацию для конкретизации своего запроса.

     Например, при запросе «Ипотечное кредитование», сформирована выборка в 920 документов, при этом система предлагает добавить в контекст различные слова и словосочетания, например: «АИЖК» (федеральное Агентство по ипотечному жилищному кредитованию), «закладных», «рефинансированию», «жилищного кредитования», «МИЭЛЬ». При добавлении в контекст одного из предложенных слов, происходит сужение контекста («Ипотечное кредитование» в контексте «АИЖК») и уменьшение выборки до 105 документов. При этом происходит обновление контекстных подсказок с учетом содержания документов из новой выборки (рис. 11). 

     Рис. 11. Сужение контекста 

     2.2.3. Поиск неизвестного (расширение  контекста)

     Менее очевидна, но гораздо более интересна  возможность поиска неизвестного, когда эксперт НЕ ЗНАЕТ точно что он ищет. Такая ситуация возникает в тех случаях, когда эксперт сталкивается в своей работе с новой предметной областью (например с новой технологией или с новым рынком) и, зная лишь узкий аспект предметной области, пытается охватить ее целиком.

     Пример 1: Эксперт столкнулся в своей  работе с компанией АИЖК и хочет понять суть работы компании. Для этого ему надо осознать, что она работает на рынке «ипотечного кредитования» (хотя до этого, эксперт мог даже не знать о таком понятии), занимаясь, по сути, созданием этого рынка в России.

     Пример 2: Маркетолог работает над расширением рынка своей компании, однако в рамках его текущего видения рынка он не видит новых возможностей. Для того, чтобы увидеть их, ему необходимо «подняться» над ситуацией - посмотреть на нее шире, чем он смотрит в настоящий момент. Другими словами - расширить контекст его текущего видения.

     Пример 3: Конструктор создает новый продукт. В своей работе он часто сталкивается с задачами, которые не имеют решения в рамках его текущего опыта и знаний. Для того чтобы решить их, ему надо расширить свое видение предметной области. Т.е. расширить контекст предмета с которым он работает (рис. 12). 

     Рис. 12. Поиск неизвестного 

     Система Internet Analyst позволяет решать задачи поиска неизвестных эксперту сущностей и понятий, расширения его кругозора. В такой ситуации пользователь просто оставляет поле ключевых слов свободным, и работает лишь с контекстными терминами и словосочетаниями.

     При расширении контекста в отсутствии ключевых слов, объем начальной выборки увеличивается за счет привлечения дополнительных терминов и понятий, связанных с начальными. Однако, по мере роста числа контекстных терминов, первые места в Панели результатов занимают документы наиболее отвечающие заданной тематике. Таким образом, расширение выборки не мешает пользователю получить, скажем “Top 10” лучших документов по любой тематике, даже если ее контекст содержит сотни понятий, и вся выборка целиком становится необозримой. Причем, чем больше контекст, тем более надежна выборка “Top 10”. Интерактивное формирование богатого контекста позволяет легко и безошибочно находить документы по любой тематике.

     Пример  расширения контекста средствами системы Internet Analyst приведен на рисунке (рис. 13). 

     Рис. 13. Расширение контекста 

     2.2.4. Поиск связей (пересечение  контекстов)

     Работа  с контекстом позволяет экспертам находить не только документы, но и понятия, связывающие различные информационные объекты.

Информация о работе Информационно-аналитическая система Internet Analyst