Информационные хранилища

Автор работы: Пользователь скрыл имя, 09 Декабря 2012 в 23:19, курсовая работа

Краткое описание

Целью теоретической части курсовой работы является раскрытие предназначения информационных хранилищ.
В ходе работы в теоретической части мы ставим перед собой такие задачи:
– Изучение общих теоретических сведений об информационных хранилищах.
– Анализ свойств и компонентов информационного хранилища.
– Ознакомление с понятием интеграции данных.

Содержание работы

Введение……………………………………………………………….…………..3
Глава 1. Общие теоретические сведения об информационных хранилищах…5
1.1. Назначение информационного хранилища………………...…………….5
1.2. Свойства информационного хранилища……………………….………...6
1.3. Компоненты информационного хранилища……………………………..8
Глава 2. Проблемы, их решение и реализация информационных хранилищ..10
2.1. Проблемы разработки и эксплуатации……………………………….....10
2.2. Подходы решения проблем……………………….……………………..14
2.3. Реализация информационных хранилищ…...…………………………..17
Глава 3. Проектирование базы данных рекламного агентства……………….19
3.1. Описание предметной области…………...……………………………..19
3.2. Проектирование базы данных методом нормальных форм…………...22
3.3. Проектирование базы данных методом «сущность–связь»…………...24
Глава 4. Реализация базы данных в среде СУБД MS Access…………………29
4.1. Создание таблиц………………………………………………………….29
4.2. Создание запросов и отчетов……………………………………………30
4.3. Создание форм, макросов и модуля…...……………………………..…32
Заключение………………………………………………………………………35
Список использованной литературы…………………………………………...36
Приложения...……………………………………………………………………38

Содержимое работы - 1 файл

Курсовая БД.doc

— 1.37 Мб (Скачать файл)

 

Глава 2. Проблемы, их решение и реализация информационных хранилищ

2.1. Проблемы разработки и эксплуатации

До сих пор мы идеализировали информационные хранилища, в результате чего о них могло возникнуть впечатление  как о панацее для принятия управленческих решений. На деле же реализация описанных нами возможностей является весьма сложной задачей. В этой связи существует несколько важных проблем, которые предстоит решить.

Несогласованность данных. Если информационное хранилище предоставляет недостоверные данные, то ясно, что такое хранилище является бесполезным, если не вредным. Дело заключается не только в качестве данных, которые информационное хранилище извлекает из своих источников. Информация из источника данных может быть достоверной на момент извлечения, но при объединении между собой данных, не согласованных по времени или типу (домену), можно нечаянно внести ошибки.

Для решения этой проблемы должны создаваться метаданные, описывающие  временные характеристики и домены исходных данных. Эти метаданные должны быть легко доступными для пользователей  информационного хранилища, а пользователей необходимо научить уделять серьезное внимание этим вопросам.

Для решения этой проблемы должны создаваться метаданные, описывающие  временные характеристики и домены исходных данных. Эти метаданные должны быть легко доступными для пользователей  информационного хранилища, а пользователей необходимо научить уделять серьезное внимание этим вопросам.

Интеграция данных является серьезной проблемой, связанной с информационными хранилищами. Модели различных продуктов и категорий продуктов, как правило, различаются. СУБД оперируют таблицами, средства OLAP — кубами, программы обработки электронных таблиц — электронными таблицами, пакеты финансового планирования — планами и т.д. В результате пользовательские интерфейсы этих продуктов оказываются непохожими. Обучение пользователей работе с нескольким продуктами, принадлежащими к различным категориям, может потребовать существенных затрат, и зачастую у самих пользователей на это нет ни времени, ни желания.

Проблема интеграции данных включает в себя следующие  проблемы реализации информационного хранилища:

  • Неоднородность программной среды
  • Распределенный характер организации
  • Повышенные требования к безопасности данных
  • Необходимость наличия многоуровневых справочников метаданных
  • Потребность в эффективном хранении и обработке очень больших объемов информации

Неоднородность программной  среды. Информационное хранилище практически никогда не создается на пустом месте. Почти всегда конечное решение будет разнородным, т.е. в нем будут использоваться автономно разработанные программные средства. Прежде всего это касается формирования интегрированного согласованного набора данных, которые могут поступать из разнородных баз данных, электронных архивов, публичных и коммерческих электронных каталогов, справочников, статистических сборников. При построении хранилища данных приходится решать задачу построения единой, согласованно функционирующей информационной системы на основе неоднородных программных средств и решений. При выборе средств реализации хранилища данных приходится учитывать множество факторов, включающих уровень совместимости различных программных компонентов, легкость их освоения и использования, эффективность функционирования и т.д.

Распределенный характер организации. В концепции хранилища данных предопределено то, что операционная аналитическая обработка может выполняться в любом узле сети независимо от места расположения основного хранилища. Хотя при аналитической обработке данные только читаются, и потребность в синхронизации отсутствует, для достижения эффективности необходимо поддерживать репликацию данных в разных узлах сети.

Повышение требований к  безопасности данных. Собранная вместе согласованная информация об истории развития корпорации, ее успехах и неудачах, о взаимоотношениях с поставщиками и заказчиками, об истории и состоянии рынка дает возможность анализа прошлой и текущей деятельности корпорации и построения прогнозов для будущего. Эта информация настолько ценна для корпорации, что нельзя допустить возможности ее утечки (на самом деле, если хранилище данных одной корпорации попадет в руки аналитиков другой корпорации, то все аналитические прогнозы первой корпорации сразу станут неверными). В системах, основанных на информационных хранилищах, оказывается недостаточной защита данных в стиле языка SQL, которую обеспечивают обычные коммерческие СУБД. Для обеспечения должного уровня защиты доступ к данным должен контролироваться не только на уровне таблиц и их столбцов, но и на уровне отдельных строк. Приходится также решать вопросы аутентификации пользователей, защиты данных при их перемещении в хранилище данных из оперативных баз данных и внешних источников, защиты данных при их передаче по сети.

Необходимость наличия  многоуровневых справочников метаданных. Если роль метаданных (обычно содержащихся в таблицах-каталогах) в оперативных информационных системах достаточно ограничена, то для OLAP-систем наличие развитых метаданных и средств их предоставления конечным пользователям является одним из основных условий успешной реализации. Например, прежде, чем менеджер корпорации задаст системе свой вопрос, он должен понять, какая информация имеется, насколько она актуальна, можно ли ей доверять, сколько времени может занять формирование ответа и т.д.

Отсутствие средств  управления данными информационного  хранилища. Хотя есть множество продуктов и средств, предназначенных для извлечения информации из источников данных, и множество ориентированных на конечного пользователя средств анализа данных и создания запросов и отчетов, на настоящий момент наблюдается отсутствие средств управления самим информационным хранилищем. Если бы информационное хранилище состояло только из выдержек из реляционных баз данных, а проблемы различия временных характеристик и доменов могли быть разрешены путем обучения и четкого определения процедур, задача управления ресурсами информационного хранилища была бы под силу коммерческим СУБД. В большинстве случаев, однако, это не так.

Большая часть информационных хранилищ содержит выдержки не только из баз данных, но также из файлов, электронных таблиц, изображений и внешних источников данных. Поэтому управлять ресурсами информационного хранилища средствами одной только коммерческой СУБД невозможно, и организации, создающие информационное хранилище, вынуждены разрабатывать собственное программное обеспечение. Обычно ядром такого программного обеспечения является СУБД, а штатный персонал информационного хранилища осуществляет реализацию дополнительных возможностей и функций, необходимых для управления ресурсами хранилища.

Другая, сходная проблема касается управления метаданными. Лишь в немногих СУБД возможности словарей данных отвечают потребностям информационного хранилища в сфере управления метаданными. Как уже говорилось, пользователям необходимо знать не только то, что содержится в информационном хранилище, но и происхождение данных, их временные характеристики, домены, предположения, сделанные при извлечении данных, и т. д. Персоналу информационного хранилища необходимо разрабатывать собственное программное обеспечение управления метаданными, дополняющее возможности СУБД и других средств управления словарями данных.

Разработка программного обеспечения управления данными  является сложным и дорогостоящим делом. Созданное программное обеспечение должно поддерживаться. Производители программ извлечения и анализа данных постоянно совершенствуют свои продукты, и для поддержки новых интерфейсов придется вносить изменения в собственное программное обеспечение. Более того, будут меняться и требования пользователей, что приведет к необходимости создания новых программ, которые нужно будет затем интегрировать в программное обеспечение управления информационным хранилищем.

 

2.2. Подходы  решения проблем

Компания IBM. Решение компании называется A Data Warehouse Plus. Целью компании является обеспечение интегрированного набора программных продуктов и сервисов, основанных на единой архитектуре. Основой информационных хранилищ является семейство СУБД DB2. Преимуществом IBM является то, что данные, которые нужно извлечь из оперативной базы данных и поместить в хранилище данных, находятся в системах IBM. Поэтому естественная тесная интеграция программных продуктов.

Предлагаются три решения  для информационных хранилищ:

  • Изолированная витрина данных. Предназначена для решения отдельных задач вне связи с общим хранилищем корпорации.
  • Зависимая витрина данных. Аналогична изолированной витрине данных, но источники данных находятся под централизованным контролем.
  • Глобальное хранилище данных. Корпоративное хранилище данных, которое полностью централизовано контролируется и управляется. Глобальное хранилище данных может храниться централизовано или состоять из нескольких распределенных в сети рынков данных.

Oracle. Решение компании в области информационных хранилищ основывается на двух факторах:

  • широкий ассортимент продуктов самой компании;
  • деятельность партнеров в рамках программы Warehouse Technology Initiative.

Возможности Oracle в области  хранилищ данных базируются на следующих  составляющих:

  • наличие реляционной СУБД Oracle 7, которая постоянно совершенствуется для лучшего удовлетворения потребностей хранилищ данных;
  • существование набора готовых приложений, обеспечивающих возможности разработки хранилища данных;
  • высокий технологический потенциал компании в области анализа данных;
  • доступность ряда продуктов, производимых другими компаниями.

Hewlett Packard. Работы, связанные с хранилищами данных, выполняются в рамках программы OpenWarehouse. Выполнение этой программы должно обеспечить возможность построения хранилищ данных на основе мощных компьютеров HP, аппаратуры других производителей и программных компонентов. Основой подхода HP являются Unix-платформы и программный продукт Intelligent Warehouse, который предназначен для управления хранилищами данных. Основа построения хранилищ данных, предлагаемая HP, оставляет свободу выбора реляционной СУБД, средств реинжиниринга и т.д.

NCR. Решение компании направлено на решение проблем корпораций, у которых одинаково сильны потребности и в системах поддержки принятия решений, и в системах оперативной аналитической обработки данных. Предлагаемая архитектура называется Enterprise Information Factory и основывается на опыте использования системы управления базами данных Teradata и связанных с ней методах параллельной обработки.

Informix Software. Стратегия компании в отношение хранилищ данных направлена на расширение рынка для ее продукта On-Line Dinamic Parallel Server. Предлагаемая архитектура хранилища данных базируется на четырех технологиях: реляционные базы данных, программном обеспечении для управления хранилищем данных, средствах доступа к данным и платформе открытых систем. Три последних компонента разрабатываются партнерами компании. После выхода Универсального Сервера, основанного на объектно-реляционном подходе, можно ожидать, что и он будет использоваться для построения хранилищ данных.

SAS Institute. Компания считает себя поставщиком полного решения для организации хранилища данных. Подход основан на следующем:

  • обеспечение доступа к данным с возможностью их извлечения из самых разнообразных хранилищ данных (и реляционных, и нереляционных);
  • преобразование данных и манипулирование ими с использованием 4GL;
  • наличие сервера многомерных баз данных;
  • большой набор методов и средств для аналитической обработки и статистического анализа.

Sybase. Стратегия компании в области хранилищ данных основывается на разработанной ей архитектуре Warehouse WORKS. В основе подхода находится реляционная СУБД Sybase System 11, средство для подключения и доступа к базам данных OmniCONNECT и средство разработки приложений PowerBuilder. Компания продолжает совершенствовать свою СУБД для лучшего удовлетворения потребностей хранилищ данных (например, введена побитная индексация).

Software AG. Деятельность компании в области хранилищ данных происходит в рамках программы Open Data Warehouse Initiative. Программа базируется на основных продуктах компании ADABAS и Natural 4GL, собственных и приобретенных средствах извлечения и анализа данных, средстве управления хранилищем данных SourcePoint. SourcePoint позволяет автоматизировать процесс извлечения и пересылки данных, а также их загрузки в хранилище данных.

 

2.3. Реализация информационных хранилищ

К вариантам реализации информационных хранилищ относятся:

  • Виртуальное хранилище данных
  • Витрины данных
  • Глобальное хранилище данных
  • Многоуровневая архитектура хранилища данных

Рассмотрим более подробно варианты реализации информационных хранилищ:

Виртуальное хранилище  данных. В его основе – хранилище метаданных, которые описывают источники информации (БД транзакционных систем, внешние файлы и др.), SQL-запросы для их считывания и процедуры обработки и предоставления информации. Непосредственный доступ к последним обеспечивает ПО промежуточного слоя. В этом случае избыточность данных нулевая. Конечные пользователи фактически работают с транзакционными системами напрямую со всеми вытекающими отсюда плюсами (доступ к "живым" данным в реальном времени) и минусами (интенсивный сетевой трафик, снижение производительности OLTP-систем и реальная угроза их работоспособности вследствие неудачных действий пользователей-аналитиков).

Информация о работе Информационные хранилища