Автор работы: Пользователь скрыл имя, 09 Сентября 2011 в 14:33, курсовая работа
Хранилище данных является неотъемлемым элементом большинства корпоративных систем business intelligence. Как правило, даже небольшие компании используют несколько информационных систем для автоматизации различных сфер деятельности. Кроме того, большинство компаний использует отдельные системы в филиалах и региональных офисах.
ВВЕДЕНИЕ 3
1. ХАРАКТЕРИСТИКА ХРАНИЛИЩА ДАННЫХ 5
1.1. Сетевое хранилище данных 6
1.2. Сравнение систем OLTP и хранилищ данных 7
1.3. Проблемы разработки и сопровождения хранилищ данных 9
2. АРХИТЕКТУРА ХРАНИЛИЩА ДАННЫХ 13
2.1. Оперативные данные 13
2.2. Диспетчеры хранилища данных 14
2.3. Суммарные данные за периоды времени 15
3. СРЕДСТВА ДОСТУПА К ДАННЫМ 17
3.1. Инструменты создания отчетов и запросов 17
3.2. Информационные потоки в хранилище данных 18
4. ИНСТРУМЕНТЫ ТЕХНОЛОГИИ ХРАНИЛИЩ ДАННЫХ 23
4.1. Инструменты извлечения, очистки и преобразования данных 23
4.2. СУБД для хранилища данных 23
4.3. Требования к СУБД для хранилища данных 24
4.4. Параллельные СУБД 27
ЗАКЛЮЧЕНИЕ 29
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 31
При работе с хранилищем данных обычно требуется обработать огромное количество данных, а технология параллельной работы с базами данных предлагает эффективное решение для обеспечения необходимого роста производительности. Успешная эксплуатация параллельных СУБД зависит от эффективного управления многими ресурсами, такими как процессор, память, жесткие диски и сетевые соединения. По мере роста популярности хранилищ данных компании-разработчики создают все более мощные СУБД, предназначенные для систем поддержки принятия решений и использующие технологию организации параллельных вычислений. Основная цель состоит в решении поставленных пользователем задач с использованием нескольких узлов, параллельно работающих над одной и той же проблемой. Важнейшими характеристиками параллельных СУБД являются масштабируемость, оперативность и готовность.
Параллельные
СУБД должны обеспечивать выполнение
параллельных запросов. Такие СУБД
должны выполнять в параллельном
режиме загрузку данных, просмотр таблиц,
а также архивирование и
• Симметричная мультипроцессорная обработка (Symmetric Multi-Processing — SMP). Группа тесно связанных процессоров, которые совместно используют оперативную и дисковую память.
•
Массовая мультипроцессорная обработка
(Massively Multi-Processing - ММР). Группа слабо
связанных процессоров, каждый из которых
использует свою собственную оперативную
и дисковую память.
Итак, "Хранилище данных” - это предметно-ориентированное, привязанное ко времени и неизменяемое собрание данных для поддержки процесса принятия управляющих решений.
Данные в хранилище попадают из оперативных систем (OLTP-систем), которые предназначены для автоматизации бизнес-процессов. Кроме того, хранилище может пополняться за счет внешних источников, например статистических отчетов, различных справочников и т.д. Хранилище данных кроме детализированной информации содержит в себе агрегаты, т.е. обобщающую информацию, например суммы продаж, количество, общие расходы и т.д.
Зачем нужно строить хранилища данных - ведь они содержат заведомо избыточную информацию, которая и так находится в базах или файлах оперативных систем? Анализировать данные оперативных систем напрямую невозможно или очень затруднительно. Это объясняется различными причинами, в том числе разрозненностью данных и хранением их в форматах различных СУБД. Но даже если на предприятии все данные хранятся на центральном сервере БД, аналитик почти наверняка не разберется в их сложных, подчас запутанных структурах.
Таким образом, задача хранилища - предоставить "сырье" для анализа в одном месте и в простой, понятной структуре.
Есть и еще одна причина, оправдывающая появление отдельного хранилища - сложные аналитические запросы к оперативной информации тормозят текущую работу компании, надолго блокируя таблицы и захватывая ресурсы сервера.
Под хранилищем можно понимать не обязательно гигантское скопление данных - главное, чтобы оно было удобно для анализа.
Автором концепции Хранилищ Данных (Data Warehouse) является Б. Инмон, который определил Хранилища Данных как: "предметно-ориентированные, интегрированные, неизменчивые, поддерживающие хронологию наборы данных, организованные для целей поддержки управления", призванные выступать в роли "единого и единственного источника истины", обеспечивающего менеджеров и аналитиков достоверной информацией, необходимой для оперативного анализа и принятия решений.
В основе концепции Хранилищ Данных лежат две основополагающие идеи.
Цель
концепции Хранилищ Данных - выяснить
требования к данным, помещаемым в
целевую БД Хранилища Данных, определить
общие принципы и этапы ее построения,
основные источники данных, дать рекомендации
по решению потенциальных проблем, возникающих
при их выгрузке, очистке, согласовании,
транспортировке и загрузке в целевую
БД.
Источник приложения
[5]
Основные
стадии построения хранилища данных.
ПРИЛОЖЕНИЕ 2
Источник приложения
[9]
Общая схема информационной системы в технологии хранилищ данных.