Инструменты технологии хранилищ данных

Автор работы: Пользователь скрыл имя, 09 Сентября 2011 в 14:33, курсовая работа

Краткое описание

Хранилище данных является неотъемлемым элементом большинства корпоративных систем business intelligence. Как правило, даже небольшие компании используют несколько информационных систем для автоматизации различных сфер деятельности. Кроме того, большинство компаний использует отдельные системы в филиалах и региональных офисах.

Содержание работы

ВВЕДЕНИЕ 3
1. ХАРАКТЕРИСТИКА ХРАНИЛИЩА ДАННЫХ 5
1.1. Сетевое хранилище данных 6
1.2. Сравнение систем OLTP и хранилищ данных 7
1.3. Проблемы разработки и сопровождения хранилищ данных 9
2. АРХИТЕКТУРА ХРАНИЛИЩА ДАННЫХ 13
2.1. Оперативные данные 13
2.2. Диспетчеры хранилища данных 14
2.3. Суммарные данные за периоды времени 15
3. СРЕДСТВА ДОСТУПА К ДАННЫМ 17
3.1. Инструменты создания отчетов и запросов 17
3.2. Информационные потоки в хранилище данных 18
4. ИНСТРУМЕНТЫ ТЕХНОЛОГИИ ХРАНИЛИЩ ДАННЫХ 23
4.1. Инструменты извлечения, очистки и преобразования данных 23
4.2. СУБД для хранилища данных 23
4.3. Требования к СУБД для хранилища данных 24
4.4. Параллельные СУБД 27
ЗАКЛЮЧЕНИЕ 29
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 31

Содержимое работы - 1 файл

ХРАНИЛИЩЕ ДАННЫХ.doc

— 600.50 Кб (Скачать файл)

     4.4. Параллельные СУБД

 

     При работе с хранилищем данных обычно требуется обработать огромное количество данных, а технология параллельной работы с базами данных предлагает эффективное решение для обеспечения необходимого роста производительности. Успешная эксплуатация параллельных СУБД зависит от эффективного управления многими ресурсами, такими как процессор, память, жесткие диски и сетевые соединения. По мере роста популярности хранилищ данных компании-разработчики создают все более мощные СУБД, предназначенные для систем поддержки принятия решений и использующие технологию организации параллельных вычислений. Основная цель состоит в решении поставленных пользователем задач с использованием нескольких узлов, параллельно работающих над одной и той же проблемой. Важнейшими характеристиками параллельных СУБД являются масштабируемость, оперативность и готовность.

     Параллельные  СУБД должны обеспечивать выполнение параллельных запросов. Такие СУБД должны выполнять в параллельном режиме загрузку данных, просмотр таблиц, а также архивирование и резервное  копирование данных. Существуют две  основные архитектуры аппаратного обеспечения для выполнения параллельных вычислений, которые могут использоваться в качестве платформы для сервера базы данных в хранилищах данных:6

     • Симметричная мультипроцессорная обработка (Symmetric Multi-Processing — SMP). Группа тесно связанных процессоров, которые совместно используют оперативную и дисковую память.

     • Массовая мультипроцессорная обработка (Massively Multi-Processing - ММР). Группа слабо  связанных процессоров, каждый из которых  использует свою собственную оперативную  и дисковую память. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

     ЗАКЛЮЧЕНИЕ

 

     Итак, "Хранилище данных” - это предметно-ориентированное, привязанное ко времени и неизменяемое собрание данных для поддержки процесса принятия управляющих решений.

     Данные  в хранилище попадают из оперативных  систем (OLTP-систем), которые предназначены для автоматизации бизнес-процессов. Кроме того, хранилище может пополняться за счет внешних источников, например статистических отчетов, различных справочников и т.д. Хранилище данных кроме детализированной информации содержит в себе агрегаты, т.е. обобщающую информацию, например суммы продаж, количество, общие расходы и т.д.

     Зачем нужно строить хранилища данных - ведь они содержат заведомо избыточную информацию, которая и так находится  в базах или файлах оперативных  систем? Анализировать данные оперативных систем напрямую невозможно или очень затруднительно. Это объясняется различными причинами, в том числе разрозненностью данных и хранением их в форматах различных СУБД. Но даже если на предприятии все данные хранятся на центральном сервере БД, аналитик почти наверняка не разберется в их сложных, подчас запутанных структурах.

     Таким образом, задача хранилища - предоставить "сырье" для анализа в одном  месте и в простой, понятной структуре.

     Есть  и еще одна причина, оправдывающая появление отдельного хранилища - сложные аналитические запросы к оперативной информации тормозят текущую работу компании, надолго блокируя таблицы и захватывая ресурсы сервера.

     Под хранилищем можно понимать не обязательно  гигантское скопление данных - главное, чтобы оно было удобно для анализа.

     Автором концепции Хранилищ Данных (Data Warehouse) является Б. Инмон, который определил  Хранилища Данных как: "предметно-ориентированные, интегрированные, неизменчивые, поддерживающие хронологию наборы данных, организованные для целей поддержки управления", призванные выступать в роли "единого и единственного источника истины", обеспечивающего менеджеров и аналитиков достоверной информацией, необходимой для оперативного анализа и принятия решений.

     В основе концепции Хранилищ Данных лежат две основополагающие идеи.

  • Интеграция ранее разъединенных детализированных данных в едином Хранилище Данных, их согласование и, возможно, агрегация:
  • исторических архивов;
  • данных из традиционных СОД;
  • данных из внешних источников.
  • Разделение наборов данных, используемых для операционной обработки, и наборов данных, применяемых для решения задач анализа.

     Цель  концепции Хранилищ Данных - выяснить требования к данным, помещаемым в  целевую БД Хранилища Данных, определить общие принципы и этапы ее построения, основные источники данных, дать рекомендации по решению потенциальных проблем, возникающих при их выгрузке, очистке, согласовании, транспортировке и загрузке в целевую БД.  
 

     БИБЛИОГРАФИЧЕСКИЙ СПИСОК

 
 
     
  1. Аладьев В.В., Хунт Ю.Я., Шишаков М.Л. «Основы информатики», Учебное пособие, М., 2000. - 59 с.
  2. Бойко В.В., Савинков В.М., «Проектирование баз данных информационных систем», М., Финансы и статистика, 2000. – 354 с.
  3. Гарсиа-Молина Гектор, Ульман Джеффри Д., Уидом Дженифер. Системы баз данных: Полный курс/Пер. с англ. — М.: Издательский дом "Вильяме", 2003. - 188 с.
  4. Дженнингс Роджер. Использование Microsoft Access 2002. Спец. изд./ Пер. с англ. — М.: Издательский дом "Вильяме", 2002. — 1010 с.
  5. Ездов А.А., «Лабораторные работы по физике с использованием компьютерной модели», Информатика и образование, 2002 . – 40 с.
  6. Кодд Дж., «Базы данных», Москва. Мир. 2000. – 120 с.
  7. Малыхина М. П. Базы данных: Учебное пособие. - Краснодар: Изд-во КубГТУ, 2005. - 173 с.
  8. Система поддержки  принятия  решений  в  человеко-машинных  системах управления. Труды Института проблем  управления  РАН  им.  В.А.Трапезникова. Том УШ. М.: ИПУРАН, 2000.-59 с.
  9. Хилайер С., Мизик Д. «Программирование» /Пер. с англ., 3-е изд., доп.- М. : Изд.-торговый дом "Рус. ред.", 2000. – 119 с.
  10. Цикритизис Д., Лоховски Ф., «Модели данных», М., Финансы и статистика, 2000. – 30 с.
  11. Шнитман В., Серверы баз данных: проблемы оценки конфигурации системы. СУБД №5-6/02, 2001. – 452 с.

      ПРИЛОЖЕНИЕ 1

 

Источник приложения [5] 

Основные стадии построения хранилища данных. 

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

ПРИЛОЖЕНИЕ 2

Источник приложения [9] 

     Общая схема информационной системы в  технологии хранилищ данных.

       
 

Информация о работе Инструменты технологии хранилищ данных