Инструменты технологии хранилищ данных

Автор работы: Пользователь скрыл имя, 09 Сентября 2011 в 14:33, курсовая работа

Краткое описание

Хранилище данных является неотъемлемым элементом большинства корпоративных систем business intelligence. Как правило, даже небольшие компании используют несколько информационных систем для автоматизации различных сфер деятельности. Кроме того, большинство компаний использует отдельные системы в филиалах и региональных офисах.

Содержание работы

ВВЕДЕНИЕ 3
1. ХАРАКТЕРИСТИКА ХРАНИЛИЩА ДАННЫХ 5
1.1. Сетевое хранилище данных 6
1.2. Сравнение систем OLTP и хранилищ данных 7
1.3. Проблемы разработки и сопровождения хранилищ данных 9
2. АРХИТЕКТУРА ХРАНИЛИЩА ДАННЫХ 13
2.1. Оперативные данные 13
2.2. Диспетчеры хранилища данных 14
2.3. Суммарные данные за периоды времени 15
3. СРЕДСТВА ДОСТУПА К ДАННЫМ 17
3.1. Инструменты создания отчетов и запросов 17
3.2. Информационные потоки в хранилище данных 18
4. ИНСТРУМЕНТЫ ТЕХНОЛОГИИ ХРАНИЛИЩ ДАННЫХ 23
4.1. Инструменты извлечения, очистки и преобразования данных 23
4.2. СУБД для хранилища данных 23
4.3. Требования к СУБД для хранилища данных 24
4.4. Параллельные СУБД 27
ЗАКЛЮЧЕНИЕ 29
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 31

Содержимое работы - 1 файл

ХРАНИЛИЩЕ ДАННЫХ.doc

— 600.50 Кб (Скачать файл)

СОДЕРЖАНИЕ 
 
 
 
 
 
 
 
 
 
 
 
 
 

     ВВЕДЕНИЕ

 

     Хранилище данных является неотъемлемым элементом  большинства корпоративных систем business intelligence. Как правило, даже небольшие компании используют несколько информационных систем для автоматизации различных сфер деятельности. Кроме того, большинство компаний использует отдельные системы в филиалах и региональных офисах. Данные, получаемые от различных структурных элементов компании не унифицированы, часто противоречивы, и показатели, используемые для анализа и управления не могут быть из них получены напрямую. Использование хранилища данных, как специализированного источника для аналитической обработки информации необходимо, т.к. именно на стадии сбора и интеграции данных происходит объединение данных, их унификация и другие преобразования. В хранилище данных, в которое в зависимости от решаемых задач, пройдя предварительную обработку, стекаются данные из самых разнообразных источников, включая корпоративные информационные системы, локальные файлы (таблицы Excel, Access), данные, предоставляемые или каким-то образом получаемые от контрагентов, данные по рынку и др. Практически вся полезная информация в подготовленном виде находится в хранилище данных, а методы обработки и типы систем бизнес-анализа зависят от конкретных задач.

     Помимо задачи интеграции и унификации данных хранилище решает вопросы:

       Повышения производительности обработки  запросов и позволяет на порядки  сократить время подготовки отчетов и ускорить процесс получения информации

       Хранения снимков данных, что  позволяет в любой момент времени  оценить ситуацию в прошлом и  сравнить изменения 

       Обнаружения изменения в практически  статических данных (проблема медленно меняющихся размерности), что обеспечит  правильное распределение показателей  по категориям

     Для развития и процветания бизнеса недостаточно просто владеть информацией, все зависит от качества владения - умения четко и быстро определять категорию показателей, на основании которых требуется принимать решение, проводить анализ определенных значений данных показателей с различной степенью детализации с учетом всех параметров, оказывающих на них влияние. Хранилище данных является хорошим инструментом в решении данной задачи. Тот, у кого есть средства, позволяющие четко представить картину бизнес-данных, их взаимосвязь, историю возникновения, временную глубину, оказывается в выигрыше. Он может отследить тенденции развития, спрогнозировать возможные изменения, и, соответственно, получить конкурентные преимущества. Качественная визуализация данных, ориентированных на различные группы работников и отделы - одна из основных задач, решаемых с помощью хранилища данных.

 

      1. ХАРАКТЕРИСТИКА ХРАНИЛИЩА ДАННЫХ

 

     Предметно-ориентированный, интегрированный, привязанный ко времени и неизменяемый набор данных, предназначенный для поддержки принятия решений.

     В приведенном выше определении, указанные характеристики данных рассматриваются следующим образом:1

     • Предметная ориентированность. Хранилище  данных организовано вокруг основных предметов (или субъектов) организации (например, клиенты, товары и сбыт), а не вокруг прикладных областей деятельности (выставление счета клиенту, контроль запасов и продажа товаров). Это свойство отражает необходимость хранения данных, предназначенных для поддержки принятия решений, а не обычных оперативно-прикладных данных.

     • Интегрированность. Смысл этой характеристики состоит в том, что оперативно-прикладные данные обычно поступают из разных источников, которые часто имеют  несогласованное представление  одних и тех же данных, например используют разный формат. Для предоставления пользователю единого обобщенного представления данных необходимо создать интегрированный источник, обеспечивающий согласованность хранимой информации.

     • Привязка ко времени. Данные в хранилище  точны и действительны только в том случае, если они привязаны к некоторому моменту или промежутку времени. Необходимость привязки хранилища данных ко времени следует из большой длительности того периода, за который была накоплена сохраняемая в нем информация, из явной или неявной связи временных отметок со всеми сохраняемыми данными, а также из того факта, что хранимая информация фактически представляет собой набор снимков состояния данных.

     • Неизменяемость. Это означает, что  данные не обновляются в оперативном  режиме, а лишь регулярно пополняются  за счет информации из оперативных систем обработки. При этом новые данные никогда не заменяют, а

     лишь  дополняют прежние. Таким образом, база данных хранилища постоянно  пополняется новыми данными, последовательно  интегрируемыми с уже накопленной  информацией. Существует достаточно много определений хранилищ данных, причем наиболее ранние определения в основном отражают характеристики информации, содержащейся в хранилище. Более поздние версии расширяют диапазон определения хранилища данных, включая в него описание типа обработки данных, связанной с доступом к данным из исходных источников и далее вплоть до доставки данных лицам, ответственным за принятие решений. Но каким бы ни было применяемое определение, конечной целью создания хранилища данных является интеграция корпоративных данных в едином репозитарии, обращаясь к которому пользователи могут выполнять запросы, подготавливать отчеты и проводить анализ данных. Подводя итог, можно сказать, что технология хранилищ данных — это технология управления данными и их анализа. В последние годы тематика хранилищ данных обогатилась новым термином — сетевое хранилище данных.

     1.1. Сетевое хранилище данных

 

     Распределенное  хранилище данных ванное в среде Web и не имеющее центрального репозитария  данных.  Web — необъятный источник информации о действиях пользователей, поскольку все эти действия регистрируются в процессе того, как пользователи работают с удаленными Web-узлами, обращаясь к ним со своих Web-браузеров. Данные регистрации действий пользователей называются данными о маршрутах перемещения. Применение хранилищ данных в Web для накопления и обработки информации о маршрутах перемещения привело к созданию сетевых хранилищ данных.

     1.2. Сравнение систем OLTP и хранилищ данных

 

     СУБД, созданная для поддержки оперативной  обработки транзакций (OLTP), обычно рассматривается как непригодная для организации хранилищ данных, поскольку к этим двум типам систем предъявляются совершенно разные требования. Например, системы OLTP проектируются с целью обеспечения максимально интенсивной обработки фиксированных транзакций, тогда как хранилища данных — прежде всего для обработки единичных произвольных запросов (ad hoc query). В таблице 1 для сравнения приведены основные характеристики типичных систем OLTP и хранилищ данных.

     Таблица 1

     Сравнение основных характеристик типичных систем OLTP и хранилищ данных

Система OLTP                                                                   Хранилище данных
Содержит  текущие данные Содержит исторические данные
Хранит  подробные сведения Хранит подробные сведения, а также частично и полностью обобщенные данные
Данные  являются динамическими Данные в  основном являются статическими
Повторяющийся способ обработки данных                   Нерегламентированный, неструктурированный и эвристический  способ обработки данных
Высокая интенсивность обработки транзакций           Средняя и низкая интенсивность обработки транзакций
Предсказуемый способ использования данных Непредсказуемый способ использования данных
Предназначена для обработки транзакций Предназначено для проведения анализа
Продолжение Табл.1
Ориентирована на прикладные области Ориентировано на предметные области
Поддержка принятия повседневных решений Поддержка принятия стратегических решений
Обслуживает большое количество работников Обслуживает относительно малое количество исполнительного звена работников руководящего звена
 

     Организация обычно имеет несколько различных  систем OLTP, предназначенных для поддержки  таких деловых процессов, как  управление запасами, выставление счетов клиентам и продажа товаров. Эти системы вырабатывают оперативные данные, которые являются очень подробными, текущими и подверженными изменениям. Системы OLTP оптимально подходят для интенсивной обработки транзакций, которые проектируются заранее, многократно повторяются и связаны преимущественно с обновлением данных.

     В соответствии с этими особенностями, данные в системах OLTP организованы согласно требованиям конкретных деловых  приложений и позволяют принимать  повседневные решения большому количеству параллельно работающих пользователей-исполнителей. В противоположность сказанному выше, в организации обычно имеется только одно хранилище данных, которое содержит исторические, подробные, до определенной степени обобщенные и практически неизменные данные (т.е. новые данные могут только добавляться).

     Хранилища данных предназначены для обработки  относительно небольшого количества транзакций, которые имеют непредсказуемый  характер и требуют ответа на произвольные, неструктурированные и эвристические  запросы. Информация в хранилище данных организована в соответствии с требованиями возможных запросов и предназначена для поддержки принятия долговременных стратегических решений относительно небольшим количеством руководящих работников. Хотя системы OLTP и хранилища данных имеют совершенно разные характеристики и создаются для различных целей, все же они тесно связаны в том смысле, что системы OLTP являются источником информации для хранилища данных.

     Основная  проблема при организации этой связи  заключается в том, что поступающие из систем OLTP данные могут быть, несогласованными, фрагментированными, подверженными изменениям, содержащими дубликаты или пропуски. Поэтому до размещения в хранилище эти оперативные данные должны быть "очищены".2

     Системы OLTP не предназначены для получения быстрого ответа на произвольные запросы. Они также не используются для хранения устаревших исторических данных, которые требуются для анализа тенденций. Системы OLTP в основном поставляют огромное количество необработанных данных, которые не так-то легко поддаются анализу. С помощью хранилищ данных можно получить ответы на запросы, более сложные, чем запросы с простейшими обобщениями.

     Хранилище данных предназначено для поиска ответов на вопросы различных  типов, начиная от относительно простых  и заканчивая весьма сложными, а их работа зависит от того, какие инструментальные средства доступа применяют конечные пользователи.

     1.3. Проблемы разработки и сопровождения хранилищ данных

 

     В таблице 2 перечислены потенциальные  проблемы, связанные с разработкой и сопровождением хранилищ данных.

     Таблица 2

     Проблемы  разработки и сопровождения хранилищ данных

Проблема
Недооценка  ресурсов, необходимых для загрузки данных
Скрытые проблемы источников данных

     Продолжение Табл.2

Отсутствие  требуемых данных в имеющихся архивах
Повышение требований конечных пользователей
Унификация  данных
Высокие требования к ресурсам
Владение  данными
Сложное сопровождение
Долговременный  характер проектов
Сложности интеграции
 

     Недооценка  ресурсов, необходимых  для загрузки данных. Многие разработчики склонны недооценивать время, необходимое для извлечения, очистки и загрузки данных в хранилище. Для выполнения этого процесса может потребоваться значительная часть общего времени разработки. Но эта доля может в конечном итоге значительно сократиться при использовании более совершенных инструментов очистки и сопровождения данных.

     Скрытые проблемы источников данных. Скрытые проблемы, связанные с источниками данных, поставляющими информацию в хранилище, могут быть обнаружены только спустя несколько лет после начала их эксплуатации. При этом разработчику придется принять решение об устранении возникших проблем в хранилище данных и/или в источниках данных.

     Отсутствие  требуемых данных в имеющихся архивах. В хранилищах данных часто возникает потребность получить некоторые сведения, которые не учитывались в оперативных системах, служащих источниками данных. В таком случае организация должна решить, стоит ей модифицировать существующие системы OLTP или же создать новую систему по сбору недостающих данных.

Информация о работе Инструменты технологии хранилищ данных