Автор работы: Пользователь скрыл имя, 09 Сентября 2011 в 14:33, курсовая работа
Хранилище данных является неотъемлемым элементом большинства корпоративных систем business intelligence. Как правило, даже небольшие компании используют несколько информационных систем для автоматизации различных сфер деятельности. Кроме того, большинство компаний использует отдельные системы в филиалах и региональных офисах.
ВВЕДЕНИЕ 3
1. ХАРАКТЕРИСТИКА ХРАНИЛИЩА ДАННЫХ 5
1.1. Сетевое хранилище данных 6
1.2. Сравнение систем OLTP и хранилищ данных 7
1.3. Проблемы разработки и сопровождения хранилищ данных 9
2. АРХИТЕКТУРА ХРАНИЛИЩА ДАННЫХ 13
2.1. Оперативные данные 13
2.2. Диспетчеры хранилища данных 14
2.3. Суммарные данные за периоды времени 15
3. СРЕДСТВА ДОСТУПА К ДАННЫМ 17
3.1. Инструменты создания отчетов и запросов 17
3.2. Информационные потоки в хранилище данных 18
4. ИНСТРУМЕНТЫ ТЕХНОЛОГИИ ХРАНИЛИЩ ДАННЫХ 23
4.1. Инструменты извлечения, очистки и преобразования данных 23
4.2. СУБД для хранилища данных 23
4.3. Требования к СУБД для хранилища данных 24
4.4. Параллельные СУБД 27
ЗАКЛЮЧЕНИЕ 29
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 31
СОДЕРЖАНИЕ
Хранилище
данных является неотъемлемым элементом
большинства корпоративных
Помимо задачи интеграции и унификации данных хранилище решает вопросы:
Повышения производительности обработки запросов и позволяет на порядки сократить время подготовки отчетов и ускорить процесс получения информации
Хранения снимков данных, что позволяет в любой момент времени оценить ситуацию в прошлом и сравнить изменения
Обнаружения изменения в практически статических данных (проблема медленно меняющихся размерности), что обеспечит правильное распределение показателей по категориям
Для развития и процветания бизнеса недостаточно просто владеть информацией, все зависит от качества владения - умения четко и быстро определять категорию показателей, на основании которых требуется принимать решение, проводить анализ определенных значений данных показателей с различной степенью детализации с учетом всех параметров, оказывающих на них влияние. Хранилище данных является хорошим инструментом в решении данной задачи. Тот, у кого есть средства, позволяющие четко представить картину бизнес-данных, их взаимосвязь, историю возникновения, временную глубину, оказывается в выигрыше. Он может отследить тенденции развития, спрогнозировать возможные изменения, и, соответственно, получить конкурентные преимущества. Качественная визуализация данных, ориентированных на различные группы работников и отделы - одна из основных задач, решаемых с помощью хранилища данных.
Предметно-
В приведенном выше определении, указанные характеристики данных рассматриваются следующим образом:1
• Предметная ориентированность. Хранилище данных организовано вокруг основных предметов (или субъектов) организации (например, клиенты, товары и сбыт), а не вокруг прикладных областей деятельности (выставление счета клиенту, контроль запасов и продажа товаров). Это свойство отражает необходимость хранения данных, предназначенных для поддержки принятия решений, а не обычных оперативно-прикладных данных.
• Интегрированность. Смысл этой характеристики состоит в том, что оперативно-прикладные данные обычно поступают из разных источников, которые часто имеют несогласованное представление одних и тех же данных, например используют разный формат. Для предоставления пользователю единого обобщенного представления данных необходимо создать интегрированный источник, обеспечивающий согласованность хранимой информации.
• Привязка ко времени. Данные в хранилище точны и действительны только в том случае, если они привязаны к некоторому моменту или промежутку времени. Необходимость привязки хранилища данных ко времени следует из большой длительности того периода, за который была накоплена сохраняемая в нем информация, из явной или неявной связи временных отметок со всеми сохраняемыми данными, а также из того факта, что хранимая информация фактически представляет собой набор снимков состояния данных.
• Неизменяемость. Это означает, что данные не обновляются в оперативном режиме, а лишь регулярно пополняются за счет информации из оперативных систем обработки. При этом новые данные никогда не заменяют, а
лишь дополняют прежние. Таким образом, база данных хранилища постоянно пополняется новыми данными, последовательно интегрируемыми с уже накопленной информацией. Существует достаточно много определений хранилищ данных, причем наиболее ранние определения в основном отражают характеристики информации, содержащейся в хранилище. Более поздние версии расширяют диапазон определения хранилища данных, включая в него описание типа обработки данных, связанной с доступом к данным из исходных источников и далее вплоть до доставки данных лицам, ответственным за принятие решений. Но каким бы ни было применяемое определение, конечной целью создания хранилища данных является интеграция корпоративных данных в едином репозитарии, обращаясь к которому пользователи могут выполнять запросы, подготавливать отчеты и проводить анализ данных. Подводя итог, можно сказать, что технология хранилищ данных — это технология управления данными и их анализа. В последние годы тематика хранилищ данных обогатилась новым термином — сетевое хранилище данных.
Распределенное хранилище данных ванное в среде Web и не имеющее центрального репозитария данных. Web — необъятный источник информации о действиях пользователей, поскольку все эти действия регистрируются в процессе того, как пользователи работают с удаленными Web-узлами, обращаясь к ним со своих Web-браузеров. Данные регистрации действий пользователей называются данными о маршрутах перемещения. Применение хранилищ данных в Web для накопления и обработки информации о маршрутах перемещения привело к созданию сетевых хранилищ данных.
СУБД,
созданная для поддержки
Таблица 1
Сравнение основных характеристик типичных систем OLTP и хранилищ данных
Система
OLTP |
Хранилище данных |
Содержит текущие данные | Содержит исторические данные |
Хранит подробные сведения | Хранит подробные сведения, а также частично и полностью обобщенные данные |
Данные являются динамическими | Данные в основном являются статическими |
Повторяющийся способ обработки данных | Нерегламентированный,
неструктурированный и |
Высокая
интенсивность обработки |
Средняя и низкая
интенсивность обработки |
Предсказуемый способ использования данных | Непредсказуемый способ использования данных |
Предназначена для обработки транзакций | Предназначено для проведения анализа |
Продолжение Табл.1 | |
Ориентирована на прикладные области | Ориентировано на предметные области |
Поддержка принятия повседневных решений | Поддержка принятия стратегических решений |
Обслуживает большое количество работников | Обслуживает относительно малое количество исполнительного звена работников руководящего звена |
Организация обычно имеет несколько различных систем OLTP, предназначенных для поддержки таких деловых процессов, как управление запасами, выставление счетов клиентам и продажа товаров. Эти системы вырабатывают оперативные данные, которые являются очень подробными, текущими и подверженными изменениям. Системы OLTP оптимально подходят для интенсивной обработки транзакций, которые проектируются заранее, многократно повторяются и связаны преимущественно с обновлением данных.
В соответствии с этими особенностями, данные в системах OLTP организованы согласно требованиям конкретных деловых приложений и позволяют принимать повседневные решения большому количеству параллельно работающих пользователей-исполнителей. В противоположность сказанному выше, в организации обычно имеется только одно хранилище данных, которое содержит исторические, подробные, до определенной степени обобщенные и практически неизменные данные (т.е. новые данные могут только добавляться).
Хранилища
данных предназначены для обработки
относительно небольшого количества транзакций,
которые имеют непредсказуемый
характер и требуют ответа на произвольные,
неструктурированные и
Основная проблема при организации этой связи заключается в том, что поступающие из систем OLTP данные могут быть, несогласованными, фрагментированными, подверженными изменениям, содержащими дубликаты или пропуски. Поэтому до размещения в хранилище эти оперативные данные должны быть "очищены".2
Системы OLTP не предназначены для получения быстрого ответа на произвольные запросы. Они также не используются для хранения устаревших исторических данных, которые требуются для анализа тенденций. Системы OLTP в основном поставляют огромное количество необработанных данных, которые не так-то легко поддаются анализу. С помощью хранилищ данных можно получить ответы на запросы, более сложные, чем запросы с простейшими обобщениями.
Хранилище данных предназначено для поиска ответов на вопросы различных типов, начиная от относительно простых и заканчивая весьма сложными, а их работа зависит от того, какие инструментальные средства доступа применяют конечные пользователи.
В таблице 2 перечислены потенциальные проблемы, связанные с разработкой и сопровождением хранилищ данных.
Таблица 2
Проблемы разработки и сопровождения хранилищ данных
Проблема |
Недооценка ресурсов, необходимых для загрузки данных |
Скрытые проблемы источников данных |
Продолжение Табл.2
Отсутствие требуемых данных в имеющихся архивах |
Повышение требований конечных пользователей |
Унификация данных |
Высокие требования к ресурсам |
Владение данными |
Сложное сопровождение |
Долговременный характер проектов |
Сложности интеграции |
Недооценка ресурсов, необходимых для загрузки данных. Многие разработчики склонны недооценивать время, необходимое для извлечения, очистки и загрузки данных в хранилище. Для выполнения этого процесса может потребоваться значительная часть общего времени разработки. Но эта доля может в конечном итоге значительно сократиться при использовании более совершенных инструментов очистки и сопровождения данных.
Скрытые проблемы источников данных. Скрытые проблемы, связанные с источниками данных, поставляющими информацию в хранилище, могут быть обнаружены только спустя несколько лет после начала их эксплуатации. При этом разработчику придется принять решение об устранении возникших проблем в хранилище данных и/или в источниках данных.
Отсутствие требуемых данных в имеющихся архивах. В хранилищах данных часто возникает потребность получить некоторые сведения, которые не учитывались в оперативных системах, служащих источниками данных. В таком случае организация должна решить, стоит ей модифицировать существующие системы OLTP или же создать новую систему по сбору недостающих данных.