Автор работы: Пользователь скрыл имя, 09 Сентября 2011 в 14:33, курсовая работа
Хранилище данных является неотъемлемым элементом большинства корпоративных систем business intelligence. Как правило, даже небольшие компании используют несколько информационных систем для автоматизации различных сфер деятельности. Кроме того, большинство компаний использует отдельные системы в филиалах и региональных офисах.
ВВЕДЕНИЕ 3
1. ХАРАКТЕРИСТИКА ХРАНИЛИЩА ДАННЫХ 5
1.1. Сетевое хранилище данных 6
1.2. Сравнение систем OLTP и хранилищ данных 7
1.3. Проблемы разработки и сопровождения хранилищ данных 9
2. АРХИТЕКТУРА ХРАНИЛИЩА ДАННЫХ 13
2.1. Оперативные данные 13
2.2. Диспетчеры хранилища данных 14
2.3. Суммарные данные за периоды времени 15
3. СРЕДСТВА ДОСТУПА К ДАННЫМ 17
3.1. Инструменты создания отчетов и запросов 17
3.2. Информационные потоки в хранилище данных 18
4. ИНСТРУМЕНТЫ ТЕХНОЛОГИИ ХРАНИЛИЩ ДАННЫХ 23
4.1. Инструменты извлечения, очистки и преобразования данных 23
4.2. СУБД для хранилища данных 23
4.3. Требования к СУБД для хранилища данных 24
4.4. Параллельные СУБД 27
ЗАКЛЮЧЕНИЕ 29
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 31
• проверка внутренней непротиворечивости данных и их непротиворечивости по отношению к данным, уже загруженным в хранилище.
Для
эффективного управления входным потоком
необходимо подобрать механизм определения
момента начала извлечения данных с
последующим выполнением
Процессы, связанные с повышением ценности представленных в хранилище данных посредством суммирования, документирования и распределения исходных данных.
Обслуживание восходящего потока включает выполнение приведенных ниже действий:
• Суммирование данных. Выполняется с помощью операций выборки, проекции, соединения и группирования реляционных данных, для получения представлений, которые являются более удобными и полезными для конечных пользователей. Суммирование может включать выполнение не только простых реляционных операций, но и проведение сложного статистического анализа, включая определение тенденций, кластеризацию и получение выборочных данных.
• Документирование данных. Выполняется путем преобразования фактических или суммарных данных в более удобные форматы представления, такие как электронные таблицы, текстовые документы, диаграммы и другие графические презентации, закрытые базы данных и анимационные материалы.
• Распределение исходных данных. Предусматривает распределение данных на соответствующие группы для повышения их подготовленности к использованию и доступности. При планировании процедур повышения ценности данных следует учитывать необходимость увеличения общей производительности хранилища, а также снижения текущих расходов на его сопровождение.
Процессы, связанные с архивированием и резервным кодированием информации в хранилище данных. Архивирование устаревших данных играет важную роль при обеспечении высокой эффективности и производительности хранилища данных за счет переноса устаревших данных с ограниченной ценностью на архивный носитель, например на магнитную ленту или оптические диски. Но если схема секционирования базы данных выполнена правильно, то общее количество оперативных данных не должно влиять на производительность хранилища данных.
Секционирование — это один из способов проектирования логической организации очень крупных баз данных, который позволяет разбивать таблицы, содержащие слишком большое количество записей, на несколько меньших таблиц. Для секционирования каждой конкретной таблицы применяется правило, в котором учтены такие характеристики данных, как период, к которому они относятся, или географический регион.
Процессы, связанные с предоставлением данных пользователям. Именно благодаря выходному потоку информации у сотрудников организации создается представление об истинной ценности хранилища данных. Полученные данные могут потребовать перестройки всех деловых процессов организации с целью повышения ее конкурентоспособности.
В качестве основных действий, связанных с выходным потоком, следует упомянуть перечисленные ниже:
• Доступ к данным. Обеспечивает выполнение запросов конечных пользователей к нужным им данным. Главная цель заключается в создании такой среды, в которой пользователи смогли бы эффективно использовать инструменты создания запросов для получения доступа к наиболее подходящему источнику данных.
• Доставка. Означает своевременную доставку информации на рабочие станции конечных пользователей. Это относительно новая область обработки информации в хранилищах данных, связанная с процессами типа публикации/подписки. Хранилище данных публикует различные деловые объекты, которые периодически подвергаются пересмотру с учетом интенсивности их использования. Пользователи могут подписаться на такой набор деловых объектов, который в наибольшей степени соответствует их потребностям. Хранилища данных, содержащие итоговые данные, потенциально предоставляют пользователям большее количество различных источников данных, способных дать ответ на их конкретные запросы.
Процессы,
связанные с управлением
Выбор оптимальных инструментов извлечения, очистки и преобразования данных очень важен для успешного создания хранилища данных. При этом задачи извлечения данных из источника, их очистки и преобразования с последующей загрузкой в конкретную систему могут быть выполнены либо с помощью нескольких разных программных продуктов, либо посредством применения единого интегрированного подхода. Подобные интегрированные решения делятся на следующие категории:
• генераторы кода;
• инструменты репликации информации базы данных;
• машины динамического преобразования.
СУБД
для хранилищ данных очень редко
бывает источником проблем интеграции.
Благодаря относительной
Специализированные требования к реляционной СУБД, предназначенной для хранилища данных, были опубликованы в. Эти требования перечислены в таблице 3.
Таблица 3
Требования к реляционной СУБД для хранилища данных
Требование |
Высокая производительность загрузки данных |
Возможность обработки данных во время загрузки |
Наличие средств управления качеством данных |
Высокая производительность запросов |
Масштабируемость по объему |
Масштабируемость по количеству пользователей |
Возможность организации сети хранилищ данных |
Наличие
средств администрирования |
Поддержка интегрированного многомерного анализа размерностей |
Расширенный набор функциональных средств запросов |
Высокая производительность загрузки данных. В хранилищах данных требуется периодически выполнять загрузку новых данных, причем в ограниченных временных рамках. Производительность процесса загрузки в подобных случаях должна измеряться в сотнях миллионов строк или гигабайтах данных в час, и требования по максимальному повышению производительности загрузки связаны с необходимостью обеспечить бесперебойное выполнение основных производственных задач.
Возможность обработки данных во время загрузки. При загрузке в хранилище новых или обновленных данных обычно требуется выполнение нескольких последовательных этапов, включающих преобразование данных, фильтрацию, переформатирование, проверку целостности, физическое сохранение, индексацию и обновление метаданных. На практике каждый такой этап может выполняться отдельно, но в общем процесс загрузки должен выглядеть как единая и неразрывная процедура.
Наличие средств управления качеством данных. Для перехода к управлению на основе фактической информации требуются данные высочайшего качества. В хранилище данных должны гарантироваться локальная и глобальная непротиворечивость данных, а также целостность данных на уровне ссылок, даже несмотря на использование "недостоверных" источников данных и громадные размеры базы данных. Хотя загрузка и подготовка данных — необходимые этапы, они все же не являются достаточными. Лишь способность дать ответы на запросы конечных пользователей является действительной оценкой успешного создания хранилища данных.
Высокая производительность запросов. Управление на основе фактической информации и произвольный анализ не должны замедляться или останавливаться из-за низкой производительности обработки запросов со стороны СУБД хранилища данных. Большие сложные запросы, связанные с выполнением важных деловых операций, должны завершаться за приемлемое время.
Масштабируемость по объем. Объемы хранилищ данных возрастают с огромной скоростью и достигают величин от сотен гигабайтов до терабайтов (10 байт) и даже петабайтов (10байт). Используемая реляционная СУБД должна поддерживать модульное и параллельное управление и не иметь никаких архитектурных ограничений на размер базы данных. В случае сбоя реляционная СУБД должна сохранять готовность к работе и предоставлять механизм восстановления до исходного состояния. Реляционная СУБД должна поддерживать работу с устройствами массовой памяти, такими как оптические диски или иерархические устройства хранения. Наконец, производительность выполнения запросов должна зависеть не от размера базы данных, а в основном от сложности самого запроса.
Масштабируемость по количеству пользователей.В настоящее время считается, что доступ к хранилищу данных будет ограничен только относительно небольшим кругом управленческого персонала. Однако маловероятно, что такая тенденция сохранится и при возрастании значения хранилищ данных.
Возможность организации сети хранилищ данных. Хранилище данных должно обладать способностью работать в большой сети, состоящей из многих хранилищ данных. Хранилище данных должно включать инструменты, которые координировали бы перемещение подмножеств данных из одного хранилища в другое. На своей рабочей станции пользователи должны иметь возможность просматривать и работать с содержимым нескольких хранилищ данных.
Наличие
средств администрирования
хранилища Исключительно большой размер
и циклический характер пополнения хранилищ
данных требует наличия простых и в то
же время гибких инструментов администрирования.
Реляционная СУБД должна предоставлять
средства управления для ограничения
ресурсов, регистрации затрат, связанных
с обслуживанием запросов отдельных пользователей,
а также систему установки приоритетов
выполнения запросов с учетом потребностей
различных категорий пользователей и
видов деятельности.
Поддержка многомерного интегрированного анализа. Ценность многомерных представлений — общепризнанный факт, поэтому поддержка работы с ними непременно должна быть предусмотрена в реляционной СУБД, используемой для организации хранилища данных, поскольку это является условием для обеспечения максимальной производительности реляционных инструментов OLAP. Реляционная СУБД должна поддерживать быстрое и простое создание предварительно подготовленных итоговых значений для больших хранилищ данных, а также предоставлять инструменты для автоматизации процесса создания таких предварительно вычисленных агрегированных данных.
Расширенный набор функциональных средств запросов. Конечным пользователям необходимо иметь возможность выполнять аналитические расчеты, последовательный и сравнительный анализ, согласованный доступ к фактическим и итоговым данным. Использование языка SQL в среде "клиент/сервер" для создания запросов по принципу "указать и щелкнуть" иногда может оказаться непрактичным или даже просто невозможным из-за высокой сложности пользовательских запросов.