Хранилище данных

Автор работы: Пользователь скрыл имя, 23 Января 2012 в 19:32, курсовая работа

Краткое описание

Определение понятия хранилища. Типичная структура хранилища данных. Создание информационно-аналитических систем. Анализ области применения их в практике.

Содержание работы

Введение 3
1. Понятие хранилища данных 5
1.1 Типичная структура хранилищ данных, таблица фактов …...5
1.2 Таблицы измерений 9
2. Аналитические системы 12
2.1 Создание информационно-аналитических систем 12
2.2 Области применения 16
Заключение 20
Глоссарий 22
Список использованных источников 24
Приложение А 25
Приложение Б 26
Приложение В……………………………………………………………………27
Приложение Г……………………………………………………………………28
Приложение Д……………………………………………………………………29

Содержимое работы - 1 файл

ХД.doc

— 237.00 Кб (Скачать файл)

Содержание 

Приложение Б 26

Приложение В……………………………………………………………………27

Приложение  Г……………………………………………………………………28

Приложение  Д……………………………………………………………………29

 

Введение

 

     Данная  курсовая работа будет рассматривать  вопрос хранилищ данных – одной  из самых распространенных систем баз данных. Поскольку данная система широко используется для ведения баз данных в различных областях человеческой деятельности, то вопрос ее администрирования особо актуален.

     На  сегодняшний день существует масса  источников информации об хранилище данных - это и книги и видео лекции и электронные учебники, и множество статей помогающих в освоении этого нелегкого дела сопровождения и администрирования хранилище данных.

     Хранилище данных (Data Warehouse) по сути представляет собой центр, в который собирается вся необходимая информация из различных подразделений предприятия. Прежде чем попасть в хранилище, данные должны быть соответствующим образом обработаны. БД, в которых происходит накопление, обработка первичных данных, на основании которых строится хранилище, будем далее называть транзакционными. Разные отделы могут использовать неодинаковые системы обработки со своими транзакционными БД. Соответственно, прежде чем использовать эти разрозненные данные, их нужно проанализировать. Этот процесс занимает весьма длительный период в процессе подготовки к созданию хранилища.

     Объектом исследования являются методы системного анализа интегрированной методологии разработки информационных систем. В хранилище данных включены, средства повышения быстродействия и доступности, позволяющие распределить нагрузку и обеспечить бесперебойную работу, функции для улучшения управления и настройки, снижающие совокупную стоимость владения. Кроме того, хранилище данных полностью использует все возможности операционной системы Windows, а также другие ОС.

     Предметом исследования является программное обеспечение, скрепляющее различные звенья хранилища данных и делающее возможным его построение как единого целого. При построении хранилища данных важную роль играют программные средства извлечения, преобразования и очистки данных. Предметом концепции хранилища данных служат сами данные, т.е. целью здесь являются не способы описания и отображения объектов предметной области, а собственно данные как самостоятельный объект предметной области, порожденной в результате функционирования ранее созданных информационных систем.

     Цель курсовой работы состоит в изучении сущности, состава  и значения хранилища данных, структуры  и области их применения, накоплении, передаче и хранении данных, информации и знаний в интересах индустрии.

     В курсовой работе определены основные задачи, которые необходимо решить в данной работе:

  • Дать понятие хранилища;
  • Рассмотреть типичную структуру хранилища данных;
  • Создание информационно-аналитических систем
  • Проанализировать области применения их в практике.

     При подготовке и написании курсовой работы были использованы учебники по информатике, информационным системам и программированию как зарубежных, так и российских авторов.

     Задача, которая встает перед администратором  или разработчиком, это проектирование структуры хранилища данных. Неверно спроектированная хранилища данных впоследствии доставит много хлопот, как администратору, так и программистам и пользователям. Поэтому необходимо ответственно отнестись к разработке хранилища данных, сразу же продумывая различные варианты использования данных.

     Методами  исследования при создании курсовой являлись, как сама практика работы хранилища данных так и изучение источников информации, которыми стали статьи по хранилищу данных взятые с различных электронных ресурсов, а так же книги и учебники посвященные изучению аспектов администрирования различными авторами которые имели определенный опыт и знания в этой области.

     Практическая  значимость работы заключается в  возможности использования курсовой для краткого ознакомления с хранилищем данных и способов ее администрирования.

 

1. Понятия хранилища данных

    1. Типичная  структура хранилищ данных, таблица факторов
 

     Информационные  системы масштаба предприятия, как  правило, содержат приложения, предназначенные  для комплексного многомерного анализа данных, их динамики, тенденций и т.п. Такой анализ в конечном итоге призван содействовать принятию решений. Нередко эти системы так и называются - системы поддержки принятия решений.

     Принять любое управленческое решение невозможно не обладая необходимой для этого информацией, обычно количественной. Для этого необходимо создание хранилищ данных (Data warehouses), то есть процесс сбора, отсеивания и предварительной обработки данных с целью предоставления результирующей информации пользователям для статистического анализа (а нередко и создания аналитических отчетов).

     Концепция DW была предложена в 1990 г. Б. Инмоном  и стала одной из доминирующих в разработке информационных технологий обработки данных 90-х годов. Появление  этой концепции было следствием неявного осознания того факта, что существует два основных функционально различных класса систем обработки информации [3, с.24].

     Первый  базируется на обработке текущего потока транзакций и предоставляет текущий  или охватывающий небольшой временной период снимок информации. Второй основан на сборе и подготовке большого по объему и временному периоду (от 5 лет) массива значимой информации, предназначенного для проведения анализа данных. Развитие концепции DW позволило провести границы между этими двумя типами систем. В русском языке термин «Data Warehouse» переводится двояко: как хранилище данных и как информационное хранилище. Однако термин «Information warehouse» был введен корпорацией IBM в начале 80-х годов и, по утверждению ее специалистов, означает нечто большее, чем DW по Инмону. Поэтому целесообразно пользоваться общепринятым термином «хранилище данных», хотя он несколько хуже передает суть концепции.

     Согласно  классическому определению Б. Инмона, DW есть предметно ориентированный, интегрированный, неизменный, поддерживающий хронологию набор данных, предназначенный для поддержки принятия решений. Следует отметить, что в этом определении соединены две различные функции: а) сбор, организация и подготовка данных для анализа в виде постоянно наращиваемой базы данных; б) собственно анализ как элемент принятия решений. Принятие решений в качестве сферы применения DW существенно сужает определение. Если в определении оставить лишь анализ (как элемент научных, технологических и экологических систем), круг использования данной концепции может быть значительно расширен.

     Очень важен основной принцип действия DW: единожды занесенные в DW данные затем  многократно извлекаются из него и используются для анализа. Отсюда вытекает одно из основных преимуществ  использования DW в работе предприятия - контроль за критически важной информацией, полученной из различных источников, как за производственным ресурсом [4, с.24].

     Отметим, что наиболее уязвимым местом использования DW на предприятии, с точки зрения бизнеса, является корректность его данных, полученных из разных источников. Данные перед загрузкой в DW должны быть либо «очищены от шума», либо обработаны методами нечеткой логики, допускающей наличие противоречивых фактов. Например, данные о предприятии-партнере могут быть получены от разных экспертов, чьи оценки порой бывают диаметрально противоположными.

     Ральф Кимбалл (Ralph Kimball), один из авторов концепции  хранилищ данных, описывал хранилище  данных как «место, где люди могут  получить доступ к своим данным». [9, с.24] Он же сформулировал и основные требования к хранилищам данных:

  • поддержка высокой скорости получения данных из хранилища;
  • поддержка внутренней непротиворечивости данных;
  • возможность получения и сравнения так называемых срезов данных (slice and dice);
  • наличие удобных утилит просмотра данных в хранилище;
  • полнота и достоверность хранимых данных;
  • поддержка качественного процесса пополнения данных.

     Удовлетворять всем перечисленным требованиям  в рамках одного и того же продукта зачастую не удается. Поэтому для реализации хранилищ данных обычно используется несколько продуктов, одни их которых представляют собой собственно средства хранения данных, другие - средства их извлечения и просмотра, третьи - средства их пополнения и т.д.

     Хранилище данных представляет собой банк данных определенной структуры, содержащий информацию о производственном процессе компании в историческом контексте. Главное назначение хранилища - обеспечивать быстрое выполнение произвольных аналитических запросов.

     Типичное  хранилище данных, как правило, отличается от обычной реляционной базы данных. Во-первых, обычные базы данных предназначены для того, чтобы помочь пользователям выполнять повседневную работу, тогда как хранилища данных предназначены для принятия решений. Например, продажа товара и выписка счета производятся с использованием базы данных, предназначенной для обработки транзакций, а анализ динамики продаж за несколько лет, позволяющий спланировать работу с поставщиками, - с помощью хранилища данных [2, с.24].

     Во-вторых, обычные базы данных подвержены постоянным изменениям в процессе работы пользователей, а хранилище данных относительно стабильно: данные в нем обычно обновляются согласно расписанию (например, еженедельно, ежедневно или ежечасно - в зависимости от потребностей). В идеале процесс пополнения представляет собой просто добавление новых данных за определенный период времени без изменения прежней информации, уже находящейся в хранилище.

     И в-третьих, обычные базы данных чаще всего являются источником данных, попадающих в хранилище. Кроме того, хранилище может пополняться за счет внешних источников, например статистических отчетов [6, с.24].

     Специфика работы аналитических систем делает практически невозможным их прямое использование на оперативных данных. Это объясняется различными причинами, в том числе разрозненностью данных, хранением их в форматах различных СУБД и в разных «уголках» корпоративной сети, но, что наиболее важно, неприменимостью структур данных оперативных систем для выполнения задач анализа. Для этих целей и создается хранилище данных.

     Согласно  исследованию META Group, 90 - 95% компаний списка Fortune 2000 активно применяют хранилища  данных, чтобы добиться преимущества в конкурентной борьбе и получить значительно большую отдачу от своих  инвестиций. Трехлетнее изучение опыта 62 организаций, проведенное International Data Corporation (IDC) показало, что эти организации в среднем получили 400-процентный возврат своих инвестиций в СППР-системы [4, с.24]. Перечислим главные преимущества хранилищ данных:

  • Единый источник информации: компания получает выверенную единую информационную среду, на которой будут строиться все справочно-аналитические приложения в той предметной области, по которой построено хранилище. Эта среда будет обладать единым интерфейсом, унифицированными структурами хранения, общими справочниками и другими корпоративными стандартами, что облегчает создание и поддержку аналитических систем. Также, при проектировании информационного хранилища данных особое внимание уделяют достоверности информации, которая попадает в хранилище.
  • Производительность: физические структуры хранилища данных специальным образом оптимизированы для выполнения абсолютно произвольных выборок, что позволяет строить действительно быстрые системы запросов.
  • Быстрота разработки: специфическая логическая организация хранилища и существующее специализированное ПО позволяют создавать аналитические системы с минимальными затратами на программирование.
  • Интегрированность: интеграция данных из разных источников уже сделана, поэтому не надо каждый раз производить соединение данных для запросов, требующих информацию из нескольких источников. Под интеграцией понимается не только совместное физическое хранение данных, но и их предметное, согласованное объединение; очистку и выверку при их формировании; соблюдение технологических особенностей и т.д.
  • Историчность и стабильность: OLTP-системы оперируют с актуальными данными, срок применения и хранения которых обычно не превышает величины текущего бизнес-периода (полугода-год), в то время как информационное хранилище данных нацелено на долговременное хранение информации в течение 10-15 лет. Стабильность означает, что фактическая информация в хранилище данных не обновляется и не удаляется, а только специальным образом адаптируется к изменениям бизнесс-атрибутов. Таким образом, появляется возможность осуществлять исторический анализ информации.
  • Независимость: выделенность информационного хранилища существенно снижает нагрузку на OLTP-системы со стороны аналитических приложений, тем самым производительность существующих систем не ухудшается, а на практике происходит уменьшение времени отклика и улучшение доступности систем.

Информация о работе Хранилище данных