Автор работы: Пользователь скрыл имя, 23 Января 2012 в 19:32, курсовая работа
Определение понятия хранилища. Типичная структура хранилища данных. Создание информационно-аналитических систем. Анализ области применения их в практике.
Введение 3
1. Понятие хранилища данных 5
1.1 Типичная структура хранилищ данных, таблица фактов …...5
1.2 Таблицы измерений 9
2. Аналитические системы 12
2.1 Создание информационно-аналитических систем 12
2.2 Области применения 16
Заключение 20
Глоссарий 22
Список использованных источников 24
Приложение А 25
Приложение Б 26
Приложение В……………………………………………………………………27
Приложение Г……………………………………………………………………28
Приложение Д……………………………………………………………………29
Содержание
Приложение Б 26
Приложение В……………………………………………………………………27
Приложение Г……………………………………………………………………28
Приложение Д……………………………………………………………………29
Данная курсовая работа будет рассматривать вопрос хранилищ данных – одной из самых распространенных систем баз данных. Поскольку данная система широко используется для ведения баз данных в различных областях человеческой деятельности, то вопрос ее администрирования особо актуален.
На сегодняшний день существует масса источников информации об хранилище данных - это и книги и видео лекции и электронные учебники, и множество статей помогающих в освоении этого нелегкого дела сопровождения и администрирования хранилище данных.
Хранилище данных (Data Warehouse) по сути представляет собой центр, в который собирается вся необходимая информация из различных подразделений предприятия. Прежде чем попасть в хранилище, данные должны быть соответствующим образом обработаны. БД, в которых происходит накопление, обработка первичных данных, на основании которых строится хранилище, будем далее называть транзакционными. Разные отделы могут использовать неодинаковые системы обработки со своими транзакционными БД. Соответственно, прежде чем использовать эти разрозненные данные, их нужно проанализировать. Этот процесс занимает весьма длительный период в процессе подготовки к созданию хранилища.
Объектом исследования являются методы системного анализа интегрированной методологии разработки информационных систем. В хранилище данных включены, средства повышения быстродействия и доступности, позволяющие распределить нагрузку и обеспечить бесперебойную работу, функции для улучшения управления и настройки, снижающие совокупную стоимость владения. Кроме того, хранилище данных полностью использует все возможности операционной системы Windows, а также другие ОС.
Предметом исследования является программное обеспечение, скрепляющее различные звенья хранилища данных и делающее возможным его построение как единого целого. При построении хранилища данных важную роль играют программные средства извлечения, преобразования и очистки данных. Предметом концепции хранилища данных служат сами данные, т.е. целью здесь являются не способы описания и отображения объектов предметной области, а собственно данные как самостоятельный объект предметной области, порожденной в результате функционирования ранее созданных информационных систем.
Цель курсовой работы состоит в изучении сущности, состава и значения хранилища данных, структуры и области их применения, накоплении, передаче и хранении данных, информации и знаний в интересах индустрии.
В курсовой работе определены основные задачи, которые необходимо решить в данной работе:
При подготовке и написании курсовой работы были использованы учебники по информатике, информационным системам и программированию как зарубежных, так и российских авторов.
Задача, которая встает перед администратором или разработчиком, это проектирование структуры хранилища данных. Неверно спроектированная хранилища данных впоследствии доставит много хлопот, как администратору, так и программистам и пользователям. Поэтому необходимо ответственно отнестись к разработке хранилища данных, сразу же продумывая различные варианты использования данных.
Методами исследования при создании курсовой являлись, как сама практика работы хранилища данных так и изучение источников информации, которыми стали статьи по хранилищу данных взятые с различных электронных ресурсов, а так же книги и учебники посвященные изучению аспектов администрирования различными авторами которые имели определенный опыт и знания в этой области.
Практическая
значимость работы заключается в
возможности использования
1. Понятия хранилища данных
Информационные системы масштаба предприятия, как правило, содержат приложения, предназначенные для комплексного многомерного анализа данных, их динамики, тенденций и т.п. Такой анализ в конечном итоге призван содействовать принятию решений. Нередко эти системы так и называются - системы поддержки принятия решений.
Принять любое управленческое решение невозможно не обладая необходимой для этого информацией, обычно количественной. Для этого необходимо создание хранилищ данных (Data warehouses), то есть процесс сбора, отсеивания и предварительной обработки данных с целью предоставления результирующей информации пользователям для статистического анализа (а нередко и создания аналитических отчетов).
Концепция DW была предложена в 1990 г. Б. Инмоном и стала одной из доминирующих в разработке информационных технологий обработки данных 90-х годов. Появление этой концепции было следствием неявного осознания того факта, что существует два основных функционально различных класса систем обработки информации [3, с.24].
Первый базируется на обработке текущего потока транзакций и предоставляет текущий или охватывающий небольшой временной период снимок информации. Второй основан на сборе и подготовке большого по объему и временному периоду (от 5 лет) массива значимой информации, предназначенного для проведения анализа данных. Развитие концепции DW позволило провести границы между этими двумя типами систем. В русском языке термин «Data Warehouse» переводится двояко: как хранилище данных и как информационное хранилище. Однако термин «Information warehouse» был введен корпорацией IBM в начале 80-х годов и, по утверждению ее специалистов, означает нечто большее, чем DW по Инмону. Поэтому целесообразно пользоваться общепринятым термином «хранилище данных», хотя он несколько хуже передает суть концепции.
Согласно классическому определению Б. Инмона, DW есть предметно ориентированный, интегрированный, неизменный, поддерживающий хронологию набор данных, предназначенный для поддержки принятия решений. Следует отметить, что в этом определении соединены две различные функции: а) сбор, организация и подготовка данных для анализа в виде постоянно наращиваемой базы данных; б) собственно анализ как элемент принятия решений. Принятие решений в качестве сферы применения DW существенно сужает определение. Если в определении оставить лишь анализ (как элемент научных, технологических и экологических систем), круг использования данной концепции может быть значительно расширен.
Очень важен основной принцип действия DW: единожды занесенные в DW данные затем многократно извлекаются из него и используются для анализа. Отсюда вытекает одно из основных преимуществ использования DW в работе предприятия - контроль за критически важной информацией, полученной из различных источников, как за производственным ресурсом [4, с.24].
Отметим, что наиболее уязвимым местом использования DW на предприятии, с точки зрения бизнеса, является корректность его данных, полученных из разных источников. Данные перед загрузкой в DW должны быть либо «очищены от шума», либо обработаны методами нечеткой логики, допускающей наличие противоречивых фактов. Например, данные о предприятии-партнере могут быть получены от разных экспертов, чьи оценки порой бывают диаметрально противоположными.
Ральф Кимбалл (Ralph Kimball), один из авторов концепции хранилищ данных, описывал хранилище данных как «место, где люди могут получить доступ к своим данным». [9, с.24] Он же сформулировал и основные требования к хранилищам данных:
Удовлетворять всем перечисленным требованиям в рамках одного и того же продукта зачастую не удается. Поэтому для реализации хранилищ данных обычно используется несколько продуктов, одни их которых представляют собой собственно средства хранения данных, другие - средства их извлечения и просмотра, третьи - средства их пополнения и т.д.
Хранилище данных представляет собой банк данных определенной структуры, содержащий информацию о производственном процессе компании в историческом контексте. Главное назначение хранилища - обеспечивать быстрое выполнение произвольных аналитических запросов.
Типичное хранилище данных, как правило, отличается от обычной реляционной базы данных. Во-первых, обычные базы данных предназначены для того, чтобы помочь пользователям выполнять повседневную работу, тогда как хранилища данных предназначены для принятия решений. Например, продажа товара и выписка счета производятся с использованием базы данных, предназначенной для обработки транзакций, а анализ динамики продаж за несколько лет, позволяющий спланировать работу с поставщиками, - с помощью хранилища данных [2, с.24].
Во-вторых, обычные базы данных подвержены постоянным изменениям в процессе работы пользователей, а хранилище данных относительно стабильно: данные в нем обычно обновляются согласно расписанию (например, еженедельно, ежедневно или ежечасно - в зависимости от потребностей). В идеале процесс пополнения представляет собой просто добавление новых данных за определенный период времени без изменения прежней информации, уже находящейся в хранилище.
И в-третьих, обычные базы данных чаще всего являются источником данных, попадающих в хранилище. Кроме того, хранилище может пополняться за счет внешних источников, например статистических отчетов [6, с.24].
Специфика работы аналитических систем делает практически невозможным их прямое использование на оперативных данных. Это объясняется различными причинами, в том числе разрозненностью данных, хранением их в форматах различных СУБД и в разных «уголках» корпоративной сети, но, что наиболее важно, неприменимостью структур данных оперативных систем для выполнения задач анализа. Для этих целей и создается хранилище данных.
Согласно исследованию META Group, 90 - 95% компаний списка Fortune 2000 активно применяют хранилища данных, чтобы добиться преимущества в конкурентной борьбе и получить значительно большую отдачу от своих инвестиций. Трехлетнее изучение опыта 62 организаций, проведенное International Data Corporation (IDC) показало, что эти организации в среднем получили 400-процентный возврат своих инвестиций в СППР-системы [4, с.24]. Перечислим главные преимущества хранилищ данных: