Автор работы: Пользователь скрыл имя, 09 Февраля 2013 в 19:21, реферат
На первых этапах автоматизации требовалось и требуется навести порядок именно в процессах повседневной рутинной обработки (переработки) данных, на что и ориентированны традиционные СОД. Более того, системы СППР являются в определенном смысле вторичными, по отношению к ним. Здесь возможна аналогия с производством. Любая продукция, прежде чем попасть на склад и быть отгружена потребителю, должна быть сначала произведена. И прежде чем заниматься анализом данных, необходимо эти данные иметь (произвести). А именно, это и является одной из функций СОД.
В области информационных технологий, всегда существовали два взаимодополняющих друг друга направления развития:
Но ещё до недавнего прошлого, когда говорилось о стремительном вхождении в нашу жизнь информационных технологий и росте числа реализаций информационных систем, прежде всего, имелись в виду системы, ориентированные исключительно на операционную обработку данных. И такое, опережающее развитие одного из направлений, вполне объяснимо.
На первых этапах автоматизации
требовалось и требуется
Однако за последние два-три года ситуация существенно изменилась. И это непосредственно связано с тем, что практически в любой организации сложилась хорошо всем знакомая парадоксальная ситуация: -информация вроде бы, где-то и есть, её даже слишком много, но она неструктурированна, несогласованна, разрознена, не всегда достоверна, её практически невозможно найти и получить.
Именно на разрешение этого противоречия - отсутствие информации при наличии и даже избытке и нацелена концепция Хранилищ Данных (Data Warehouse). Но Хранилища Данных, хотя и наиболее популярная, далеко не единственная концепция построения аналитических систем. Не менее известны и другие концепции: Information Warehouse, Data Mart, On-Line Analitical Processing (OLAP), Relational On-Line Analitical Processing (ROLAP).
С чем связано появление, параллельное существование и развитие различных концепций построения и реализации аналитических систем? Насколько они взаимно исключают или наоборот взаимно дополняют друг друга? Какие проблемы, возникающие при реализации таких систем неизбежны, а какие могут быть решены за счёт правильного выбора средств и стратегии реализации?
Именно ответам на эти вопросы и посвящена данная статья. И хотя эти ответы не всегда могут быть однозначными, уже само понимание проблем поднимаемых в них является необходимым условием выбора правильной стратегии и успешной реализации информационной системы ориентированной на анализ данных (аналитической системы).
Данную работу можно разделить на следующие основные разделы:
Прежде чем переходить к рассмотрению собственно концепций построения аналитических систем, необходимо сделать небольшое терминологическое (или если хотите историческое) отступление. Сегодня, используются два основных варианта перевода термина “Data Warehouse”: Хранилище Данных и Информационное Хранилище. Однако второй вариант перевода, возможно более точно отражая смысл концепции, не совсем корректен. Дело в том, что термин Warehouse, не является изобретением Б.Инмона и используется в информационных технологиях достаточно давно. Ещё в 80-х годах фирмой IBM была предложена концепция “Information Warehouse”. И более корректно, оставить термин Информационное Хранилище за самостоятельной концепцией развиваемой фирмой IBM.
Каждый из этих терминов несёт самостоятельную смысловую нагрузку, и фирма IBM говорит о том, что “Information Warehouse” это - “Data Warehouse Plus”. А теперь попробуйте перевести это утверждение.
Сегодня, СОД реализованные на самой различной основе, исправно работают и при этом исправно порождают и пополняют многочисленные многотомные электронные архивы. Основное назначение таких систем - оперативная обработка и они не могут себе позволить роскошь хранить данные более чем за несколько месяцев. После того как данные устаревают, они выгружаются и вычищаются из операционной БД. А поскольку, обычно в любой организации функционирует несколько различных несвязанных или слабо связанных СОД, выгруженные из них данные, как правило, имеют различную структуру, формат, стандарты представления дат и денежных величин. Для обозначения одних и тех же объектов, используются различные кодировки. Как правило, в них, в явном виде отсутствуют реквизиты, идентифицирующие временной срез, которому они соответствуют и источники их получения.
В результате, огромные архивные массивы, накопленные за годы эксплуатации СОД и содержащие самую разнообразную жизненно важную для организации информацию, остаются невостребованными. Без предварительной доработки и согласования, архивные данные бесполезны и не могут быть непосредственно использованы в задачах анализа.
Но данные, порожденные
в результате функционирования корпоративных
СОД - это только часть информации
необходимой для принятия корректного
бизнес решения. Организация живет
и функционирует в реальном мире.
Включение в аналитическую
Автором концепции
Хранилищ Данных (Data Warehouse) является Б.Инмон,
который определил Хранилища Да
В основе концепции Хранилищ Данных лежат две основополагающие идеи:
в едином Хранилище Данных, их согласование и возможно агрегация.
Наиболее распространённой на сегодня ошибкой, является попытка найти в концепции Хранилищ Данных некий законченный рецепт реализации информационной аналитической системы. Тем более, это не некий готовый программный продукт или некое готовое универсальное решение. В этом смысле, интересна и показательна оценка Butler Group Co. /2/ структуры затрат на реализацию систем Хранилищ Данных, по которой, до 50% от стоимости системы составляет стоимость консалтинга и лишь оставшиеся 50%, это стоимость аппаратных, сетевых и программных компонент. С этой оценкой можно спорить, но она весьма показательна.
Цель концепции Хранилищ Данных - прояснить отличия в характеристиках данных в операционных и аналитических системах (таблица 1), определить требования к данным помещаемым в целевую БД Хранилища Данных (таблица 2), определить общие принципы и этапы её построения, основные источники данных, дать рекомендации по решению потенциальных проблем возникающих при их выгрузке, очистке, согласовании, транспортировке и загрузке в целевую БД.
Таблица 1. Сравнение характеристик данных в информационных системах ориентированных на операционную и аналитическую обработку данных
Характеристика |
Операционные |
Аналитические |
"Частота обновления |
Высокая частота, маленькими порциями |
Малая частота, большими порциями |
Источники данных |
В основном внутренние |
В основном внешние |
Объемы хранимых данных |
Сотни мегабайт, гигабайты |
Гигабайты и терабайты |
Возраст данных |
Текущие (за период от нескольких месяцев до одного года) |
Текущие и исторические (за период в несколько лет, десятки лет) |
Назначение |
Фиксация, оперативный поиск и преобразование данных |
Хранение детализированных и агрегированных исторических данных, аналитическая обработка, прогнозирование и моделирование |
Предметом концепции Хранилищ Данных являются сами данные. После того как традиционная СОД реализована и начинает функционировать, она становится ровно таким же самостоятельным объектом реального мира, как и любое, производственный процесс. А данные, которые являются одним из конечных продуктов такого производства, обладают ровно теми же свойствами и характеристиками, что и любой промышленный продукт: сроком годности, местом складирования (хранения), совместимостью с данными из других производств (СОД), рыночной стоимостью, транспортабельностью, комплектностью, ремонтопригодностью и т.д.
И именно с этой точки зрения рассматриваются данные в Хранилищах Данных. То есть, её предметом являются не способы описания и отображения объектов предметной области, а собственно данные, как самостоятельный объект предметной области, порожденной в результате функционирования ранее созданных информационной систем.
Таблица 2. Основные требования к данным в Хранилище Данных
Предметная ориентированность |
Все данные о некотором предмете (бизнес объекте) собираются (обычно из множества различных источников), очищаются, согласовываются, дополняются, агрегируются и представляются в единой, удобной для их использования в бизнес анализе форме. |
Интегрированность |
Все данные о разных бизнес объектах, взаимно согласованы и хранятся в едином общекорпоративном Хранилище |
Не изменчивость |
Исходные (исторические) данные, после того как они были согласованы, верифицированы и внесены в общекорпоративное Хранилище, остаются неизменными и используются исключительно в режиме чтения |
Поддержка хронологии |
Данные хронологически структурированы и отражают историю, за достаточный, для выполнения задач бизнес анализа и прогнозирования, период времени. |
Для правильного
понимания данной концепции необходимо
понимание следующих
Последний пункт достаточно принципиален, поэтому рассмотрим его более детально. Сегодня, достаточно популярны решения, предполагающие интеграцию различных СОД на основе единого справочника метаданных (поддерживающего единый логический взгляд данные организации), но не единого интегрированного источника данных. При этом предполагается динамическая выгрузка, по каждому новому запросу, данных из различных операционных источников (СОД) их динамическое согласование, агрегация и транспортировка к пользователю.
Очевидно, что для определённых классов приложений, это решение вполне корректно. Но следует заранее понимать все ограничения им накладываемые.
Кроме единого
справочника метаданных, средств
выгрузки, агрегации и согласования
данных, концепция Хранилищ Данных
подразумевает: интегрированнос
Без поддержки
хронологии (наличия исторических данных)
нельзя говорить о решении задач
прогнозирования и анализа
Основным требованием аналитика, является даже не столько оперативность, сколько достоверность ответа. Но достоверность, в конечном счете, и определяется согласованностью. Пока не проведена работа по взаимному согласованию значений данных из различных источников, сложно говорить об их достоверности.
Практически в любой организации, вопрос о согласованности данных в различных информационных системах стоит чрезвычайно остро. И, нередко, менеджер сталкивается с ситуацией, когда на один и тот же вопрос, различные системы могут дать и обычно дают различный ответ. Это может быть связано как с не синхронностью моментов модификации данных, отличиями в трактовке одних и тех же событий, понятий и данных, изменением семантики данных в процессе развития предметной области, элементарными ошибками при вводе и обработке, частичной утратой отдельных фрагментов архивов и т.д. Очевидно, что учесть и заранее определить алгоритмы разрешения всех возможных коллизий мало реально. Тем более, это нереально сделать в оперативном режиме, динамически, непосредственно в процессе формирования ответа на запрос.
Информация о работе Концепции построения и реализации информационных систем