Концепции построения и реализации информационных систем

Автор работы: Пользователь скрыл имя, 09 Февраля 2013 в 19:21, реферат

Краткое описание

На первых этапах автоматизации требовалось и требуется навести порядок именно в процессах повседневной рутинной обработки (переработки) данных, на что и ориентированны традиционные СОД. Более того, системы СППР являются в определенном смысле вторичными, по отношению к ним. Здесь возможна аналогия с производством. Любая продукция, прежде чем попасть на склад и быть отгружена потребителю, должна быть сначала произведена. И прежде чем заниматься анализом данных, необходимо эти данные иметь (произвести). А именно, это и является одной из функций СОД.

Содержимое работы - 1 файл

01 Концепции построения и реализации информационных систем.doc

— 215.50 Кб (Скачать файл)

Введение

В области информационных технологий, всегда существовали два  взаимодополняющих друг друга направления  развития:

  • Системы, ориентированные на операционную обработку данных - системы обработки данных (СОД).
  • Системы, ориентированные на анализ данных - системы поддержки принятия решений (СППР).

Но ещё до недавнего прошлого, когда говорилось о стремительном вхождении в  нашу жизнь информационных технологий и росте числа реализаций информационных систем, прежде всего, имелись в виду системы, ориентированные исключительно на операционную обработку данных. И такое, опережающее развитие одного из направлений, вполне объяснимо.

На первых этапах автоматизации  требовалось и требуется навести  порядок именно в процессах повседневной рутинной обработки (переработки) данных, на что и ориентированны традиционные СОД. Более того, системы СППР являются в определенном смысле вторичными, по отношению к ним. Здесь возможна аналогия с производством. Любая продукция, прежде чем попасть на склад и быть отгружена потребителю, должна быть сначала произведена. И прежде чем заниматься анализом данных, необходимо эти данные иметь (произвести). А именно, это и является одной из функций СОД.

Однако за последние два-три  года ситуация существенно изменилась. И это непосредственно связано с тем, что практически в любой организации сложилась хорошо всем знакомая парадоксальная ситуация: -информация вроде бы, где-то и есть, её даже слишком много, но она неструктурированна, несогласованна, разрознена, не всегда достоверна, её практически невозможно найти и получить.

Именно на разрешение этого  противоречия - отсутствие информации при наличии и даже избытке  и нацелена концепция Хранилищ Данных (Data Warehouse). Но Хранилища Данных, хотя и наиболее популярная, далеко не единственная концепция построения аналитических систем. Не менее известны и другие концепции: Information Warehouse, Data Mart, On-Line Analitical Processing (OLAP), Relational On-Line Analitical Processing (ROLAP).

С чем связано появление, параллельное существование и развитие различных концепций построения и реализации аналитических систем? Насколько они взаимно исключают или наоборот взаимно дополняют друг друга? Какие проблемы, возникающие при реализации таких систем неизбежны, а какие могут быть решены за счёт правильного выбора средств и стратегии реализации?

Именно ответам на эти  вопросы и посвящена данная статья. И хотя эти ответы не всегда могут  быть однозначными, уже само понимание  проблем поднимаемых в них  является необходимым условием выбора правильной стратегии и успешной реализации информационной системы ориентированной на анализ данных (аналитической системы).

Данную работу можно разделить  на следующие основные разделы:

  • Концепции:
    • Концепция Хранилищ Данных (Рассматриваются основные положения концепции Хранилищ Данных).
    • Взаимное соотношение концепции Хранилищ Данных и концепций анализа данных (Рассматривается взаимное соотношение концепции Хранилищ Данных и концепций анализа данных. Показывается, что эти концепции являясь взаимно независимыми, в то же время, взаимно обогащают и дополняют друг друга).
  • Технологии и средства реализации:
    • Вопросы реализации Хранилищ Данных (Рассматриваются технологические аспекты реализации Хранилищ Данных)
    • СУБД для аналитических систем .
  • Витрины Данных - недостающее звено в концепциях построения аналитических систем (Рассматривается концепция Data Mart и потенциальные достоинства подхода, предполагающего совместное использование РСУБД и МСУБД в рамках одной аналитической системы).
  • Заключение

Концепции

Прежде чем  переходить к рассмотрению собственно концепций построения аналитических систем, необходимо сделать небольшое терминологическое (или если хотите историческое) отступление. Сегодня, используются два основных варианта перевода термина “Data Warehouse”: Хранилище Данных и Информационное Хранилище. Однако второй вариант перевода, возможно более точно отражая смысл концепции, не совсем корректен. Дело в том, что термин Warehouse, не является изобретением Б.Инмона и используется в информационных технологиях достаточно давно. Ещё в 80-х годах фирмой IBM была предложена концепция “Information Warehouse”. И более корректно, оставить термин Информационное Хранилище за самостоятельной концепцией развиваемой фирмой IBM.

Каждый из этих терминов несёт самостоятельную  смысловую нагрузку, и фирма IBM говорит о том, что “Information Warehouse” это - “Data Warehouse Plus”. А теперь попробуйте перевести это утверждение.

Концепция Хранилищ Данных

Сегодня, СОД  реализованные на самой различной  основе, исправно работают и при  этом исправно порождают и пополняют  многочисленные многотомные электронные архивы. Основное назначение таких систем - оперативная обработка и они не могут себе позволить роскошь хранить данные более чем за несколько месяцев. После того как данные устаревают, они выгружаются и вычищаются из операционной БД. А поскольку, обычно в любой организации функционирует несколько различных несвязанных или слабо связанных СОД, выгруженные из них данные, как правило, имеют различную структуру, формат, стандарты представления дат и денежных величин. Для обозначения одних и тех же объектов, используются различные кодировки. Как правило, в них, в явном виде отсутствуют реквизиты, идентифицирующие временной срез, которому они соответствуют и источники их получения.

В результате, огромные архивные массивы, накопленные за годы эксплуатации СОД и содержащие самую разнообразную жизненно важную для организации информацию, остаются невостребованными. Без предварительной доработки и согласования, архивные данные бесполезны и не могут быть непосредственно использованы в задачах анализа.

Но данные, порожденные  в результате функционирования корпоративных  СОД - это только часть информации необходимой для принятия корректного  бизнес решения. Организация живет  и функционирует в реальном мире. Включение в аналитическую систему данных из различных электронных статистических сборников (как общедоступных, так и коммерческих), прогнозов развития регионов и областей экономики, законодательной базы, позволяет по новому взглянуть на многие закономерности, выявленные в процессе анализа внутренних данных. И как показывает практика, любое решение принятое исключительно на основе внутренних данных, скорее всего, окажутся не вполне корректными.

Автором концепции  Хранилищ Данных (Data Warehouse) является Б.Инмон, который определил Хранилища Данных /1/, как: “предметно ориентированные, интегрированные, неизменчивые, поддерживающие хронологию наборы данных, организованные для целей поддержки управления”, призванные выступать в роли “единого и единственного источника истины” обеспечивающего менеджеров и аналитиков достоверной информацией необходимой для оперативного анализа и принятия решений.

В основе концепции  Хранилищ Данных лежат две основополагающие идеи:

  • Интеграция ранее разъединенных детализированных данных:
    • исторические архивы,
    • данные из традиционных СОД,
    • данные из внешних источников

в едином Хранилище  Данных, их согласование и возможно агрегация.

  • Разделение наборов данных используемых для операционной обработки и наборов данных используемых для решения задач анализа.

Наиболее распространённой на сегодня ошибкой, является попытка найти в концепции Хранилищ Данных некий законченный рецепт реализации информационной аналитической системы. Тем более, это не некий готовый программный продукт или некое готовое универсальное решение. В этом смысле, интересна и показательна оценка Butler Group Co. /2/ структуры затрат на реализацию систем Хранилищ Данных, по которой, до 50% от стоимости системы составляет стоимость консалтинга и лишь оставшиеся 50%, это стоимость аппаратных, сетевых и программных компонент. С этой оценкой можно спорить, но она весьма показательна.

Цель концепции  Хранилищ Данных - прояснить отличия  в характеристиках данных в операционных и аналитических системах (таблица 1), определить требования к данным помещаемым в целевую БД Хранилища Данных (таблица 2), определить общие принципы и этапы её построения, основные источники данных, дать рекомендации по решению потенциальных проблем возникающих при их выгрузке, очистке, согласовании, транспортировке и загрузке в целевую БД.

Таблица 1. Сравнение характеристик данных в информационных системах ориентированных на операционную и аналитическую обработку данных

Характеристика

Операционные

Аналитические

"Частота  обновления

Высокая частота, маленькими порциями

Малая частота, большими порциями

Источники данных

В основном внутренние

В основном внешние

Объемы хранимых данных

Сотни мегабайт, гигабайты

Гигабайты и  терабайты

Возраст данных

Текущие (за период от нескольких месяцев до одного года)

Текущие и исторические (за период в несколько лет, десятки лет)

Назначение

Фиксация, оперативный  поиск и преобразование данных

Хранение детализированных и агрегированных исторических данных, аналитическая обработка, прогнозирование  и моделирование


 

 

Предметом концепции  Хранилищ Данных являются сами данные. После того как традиционная СОД реализована и начинает функционировать, она становится ровно таким же самостоятельным объектом реального мира, как и любое, производственный процесс. А данные, которые являются одним из конечных продуктов такого производства, обладают ровно теми же свойствами и характеристиками, что и любой промышленный продукт: сроком годности, местом складирования (хранения), совместимостью с данными из других производств (СОД), рыночной стоимостью, транспортабельностью, комплектностью, ремонтопригодностью и т.д.

И именно с этой точки зрения рассматриваются данные в Хранилищах Данных. То есть, её предметом  являются не способы описания и отображения  объектов предметной области, а собственно данные, как самостоятельный объект предметной области, порожденной в результате функционирования ранее созданных информационной систем.

Таблица 2. Основные требования к данным в  Хранилище Данных

Предметная  ориентированность

Все данные о  некотором предмете (бизнес объекте) собираются (обычно из множества различных источников), очищаются, согласовываются, дополняются, агрегируются и представляются в единой, удобной для их использования в бизнес анализе форме.

Интегрированность

Все данные о  разных бизнес объектах, взаимно согласованы  и хранятся в едином общекорпоративном Хранилище

Не изменчивость

Исходные (исторические) данные, после того как они были согласованы, верифицированы и внесены  в общекорпоративное Хранилище, остаются неизменными и используются исключительно в режиме чтения

Поддержка хронологии

Данные хронологически структурированы и отражают историю, за достаточный, для выполнения задач бизнес анализа и прогнозирования, период времени.


Для правильного  понимания данной концепции необходимо понимание следующих принципиальных моментов:

  • Концепция Хранилищ Данных - это не концепция анализа данных, скорее это концепция подготовки данных для анализа.
  • Концепция Хранилищ Данных не предопределяет архитектуру целевой аналитической системы. Она говорит о том, какие процессы должны выполняться в системе, но не о том, где конкретно и как эти процессы должны выполняться.
  • Концепция Хранилищ Данных предполагает не просто единый логический взгляд данные организации (как иногда это трактуется). Она предполагает реализацию единого интегрированного источника данных.

Последний пункт достаточно принципиален, поэтому рассмотрим его более детально. Сегодня, достаточно популярны решения, предполагающие интеграцию различных СОД на основе единого справочника метаданных (поддерживающего единый логический взгляд данные организации), но не единого интегрированного источника данных. При этом предполагается динамическая выгрузка, по каждому новому запросу, данных из различных операционных источников (СОД) их динамическое согласование, агрегация и транспортировка к пользователю.

Очевидно, что для определённых классов приложений, это решение вполне корректно. Но следует заранее понимать все ограничения им накладываемые.

Кроме единого  справочника метаданных, средств  выгрузки, агрегации и согласования данных, концепция Хранилищ Данных подразумевает: интегрированность, не изменчивость, поддержку хронологии и согласованность данных. И если, два первых свойства (интегрированность и не изменчивость) влияют на режимы анализа данных (как будет показано ниже, без интегрированной базы данных, в которой используются специализированные методы хранения и доступа, по крайней мере, сегодня, трудно говорить о реализации интерактивного динамического анализа), то последние два (поддержка хронологии и согласованность), существенно сужают список решаемых аналитических задач.

Без поддержки  хронологии (наличия исторических данных) нельзя говорить о решении задач  прогнозирования и анализа тенденций. Но наиболее критичными и болезненными, оказываются вопросы, связанные  с согласованием данных.

Основным требованием аналитика, является даже не столько оперативность, сколько достоверность ответа. Но достоверность, в конечном счете, и определяется согласованностью. Пока не проведена работа по взаимному согласованию значений данных из различных источников, сложно говорить об их достоверности.

Практически в  любой организации, вопрос о согласованности  данных в различных информационных системах стоит чрезвычайно остро. И, нередко, менеджер сталкивается с  ситуацией, когда на один и тот  же вопрос, различные системы могут  дать и обычно дают различный ответ. Это может быть связано как с не синхронностью моментов модификации данных, отличиями в трактовке одних и тех же событий, понятий и данных, изменением семантики данных в процессе развития предметной области, элементарными ошибками при вводе и обработке, частичной утратой отдельных фрагментов архивов и т.д. Очевидно, что учесть и заранее определить алгоритмы разрешения всех возможных коллизий мало реально. Тем более, это нереально сделать в оперативном режиме, динамически, непосредственно в процессе формирования ответа на запрос.

Информация о работе Концепции построения и реализации информационных систем