Автор работы: Пользователь скрыл имя, 02 Июля 2012 в 21:59, реферат
Интеллектуальные технологии – один из последних этапов развития аналитических технологий. Аналитическими называют технологии , которые на основе каких-либо моделей, алгоритмов, математических теорем позволяют по известным данным оценить значения неизвестных характеристик и параметров. Простейший пример аналитической технологии - теорема Пифагора, которая позволяет по длинам сторон прямоугольного треугольника определить длину его третьей стороны. Эта технология основана на известной формуле с2=а2+b2
Концепция хранилищ данных.
Сегодня СОД, реализованные на самой различной основе, исправно работают и при этом исправно порождают и пополняют многочисленные многотомные электронные архивы. Основное назначение таких систем - оперативная обработка и они не могут себе позволить роскошь хранить данные более чем за несколько месяцев. После того как данные устаревают, они выгружаются и вычищаются из оперативной БД.
В любой организации
Данные, порожденные в результате функционирования корпоративных СОД - это только часть информации необходимой для принятия корректного бизнес решения. Организация живет и функционирует в реальном мире. Включение в аналитическую систему данных из различных электронных статистических сборников (как общедоступных, так и коммерческих), прогнозов развития регионов и областей экономики, законодательной базы, позволяет по новому взглянуть на многие закономерности, выявленные в процессе анализа внутренних данных.
Автором концепции Хранилищ Данных (Data Warehouse) является Б.Инмон, который определил Хранилища Данных как: “предметно ориентированные, интегрированные, неизменчивые, поддерживающие хронологию наборы данных, организованные для целей поддержки управления”, призванные выступать в роли “единого и единственного источника истины” обеспечивающего менеджеров и аналитиков достоверной информацией необходимой для оперативного анализа и принятия решений.
В основе концепции Хранилищ Данных лежат две основополагающие идеи:
Основные требования к данным в Хранилище Данных:
Для правильного понимания данной концепции необходимо понимание следующих принципиальных моментов:
Без поддержки хронологии
(наличия исторических данных) нельзя
говорить о решении задач
OLAP –технологии
Термин OLAP (или FASMI - быстрый анализ распределенной многомерной информации) обозначает методы, которые дают возможность пользователям многомерных баз данных в реальном времени генерировать описательные и сравнительные сводки ("views") данных и получать ответы на различные другие аналитические запросы. Обратите внимание, что несмотря на свое название, этот метод не подразумевает интерактивную обработку данных (в режиме реального времени); он означает процесс анализа многомерных баз данных (которые, в частности, могут содержать и динамически обновляемую информацию) путем составления эффективных "многомерных" запросов к данным различных типов. Хотя методы добычи данных можно применять к любой, предварительно не обработанной и даже неструктурированной информации, их можно также использовать для анализа данных и отчетов, полученных средствами OLAP, с целью более углубленного исследования, как правило, в более высоких размерностях. В этом смысле методы добычи данных можно рассматривать как альтернативный аналитический подход (служащий иным целям, нежели OLAP) или как аналитическое расширение систем OLAP.
Средства OLAP могут быть встроены в корпоративные (масштаба предприятия) системы баз данных и позволяют аналитикам и менеджерам следить за ходом и результативностью своего бизнеса или рынка в целом (например, за различными сторонами производственного процесса или количеством и категориями совершенных сделок по разным регионам). Анализ, проводимый методами OLAP может быть как простым (например, таблицы частот, описательные статистики, простые таблицы), так и достаточно сложным (например, он может включать сезонные поправки, удаление выбросов и другие способы очистки данных).
В основе концепции OLAP лежит принцип многомерного представления данных. В 1993 году в статье [11] E. F. Codd рассмотрел недостатки реляционной модели, в первую очередь указав на невозможность «объединять, просматривать и анализировать данные с точки зрения множественности измерений, то есть самым понятным для корпоративных аналитиков способом».
Требования к
средствам оперативной
Аналитик должен иметь возможность выполнять анализ в рамках общей концептуальной схемы, но при этом данные могут оставаться под управлением оставшихся от старого наследства СУБД, будучи при этом привязанными к общей аналитической модели. Инструментарий OLAP должен накладывать свою логическую схему на физические массивы данных, выполняя все преобразования, требующиеся для обеспечения единого, согласованного и целостного взгляда пользователя на информацию.
большая часть данных, требующих
оперативной аналитической
все измерения данных должны быть равноправны. Дополнительные характеристики могут быть предоставлены отдельным измерениям, но поскольку все они симметричны, данная дополнительная функциональность может быть предоставлена любому измерению.
Базовая структура данных, формулы и форматы отчетов не должны опираться на какое-то одно измерение.
инструмент OLAP должен обеспечивать
оптимальную обработку
зачастую несколько аналитиков имеют необходимость работать одновременно с одной аналитической моделью или создавать различные модели на основе одних корпоративных данных. Инструмент OLAP должен предоставлять им конкурентный доступ, обеспечивать целостность и защиту данных.
каждое из этих измерений
должно допускать практически
Классификация продуктов OLAP по способу представления данных . Все продукты OLAP делятся на три класса по типу исходной БД :
Структуры данных в хранилище
Схема звезды является практически реляционным воплощением многомерного представления данных — основы OLAP. Такая модель наиболее адекватна представлениям о предметной области, которыми оперирует пользователь ИСАД — аналитик или управленец. Пространственная модель описывает данные о предметной области как n-мерный метакуб или n-мерную таблицу. В ячейках метакуба находятся количественные показатели (меры). Каждая ячейка описывается рядом атрибутов, образующих оси координат (измерения).
Модель данных состоит из двух типов таблиц: одной таблицы фактов (fact table) - центр “звезды” - и нескольких таблиц измерений (dimension table) по числу измерений в модели данных - лучи “звезды”.
Таблица фактов обычно содержит одну или несколько колонок типа DECIMAL, дающих числовую характеристику какому-то аспекту деятельности компании (например, объем продаж для торговой компании или сумма платежей для банка), и несколько целочисленных колонок-ключей для доступа к таблицам измерений.
Таблицы измерений расшифровывают ключи, на которые ссылается таблица фактов; например, таблица “products” измерения “товары” может содержать сведения о названии товара, его производителе, типе товара. За счет использования специальной структуры таблицы измерений реализуется иерархия измерений, в том числе ветвящаяся.
Структуры данных в хранилище. Пример организации типа «звезда»:
Интеллектуальный анализ данных (ИАД) обычно определяют как метод поддержки принятия решений, основанный на анализе зависимостей между данными. Процессы ИАД подразделяются на три большие группы: поиск зависимостей (discovery), прогнозирование (predictive modelling) и анализ аномалий (forensic analysis). Поиск зависимостей состоит в просмотре базы данных с целью автоматического выявления зависимостей. Проблема здесь заключается в отборе действительно важных зависимостей из огромного числа существующих в БД. Прогнозирование предполагает, что пользователь может предъявить системе записи с незаполненными полями и запросить недостающие значения. Система сама анализирует содержимое базы и делает правдоподобное предсказание относительно этих значений.
Анализ аномалий - это процесс поиска подозрительных данных, сильно отклоняющихся от устойчивых зависимостей. ИАД не имеет собственного матаппарата. В системах ИАД применяется чрезвычайно широкий спектр математических, логических и статистических методов: от анализа деревьев решений (Business Objects) до нейронных сетей (NeoVista).
Интеллектуальный анализ данных
Одним из эффективных инструментов ИАД являются экспертные системы.
Правила в базе правил, вырабатываются экспертным путем на основе опыта в решении задач высококвалифицированными специалистами и представляются в формализме продукционной системы –в виде правил – продукций
Информация о работе Интеллектуальные технологии и представление знаний