Программа реализации метода главных компонент "МГК"

Автор работы: Пользователь скрыл имя, 15 Сентября 2011 в 06:53, курсовая работа

Краткое описание

Современные компьютерные технологии постепенно укрепляют свои позиции в процессе обработки статистических данных, что позволяет предприятиям и компаниям эффективнее использовать свои средства. Метод главных компонент дает возможность оценить влияние отдельных факторов на совокупность в целом. Что в свою очередь дает данные для прогнозирования и планирование издержек.
Программный продукт рассчитан в первую очередь на системных аналитиков и на людей, занимающихся статистическим анализом. Данный программный продукт должен существенно сэкономить время для выявления существенных факторов.

Содержание работы

Введение……………………………………………………………… 2
Постановка задачи………………………………………………….....3
Системный анализ…………………………………………………….4
Проект программы......….…………………………………………….11
Тестирование и испытание ПП…………………………...………….20
Заключение………………...………………………………………….30
Список используемой литературы…………...……………………...31
Приложение………...…………………………………………………32

Содержимое работы - 1 файл

курсач леонов.doc

— 447.50 Кб (Скачать файл)

Федеральное агентство по образованию РФ

Байкальский Государственный Университет Экономики  и Права

Факультет экономической кибернетики

Кафедра информатики и кибернетики 
 
 
 
 
 
 
 
 
 
 
 

КУРСОВОЙ  ПРОЕКТ 

программа реализации метода гЛАвных  компонент «МГК» 
 
 
 
 
 
 
 
 
 

                    Автор:   Леонов Е.Р.

                       ИС-07-1 
                       

                      Руководитель: Пешкова О.В. 
                       
                       

Иркутск

2009

 

Оглавление 

Введение……………………………………………………………… 2

Постановка задачи………………………………………………….....3

Системный анализ…………………………………………………….4

Проект программы......….…………………………………………….11

Тестирование и испытание ПП…………………………...………….20

Заключение………………...………………………………………….30

Список используемой литературы…………...……………………...31

Приложение………...…………………………………………………32 
 
 
 
 

 

    Введение

    Современные компьютерные технологии постепенно укрепляют  свои позиции в процессе обработки статистических данных, что позволяет предприятиям и компаниям эффективнее использовать свои средства. Метод главных компонент дает возможность оценить влияние отдельных факторов на совокупность в целом. Что в свою очередь дает данные для прогнозирования и планирование издержек.

    Программный продукт рассчитан в первую очередь  на системных аналитиков и на людей, занимающихся статистическим анализом. Данный программный продукт должен существенно сэкономить время для выявления существенных факторов.

 

    

Постановка задачи

    Целью данной курсовой работы является создание и документирование программы реализующей  «Метод главных компонент» и выявляющая признаки, вносящие наибольший вклад  в исходную совокупность. Метод предназначен для автоматизации процесса факториального анализа. 

    Во  время реализации курсового проекта  необходимо:

    • Провести системный анализ, включающий
      • Описание предметной области
      • Описание методов и алгоритмов реализации
      • Анализ и выбор средств разработки
    • Разработать проект программы, содержащий
      • Структуру и функции программы
      • Схемы, описывающие взаимосвязи объектов
      • Интерфейс программы
    • Разработать программу
    • Провести тестирование и отладку программы
    • Составить комплекты эксплуатационной и технологической документации.

 

Системный анализ

О сущности задач снижения размерности 

     В исследовательских и практических статистических работах приходится сталкиваться с ситуациями, когда  общие число признаков, регистрируемых на каждом из множества обследуемых  объектов, очень велико – порядка  сотни и более. Тем не менее, имеющиеся многомерные наблюдения следует подвергнуть статистической обработке. 

     Желание статистика представить каждое из наблюдений в виде вектора некоторых вспомогательных  наблюдений с существенно меньшим  числом компонент бывает обусловлено рядом причин:

  • Необходимость наглядного представления исходных данных;
  • стремление к  лаконизму исследуемых моделей, обусловленному необходимостью упрощения счета и интерпретации полученных статистических выводов;
  • необходимость существенного сжатия объемов хранимой информации без видимых потерь в ее информативности.
 

Метод главных  компонент 

     Во  многих задачах обработки многомерных  наблюдений исследователя интересуют лишь те признаки, которые обнаруживают наибольшую изменчивость при переходе от одного объекта к другому. 

     С другой стороны совсем необязательно  для описания состояния объекта  использовать какие-то из исходных признаков. Так, например, для определения специфики  фигуры человека при покупке одежды достаточно назвать значения двух признаков  – рост-размер – являющихся производными от измерения ряда параметров фигуры. При этом, конечно, теряется какая-то доля информации (портной замеряет до одиннадцати параметров). Однако к удовлетворительно классификации людей в зависимости от специфики фигуры приводит система, использующая три параметра, каждый из которых является некоторой комбинацией от большего числа признаков, замеренных на объекте параметров 

     Именно  эти принципиальные установки заложены в сущность того линейного преобразования исходной системы признаков, которое приводит к главным компонентам. 

Определение главных компонент

     Главная компонента - нормировано-центрированная линейная комбинация показателей исследуемой  системы. 

     Первая  главная компонента - нормировано-центрированная линейная комбинация показателей исследуемой системы, которая среди прочих нормировано-центрированных линейных комбинаций обладает наибольшей дисперсией. 

     К-ая главная компонента – такая нормировано-центрированная линейная комбинация показателей исследуемой  системы, которая не коррелированна с k-1 предыдущими главными компонентами и среди прочих нормировано-центрированных и некоррелированных с предыдущими k-1 главными компонентами обладает наибольшей дисперсией.   
 

Вычисление  главных компонент

     Из  определения главных компонент следует, что дл вычисления первой главной компоненты необходимо решить оптимизационную задачу вида:

     Где l-  первая строка матрицы L (матрицы главных компонент).

     Учитывая  центрированность переменной Х и  то что Е(ХХТ) = Σ получаем

     D (l1 X) = E (l1 X)2 = E(l1XXT ) = l1 Σ

     где Σ – ковариационная матрица исходных параметров.

     Исходя  из этого можем переписать задачу в виде

 

     Вводя функцию Лагранжа и дифференцируя ее по компонентам вектора-столбца , имеем:

     

     Что дает систему уравнений для определения  l1:

     (Σ  – λI) =0 , где I- единичная матрица 

     Для того чтобы существовало ненулевое решение (в силу ограничения l1 =1), матрица (Σ – λI) должна быть вырожденной, то есть ее определитель должен быть равен нулю

     |Σ  – λI|=0

     Этого добиваются подбором соответствующих  значений λ. Уравнение такого вида называется характеристическим для матрицы Σ. Известно, что для матрицы ковариаций Σ, построенной для центрированных и нормированных исходных параметров, в силу своей симметричности и неотрицательнности, характеристическое уравнение имеет столько вещественных неотрицательных корней, сколько было исходных признаков (m), причем сумма корней в точности равна количеству исходных признаков.

           и   

     Полученные  характеристические числа показывают величину дисперсии каждой из компонент. Выбирая наибольшее, мы получаем Первую главную компоненту и так далее.

     Полагая λ1 наибольшей дисперсией из всей совокупности, подставляем значение в однородную систему уравнений (Σ – λI) =0 и решая ее, определяем компоненты вектора l1.

     Таким образом первая главная компонента получается как линейная комбинация z(1) (X) = l1Х , где l1 – собственный вектор матрицы Σ, соответствующий наибольшему собственному числу этой матрицы. 

     Далее аналогично можно показать что  z(k) (X) = lkХ , где lk – собственный вектор матрицы Σ, соответствующий k-му по величине собственному числу.  
 
 
 

Матрица нагрузок

     Матрица нагрузок А , главных компонент на исходные признаки также является важной характеристикой главных компонент. Если анализируемые переменные Х предварительно пронормированы и процентрированы, то элементы иатрицы нагрузок определябт одновременно степень тесноты парной линейной связи (парный коэффициент корреляции) и удельный вес влияния пронормиронной j-й главной компоненты на признак х. 

     Матрица нагрузок определяется соотношением

где

 

Свойства  матрицы нагрузки

     Сумма квадратов элементов j-ого столбца  равна дисперсии j-ой главной компоненты. 

     Сумма квадратов элементов любой строки равна 1. 

     Приведенные свойства используются при содержательной интерпретации главных компонент.  
 

Свойство  наименьшей ошибки “автопрогноза” и  наилучшей самовоспроизводимости.

     Можно показать, что с помощью первых m' главных компонент исходных признаков  достигается наилучший прогноз этих признаков среди всех прогнозов, которые можно построить с помощью m линейных комбинаций набора из m' произвольных признаков. 

     Пусть требуется заменить исходный исследуемый m-мерный вектор Х на вектор Z меньшей  размерности m', теряя при этом не слишком много информации. Информативность нового вектора определим таким образом, чтобы она зависела от того, в какой степени m' введенных вспомогательных переменных дают возможность «реконструировать» m исходных признаков с помощью подходящих линейных комбинаций. Ошибка прогноза X по Z (обозначим через σ) будет определятся так называемой остаточной дисперсионной матрицей вектора Х при вычитании из него наилучшего прогноза по Z, т.е. матрицей Δ= (Δij), где

 

     Здесь - наилучший, в смысле метода наименьших квадратов, прогноза x(i) по компонентам. Ошибка σ прогноза X по Z задается как функция от элементов матрицы Δ, f(Δ) определяет некоторый критерий качества предсказания. 

     

       

     Здесь tr(Δ) и || Δ|| - соответственно след и евклидова  норма матрица Δ. Доказано что  f(Δ) достигает минимума (в обоих представлениях одновременно) тогда и только тогда, когда в качестве компонент выбраны первые m' главных компонент.

 

Описание методов и алгоритмов

     Для выявления признаков, в большей  мере влияющих на исходную совокупность, требуется:

Информация о работе Программа реализации метода главных компонент "МГК"