Автор работы: Пользователь скрыл имя, 15 Сентября 2011 в 06:53, курсовая работа
Современные компьютерные технологии постепенно укрепляют свои позиции в процессе обработки статистических данных, что позволяет предприятиям и компаниям эффективнее использовать свои средства. Метод главных компонент дает возможность оценить влияние отдельных факторов на совокупность в целом. Что в свою очередь дает данные для прогнозирования и планирование издержек.
Программный продукт рассчитан в первую очередь на системных аналитиков и на людей, занимающихся статистическим анализом. Данный программный продукт должен существенно сэкономить время для выявления существенных факторов.
Введение……………………………………………………………… 2
Постановка задачи………………………………………………….....3
Системный анализ…………………………………………………….4
Проект программы......….…………………………………………….11
Тестирование и испытание ПП…………………………...………….20
Заключение………………...………………………………………….30
Список используемой литературы…………...……………………...31
Приложение………...…………………………………………………32
Федеральное агентство по образованию РФ
Байкальский
Государственный Университет
Факультет экономической кибернетики
Кафедра
информатики и кибернетики
КУРСОВОЙ
ПРОЕКТ
программа
реализации метода гЛАвных
компонент «МГК»
Автор: Леонов Е.Р.
ИС-07-1
Руководитель:
Пешкова О.В.
Иркутск
2009
Оглавление
Введение…………………………………………………………
Постановка задачи…………………………………
Системный анализ…………………………………………………….4
Проект программы......….………………
Тестирование и испытание ПП…………………………...………….20
Заключение………………...……………………………
Список используемой литературы…………...……………………...31
Приложение………...……………………………………
Введение
Современные компьютерные технологии постепенно укрепляют свои позиции в процессе обработки статистических данных, что позволяет предприятиям и компаниям эффективнее использовать свои средства. Метод главных компонент дает возможность оценить влияние отдельных факторов на совокупность в целом. Что в свою очередь дает данные для прогнозирования и планирование издержек.
Программный продукт рассчитан в первую очередь на системных аналитиков и на людей, занимающихся статистическим анализом. Данный программный продукт должен существенно сэкономить время для выявления существенных факторов.
Постановка задачи
Целью данной курсовой работы является создание и документирование программы реализующей «Метод главных компонент» и выявляющая признаки, вносящие наибольший вклад в исходную совокупность. Метод предназначен для автоматизации процесса факториального анализа.
Во время реализации курсового проекта необходимо:
Системный анализ
О сущности
задач снижения размерности
В
исследовательских и
Желание
статистика представить каждое из наблюдений
в виде вектора некоторых
Метод главных
компонент
Во
многих задачах обработки многомерных
наблюдений исследователя интересуют
лишь те признаки, которые обнаруживают
наибольшую изменчивость при переходе
от одного объекта к другому.
С
другой стороны совсем необязательно
для описания состояния объекта
использовать какие-то из исходных признаков.
Так, например, для определения специфики
фигуры человека при покупке одежды
достаточно назвать значения двух признаков
– рост-размер – являющихся производными
от измерения ряда параметров фигуры.
При этом, конечно, теряется какая-то доля
информации (портной замеряет до одиннадцати
параметров). Однако к удовлетворительно
классификации людей в зависимости от
специфики фигуры приводит система, использующая
три параметра, каждый из которых является
некоторой комбинацией от большего числа
признаков, замеренных на объекте параметров
Именно
эти принципиальные установки заложены
в сущность того линейного преобразования
исходной системы признаков, которое
приводит к главным компонентам.
Определение главных компонент
Главная
компонента - нормировано-центрированная
линейная комбинация показателей исследуемой
системы.
Первая
главная компонента - нормировано-центрированная
линейная комбинация показателей исследуемой
системы, которая среди прочих нормировано-центрированных
линейных комбинаций обладает наибольшей
дисперсией.
К-ая
главная компонента – такая нормировано-
Вычисление главных компонент
Из определения главных компонент следует, что дл вычисления первой главной компоненты необходимо решить оптимизационную задачу вида:
Где l1 - первая строка матрицы L (матрицы главных компонент).
Учитывая центрированность переменной Х и то что Е(ХХТ) = Σ получаем
D (l1 X) = E (l1 X)2 = E(l1XXT ) = l1 Σ
где Σ – ковариационная матрица исходных параметров.
Исходя из этого можем переписать задачу в виде
Вводя функцию Лагранжа и дифференцируя ее по компонентам вектора-столбца , имеем:
Что
дает систему уравнений для
(Σ
– λI)
=0 , где I- единичная матрица
Для того чтобы существовало ненулевое решение (в силу ограничения l1 =1), матрица (Σ – λI) должна быть вырожденной, то есть ее определитель должен быть равен нулю
|Σ – λI|=0
Этого добиваются подбором соответствующих значений λ. Уравнение такого вида называется характеристическим для матрицы Σ. Известно, что для матрицы ковариаций Σ, построенной для центрированных и нормированных исходных параметров, в силу своей симметричности и неотрицательнности, характеристическое уравнение имеет столько вещественных неотрицательных корней, сколько было исходных признаков (m), причем сумма корней в точности равна количеству исходных признаков.
и
Полученные характеристические числа показывают величину дисперсии каждой из компонент. Выбирая наибольшее, мы получаем Первую главную компоненту и так далее.
Полагая λ1 наибольшей дисперсией из всей совокупности, подставляем значение в однородную систему уравнений (Σ – λI) =0 и решая ее, определяем компоненты вектора l1.
Таким
образом первая главная компонента
получается как линейная комбинация
z(1) (X) = l1Х
, где l1 – собственный вектор
матрицы Σ, соответствующий наибольшему
собственному числу этой матрицы.
Далее
аналогично можно показать что
z(k) (X) = lkХ
, где lk – собственный вектор
матрицы Σ, соответствующий k-му по величине
собственному числу.
Матрица нагрузок
Матрица
нагрузок А , главных компонент на
исходные признаки также является важной
характеристикой главных
Матрица нагрузок определяется соотношением
где
Свойства матрицы нагрузки
Сумма
квадратов элементов j-ого столбца
равна дисперсии j-ой главной компоненты.
Сумма
квадратов элементов любой
Приведенные
свойства используются при содержательной
интерпретации главных компонент.
Свойство
наименьшей ошибки “автопрогноза” и
наилучшей
Можно
показать, что с помощью первых
m' главных компонент исходных признаков
достигается наилучший прогноз этих
признаков среди всех прогнозов, которые
можно построить с помощью m линейных комбинаций
набора из m' произвольных признаков.
Пусть требуется заменить исходный исследуемый m-мерный вектор Х на вектор Z меньшей размерности m', теряя при этом не слишком много информации. Информативность нового вектора определим таким образом, чтобы она зависела от того, в какой степени m' введенных вспомогательных переменных дают возможность «реконструировать» m исходных признаков с помощью подходящих линейных комбинаций. Ошибка прогноза X по Z (обозначим через σ) будет определятся так называемой остаточной дисперсионной матрицей вектора Х при вычитании из него наилучшего прогноза по Z, т.е. матрицей Δ= (Δij), где
Здесь
- наилучший, в смысле метода наименьших
квадратов, прогноза x(i) по компонентам.
Ошибка σ прогноза X по Z задается как функция
от элементов матрицы Δ, f(Δ) определяет
некоторый критерий качества предсказания.
Здесь tr(Δ) и || Δ|| - соответственно след и евклидова норма матрица Δ. Доказано что f(Δ) достигает минимума (в обоих представлениях одновременно) тогда и только тогда, когда в качестве компонент выбраны первые m' главных компонент.
Описание методов и алгоритмов
Для выявления признаков, в большей мере влияющих на исходную совокупность, требуется:
Информация о работе Программа реализации метода главных компонент "МГК"