Автор работы: Пользователь скрыл имя, 20 Апреля 2012 в 14:24, курсовая работа
Общее назначение множественной регрессии (этот термин был впервые использован в работе Пирсона - Pearson, 1908) состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) и зависимой переменной. Например, агент по продаже недвижимости мог бы вносить в каждый элемент реестра размер дома (в квадратных футах), число спален, средний доход населения в этом районе в соответствии с данными переписи и субъективную оценку привлекательности дома.
СОДЕРЖАНИЕ
Содержание………………………………………………………………………..2
Введение……………………………………...…………………………………...3
Теоретическая часть………………………………………………………..4
Теоретические основы прикладного регрессионного анализа......….
Проверка предпосылок и предположений регрессионного анализа…………………………………………………………….…...8
Проверка случайности ………..............……………………….9
Проверка стационарности……………………………………...12
Обнаружение выбросов в выборке ……….…………….…….…… .14
Мультиколлинеарность переменных………………………………..15
Рекомендации по устранению мультиколлинеарности……...16
Доверительные интервалы для уравнения регрессии ..……...17
Определение доверительного интервала для истинного значения уравнения регрессии………..……………………….18
Свойства доверительных интервалов…………………………19
Адекватность модели…………………………………………….....20
Практическая часть……………………………………………………….21
Вывод……………………………………………………………………………..32
Список литературы……………
в) Ширина доверительного интервала минимальна, если , (ортогональны);
г) Ширина доверительного интервала равна бесконечности, если:
вектор-столбцы
и
в матрице наблюдений
коллинеарные, т.е.если:
д)
В общем случае в регрессионных
уравнениях доверительный интервал
для отдельно взятого регрессионного
коэффициента
определяется выражением
1.5 Адекватность модели
Существует соотношение, которое можно использовать для оценки адекватности модели, сравнивая и . Расчетное определяется по формуле (3.4)
Табличное
значение
берется с таблиц с определенным числом
степенем свобода и для притятого уровня
значимості
.Если расчетное значение
більше
, то это значит, что дисперсия MSR
статистически меньше дисперсии MSD относительно
,в этом случае полученное уравнение
регрессии можно считать дееспособным.
2. ПРАКТИЧЕСКАЯ ЧАСТЬ
Поставлена следующая задача: построить зависимость количества выигранных голов от характеристик сыгранных игр на основе модели множественной регрессии.
На
основе имеющейся выборки сделаем
следующие оценки:
2)оценки: множественный коэффициент корреляции R, R2 ,F, p, и Std Error of estimate:
3) график для вычисленных значений и исходных:
К такому ряду можно применить модель линейной регрессии, так как он стационарный; 4)построение регрессии:
По графику видно, что в целом модель адекватна: практически все значения легли на линию регрессии;
5)гистограммы
исходных и вычисленных
Множественная регрессия с двумя переменными
Модель
множественной регрессии вида Y = b0 +b1X1 +
b2X2;
1) Найтинеизвестные b0, b1,b2 можно,
решим систему трехлинейных уравнений
с тремя неизвестными b0,b1,b2:
Для решения системы можете воспользоваться решение системы методом
Крамера
2) Или использовав формулы
Для этого строим таблицу вида:
|
Выборочные
дисперсии эмпирических коэффициентов
множественной регрессии можно
определить следующим образом:
Здесь z'jj - j-тый диагональный элемент
матрицы Z-1 =(XTX)-1.
Приэтом:
где m - количество объясняющихпеременных
модели.
В частности, для уравнения множественной
регрессии
Y = b0 + b1X1 + b2X2
с двумя
объясняющими переменными используются
следующие формулы:
Или
или
,
,
.
Здесьr12 - выборочный коэффициент
корреляции между объясняющимипеременными
X1 и X2; Sbj - стандартная
ошибкакоэффициента регрессии; S - стандартная
ошибка множественной регрессии (несмещенная
оценка).
По аналогии с парной регрессией после
определения точечных оценокbj коэффициентов βj
(j=1,2,…,m) теоретического уравнения множественной
регрессии могут быть рассчитаны интервальные
оценки указанных коэффициентов.
Доверительный интервал, накрывающий с надежностью (1-α) неизвестное значение параметра βj, определяется как
Под регрессией понимается функциональная зависимость между объясняющими переменными и условным математическим ожиданием (средним значением) зависимой переменной, которая строится с целью предсказания (прогнозирования) этого среднего значения при фиксированных значениях первых.
Пример решения. Множественная регрессия.
Пример решения. Множественная регрессия.
На практике
рекомендуется, чтобы n превышало k не менее,
чем в три раза. В данном случае
n = 5; k = 2;
Определим вектор оценок коэффициентов
регрессии. Согласно методу наименьших
квадратов, вектор получается из выражения:
s = (XTX)-1XTY
Матрица X
|
Матрица Y
|
Матрица XT
|
Умножаем
матрицы, (XTX)
Умножаем матрицы, (XTY)
Находим определитель det(XTX)T =
2245132
Находим обратную матрицу (XTX)-1
Вектор оценок коэффициентов
регрессии равен
s = (XTX)-1XTY =
Уравнение множественной
регрессии
Y = 11.1168-0.4642X 1 + 0.2309X 2
Для несмещенной оценки дисперсии проделаем
следующие вычисления:
Абсолютная ошибка
аппроксимации
e = Y - X*s
|
se2 = (Y - X*s)T(Y - X*s)
Несмещенная оценка
дисперсии равна
Оценка среднеквадратичного
отклонения равна
Найдем оценку ковариационной
матрицы вектора k = σ*(XTX)-1
Дисперсии параметров
множественной модели определяются
соотношением S 2i = Kii,
т.е. это элементы, лежащие на главной диагонали
С целью расширения возможностей содержательного
анализа модели регрессии используютсячастные
коэффициенты эластичности, которые
определяются по формуле
Тесноту совместного влияния факторов
на результат оценивает индекс
множественной корреляции (от 0 до 1)
Связь между признаком Y факторами X сильная
Частные коэффициенты (или
индексы) корреляции, измеряющие влияние
на у фактора хiпри неизменном уровне
других факторов определяются по стандартной
формуле линейного коэффициента корреляции
- последовательно берутся пары yx1,yx2,...
, x1x2, x1x3.. и так
далее и для каждой пары находится коэффициент
корреляции
Коэффициент детерминации
R 2= 0.99 2 = 0.97
т.е. в 97.1675 % случаев изменения х приводят
к изменению y. Другими словами - точность
подбора уравнения регрессии - высокая
Значимость коэффициента множественной
По таблице Стьюдента находим Tтабл
Tтабл (n-m-1;a) = (2;0.05) = 2.92
Поскольку Tнабл > Tтабл , то отклоняем
гипотезу о равенстве 0 коэффициента корреляции.
Другими словами, коэффициента корреляции
статистически - значим
Интервальная
оценкадля коэффициента
корреляции (доверительный
интервал)
Доверительный интервал для коэффициента
корреляции
r(0.9487;1.0227)
Проверка
гипотез относительно
коэффициентов уравнения
регрессии
1) t-статистика
Статистическая значимость коэффициента
регрессии b0 подтверждается
Статистическая значимость коэффициента
регрессии b1 подтверждается
Статистическая значимость коэффициента
регрессии b2 подтверждается
Доверительный
интервал для коэффициентов
уравнения регрессии
Определим доверительные интервалы коэффициентов
регрессии, которые с надежность 95% будут
следующими:
(bi - t i S i; bi + t i S i)
b 0: (7.5656;14.668)
b 1: (-0.6615;-0.267)
b 2: (0.1153;0.3465)
2) F-статистика. Критерий
Фишера
Fkp = 19.2
Поскольку F > Fkp, то коэффициент детерминации
статистически значим и уравнение регрессии
статистически надежно
Как и
в случае множественной регрессии,
статистическая значимость коэффициентовмножественной
регрессии с m объясняющими переменными
проверяется на основе t-статистики:
имеющей в данном случае распределение
Стьюдента с числом степеней свободы v
= n- m-1. При требуемом уровне значимости
наблюдаемое значение t-статистики сравнивается
с критической точной
распределения Стьюдента.
В случае, если
, то статистическая значимость соответствующего
коэффициента множественной регрессии
подтверждается. Это означает, что фактор
Xj линейно связан с зависимой переменной
Y. Если же установлен факт незначимости
коэффициента bj, то рекомендуется
исключить из уравнения переменную Xj.
Это не приведет к существенной потере
качества модели, но сделает ее более конкретной.
Для этой
цели, как и в случае множественной
регрессии,используется коэффициент
детерминации R2:
Справедливо
соотношение 0<=R2<=1. Чем ближе этот
коэффициент к единице, тем больше
уравнение множественной
Для множественной
регрессии коэффициент детерминации
является неубывающей функциейчисла объясняющих
переменных. Добавление новой объясняющей
переменной никогда не уменьшает значение
R2, так как каждая последующая переменная
может лишь дополнить, но никак не сократить
информацию, объясняющую поведение зависимой
переменной.
Иногда при расчете коэффициента детерминации
для получения несмещенных оценок в числителе
и знаменателе вычитаемой из единицы дроби
делается поправка на число степеней свободы,
т.е. вводится так называемый скорректированный
(исправленный) коэффициент детерминации:
Соотношение может быть представлено
в следующем виде:
для m>1. С ростом значения m скорректированный
коэффициент детерминации растет медленнее,
чем обычный.Очевидно, что
только при R2 = 1.
может принимать отрицательные значения.
Доказано, что
увеличивается при добавлении новой объясняющей
переменной тогда и только тогда, когда
t-статистика для этой переменной по модулю
больше единицы. Поэтому добавление в
модель новых объясняющих переменных
осуществляется до тех пор, пока растет
скорректированный коэффициент детерминации.
Рекомендуется после проверки общего
качества уравнения регрессии провести
анализ его статистической значимости.
Для этого используется F-статистика:
Показатели F и R2 равны или не равен нулю
одновременно. Если F=0, то R2=0, следовательно,
величина Y линейно не зависит от X1,X2,…,Xm..Расчетное
значение F сравнивается с критическим
Fкр. Fкр, исходя из требуемого уровня значимости α и
чисел степеней свободы v1 = m и v2 = n - m - 1,
определяется на основе распределения
Фишера. Если F>Fкр, то R2 статистически
значим.