Автор работы: Пользователь скрыл имя, 20 Апреля 2012 в 14:24, курсовая работа
Общее назначение множественной регрессии (этот термин был впервые использован в работе Пирсона - Pearson, 1908) состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) и зависимой переменной. Например, агент по продаже недвижимости мог бы вносить в каждый элемент реестра размер дома (в квадратных футах), число спален, средний доход населения в этом районе в соответствии с данными переписи и субъективную оценку привлекательности дома.
СОДЕРЖАНИЕ
Содержание………………………………………………………………………..2
Введение……………………………………...…………………………………...3
Теоретическая часть………………………………………………………..4
Теоретические основы прикладного регрессионного анализа......….
Проверка предпосылок и предположений регрессионного анализа…………………………………………………………….…...8
Проверка случайности ………..............……………………….9
Проверка стационарности……………………………………...12
Обнаружение выбросов в выборке ……….…………….…….…… .14
Мультиколлинеарность переменных………………………………..15
Рекомендации по устранению мультиколлинеарности……...16
Доверительные интервалы для уравнения регрессии ..……...17
Определение доверительного интервала для истинного значения уравнения регрессии………..……………………….18
Свойства доверительных интервалов…………………………19
Адекватность модели…………………………………………….....20
Практическая часть……………………………………………………….21
Вывод……………………………………………………………………………..32
Список литературы……………
и дисперсией
(3.2)
Здесь – число наблюдений со знаком (+), – число наблюдений со знаком (–).
Когда
соотношения (3.1) и (3.2) принимают вид
Для решения второй подзадачи используется метод последовательных разностей. Элементы исследуемой выборки располагаются в порядке получения наблюдений и для них вычисляются выборочные среднее и дисперсия
Определяют разности между соседними наблюдениями
и математическое ожидание квадрата разности
где – оценка генеральной дисперсии.
Фактическая величина критерия случайности выборки
Теоретическое значение критерия
При для конкретного N гипотеза случайности отвергается.
1.2.2 Проверка стационарности
Анализ
случайных процессов может
Поскольку на практике проверка по ансамблю достаточно длинных выборочных реализаций неосуществима, то для использования тестов проверки стационарности процесса принимается ряд допущений:
а) проверка заключается в исследовании поведения не ансамбля, а его отдельных реализаций; это означает, что доказательство внутренней стационарности отдельных реализаций может служить доказательством стационарности случайного процесса, которому принадлежит эта реализация;
б)
для большинства процессов
в) на практике часто стационарность автокорреляционной функции обеспечивается стационарностью дисперсии.
Учитывая эти допущения, проверку стационарности осуществляют исследованием одной реализации .
Для
этого реализация делится на N
равных интервалов таких, что её участки
в пределах каждого интервала можно считать
независимыми. Для всех интервалов вычисляются
средние значения и средние значения квадратов,
из которых составляются две последовательности
и затем их проверяют на наличие тренда.
Если известно выборочное распределение, то для проверки можно использовать существующие непараметрические критерии (t-критерий Стьюдента, -критерий Пирсона, F-критерий Фишера), однако в обычной ситуации проверка стационарности осуществляется при высокой неопределенности относительно исследуемого процесса. В этом случае целесообразно использовать непараметрические критерии, например, критерий серий и критерий тренда
Критерий тренда основан на подсчете числа случаев, когда для в последовательности N наблюденных значений величины x.
Такое неравенство называется инверсией, а их число k определяется из соотношения
где
Число
инверсий есть также случайная величина
со средним
и дисперсией
Область принятия гипотезы ограничена интервалом .
Критерий
тренда обладает большей мощностью
при выявлении монотонного
Критерии проверки гипотезы стационарности обладают рядом особенностей:
1)
Нет необходимости знать
2)
Не требуется точно знать
3)
Для проверки не обязательно,
чтобы исследуемые процессы
1.3 Обнаружение выбросов в выборке
Выбросом
среди остатков представляет собой
остаток, который значительно
Для
обнаружения выбросов необходимо построить
график остатков, определённых по формуле
В
случае если
, данная точка будет характеризовать
выброс. Следует отметить, что иногда выброс
может дать полезную информацию. В этом
случае необходимо более тщательное исследование
выбросов, а не механическое их отбрасывание.
Выбросы должны быть исключены сразу если
выясняется, что они вызваны такими причинами,
как ошибки в регистрации данных, неудовлетворительная
настройка аппаратуры и т.д. Если имеется
не одно аномальное измерение, то критерий
их не обнаруживает, особенно если
анализируется менее 30 измерений.
1.4
Мультиколлинеарность
Одно из основных предположений регрессионного анализа относится к матрице исходных данных: среди независимых переменных не должно быть линейно зависимых. Это требование необходимо для вычисления оценки методом наименьших квадратов.
Мультиколлинеарность приводит к:
1)снижению
точности, дисперсия оценок
2)оценки
коэффициентов становятся
Причиной мультиколлинеарности могут служить:
1) наличие автокорреляции в ряду наблюдений;
2) корреляция между переменными;
3) высокий уровень помех.
Под
мультиколлинеарностью будем
(3.3)
Когда
равенство (3.3) имеет место, говорят
о строгой
При наличии мультиколлинеарности оценки МНК становятся положительными, т.е. дисперсия оценок будет весьма большой. При наличии (3.3) матрица становится плохо обусловленной, в частности , т.е. .
1.4.1 Рекомендации
по устранению
Наиболее простой способ устранения мультиколлинеарности – исключение одной переменной из пары переменных, коэффициент корреляции между которыми больше 0,8.
Простейшие
рекомендации по устранению мультиколлинеарности
сводятся к сокращению рассматриваемого
множества объясняющих
Чтобы
избежать нежелательных эффектов мультиколлинеарности,
сохранив при этом весь интересующий
нас набор объясняющих
Часто для устранения мультиколлинеарности используют приемы, основанные на предварительном преобразовании исходных данных путем получения отклонений от тренда. Однако, регрессионная модель, полученная благодаря таким преобразованиям, слабо поддается интерпретации. Иногда используют априорную информацию об имеющихся между параметрами связях в виде ограничений при вычислении оцениваемых параметров регрессии. За исключением простейших случаев, реализация этих подходов достигается существенным усложнением вычислительной процедуры нахождения оценок.
Широкое
распространение получили методы устранения
мультиколлинеарности, основанные на
замене исходного множества
В тех случаях, когда перечень объясняющих переменных регрессионной модели слишком велик, рекомендуется разделить их на группы высоко коррелированных и в каждой группе построить обобщающие факторы в виде главной компоненты, которые далее используются как новые переменные строящейся модели.
1.4.2 Доверительные
интервалы для уравнения
Для
проведения углубленного анализа уравнения
регрессии прежде всего необходимо
убедиться в том, что вектор ошибок
Е распределен по нормальному
закону. Для построения доверительных
интервалов коэффициентов модели, предсказанных
значений уравнения регрессии, среднего
значения используются стандартные
статистические распределения, требующие
нормальности распределений.
1.4.3 Определение доверительного интервала для истинного значение уравнения регрессии
Определение доверительного интервала сводится к отысканию интервала, в котором с вероятностью содержится истинное значение , соответствующее некоторому опыту из матрицы наблюдений .
Другими словами, имеется интервал, в котором с заданной вероятностью находится линия регрессии.
Подставляя
в эмпирическое уравнение регрессии
получим оценки
для каждого наблюдения
вида:
Различие между и объясняется действием различных ошибок.
Отметим,
что
имеет случайный характер, оценки
и
распределены нормально с параметрами
Можно
утверждать, что
. Другими словами y является состоятельной
оценкой истинного значения
, соответствующего опыту
, т.е. при неограниченном числе опытов
эмпирическая линия регрессии совпадает
с действительной зависимостью
Составляя
дробь Стьюдента, получаем:
.
Задавшись
уровнем значимости
и найдя табличное значение
можно построить достоверный интервал
для
в виде
.
1.4.4
Свойства доверительных
а) Доверительный интервал симметричен относительно выборочной оценки ;
б) Ширина доверительного интервала зависит от и ;