Автор работы: Пользователь скрыл имя, 19 Декабря 2010 в 23:04, курсовая работа
Задачами работы являются:
- изучение построения уравнения множественной регрессии;
- изучение множественной корреляциии
-включение факторов в уравнение множественной регрессии
- проверка качества построенной модели
- оценка мультиколлинеарности факторов
- оценка гетероскедастичности
- рассмотрение изучаемой темы на практических примерах
Введение 3
1. Множественная регрессия 6
2. Множественная корреляция 8
3. Включение факторов в уравнение множественной регрессии 10
4. Проверка качества построенной модели 13
5. Оценка мультиколлинеарности факторов 14
6. Оценка гетероскедастичности 16
Практическая часть 18
Пример 1 18
Пример 2 23
Заключение 32
Список литературы 34
По величине парных коэффициентов корреляции может обнаруживаться лишь явная коллинеарность факторов. Наибольшие трудности в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, т.е. имеет место совокупное воздействие факторов друг на друга.
Качество
построенной модели в целом оценивает
коэффициент (индекс) детерминации. Коэффициент
множественной детерминации рассчитывается
как квадрат индекса множественной корреляции:
Скорректированный
индекс множественной детерминации
содержит поправку на число степеней
свободы и рассчитывается по формуле:
где n-число наблюдений;
m
– число факторов.
Значимость
уравнения множественной
Частный
F-критерий оценивает статистическую значимость
присутствия каждого факторов в уравнении.
В общем виде для фактора
частный F-критерий определится как
Оценка
значимости коэффициентов чистой регрессии
с помощью t-критерия Стьюдента сводится
к вычислению значения
где
- средняя квадратичная ошибка коэффициента
регрессии
она может быть определена по следующей
формуле:
При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов, их тесной линейной связанности.
Считается, что две переменные явно коллинеарны, т. е. находятся между собой в линейной зависимости, если
По величине парных
Наличие мультиколлинеарности факторов может означать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой и нельзя оценить воздействие каждого фактора в отдельности. Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов (МНК).7
Для оценки мультиколлинеарности факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами.
Если
бы факторы не коррелировали между
собой, то матрица парных коэффициентов
корреляции между факторами была
бы единичной матрицей, поскольку все
недиагональные элементы
были бы равны нулю. Так, для включающего
три объясняющих переменных уравнения
матрица коэффициентов корреляции между факторами имела бы определитель, равный 1:
так как и .
Если же, наоборот, между факторами существует полная линейная зависимость и все коэффициенты корреляции равны 1, то определитель такой матрицы равен 0:
.
Чем
ближе к 0 определитель матрицы межфакторной
корреляции, тем сильнее
Проверка мультиколлинеарности факторов может быть проведена методом испытания гипотезы о независимости переменных . Доказано, что величина имеет приближенное распределение с степенями свободы. Если фактическое значение превосходит табличное (критическое) , то гипотеза отклоняется. Это означает, что , недиагональные ненулевые коэффициенты корреляции указывают на коллинеарность факторов. Мультиколлинеарность считается доказанной.9
Для применения МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это значит, что для каждого значения фактора остатки имеют одинаковую дисперсию. Если это условие не соблюдается, то имеет место гетероскедастичность.
При нарушении гомоскедастичности мы имеем неравенства
При малом объеме выборки для оценки гетероскедастичности может использоваться метод Гольдфельда-Квандта. Основная идея теста Гольдфельда-Квандта состоит в следующем:10
1) упорядочение наблюдений по мере возрастания переменной ;
2) исключение из рассмотрения центральных наблюдений; при этом
-число оцениваемых параметров;
3) разделение совокупности из наблюдений на две группы (соответственно с малыми и с большими значениями фактора ) и определение по каждой из групп уравнений регрессии;
4) определение остаточной суммы квадратов для первой и второй групп и нахождение их отношения: .
При
выполнении нулевой гипотезы о гомоскедастичности
отношение R будет удовлетворять F-критерию
со степенями свободы
для каждой остаточной суммы квадратов.
Чем больше величина R превышает табличное
значение F-критерия, тем более нарушена
предпосылка о равенстве дисперсий остаточных
величин.11
По 30 территориям России имеются данные, представленные в табл. 1.
Таблица 1
Признак | Среднее значение | Среднее квадратическое отклонение | Линейный коэффициент парной корреляции |
Среднедневной
душевой доход,
руб., y |
86,8 | 11,44 | - |
Среднедневная заработная плата одного работающего, руб., x1 | 54,9 | 5,86 | |
Средний
возраст безработного,
лет, x2 |
33,5 | 0,58 |
Требуется:
1. Построить уравнение множественной регрессии в стандартизованной и естественной форме; рассчитать частные коэффициенты эластичности, сравнить их с b1 и b2 , пояснить различия между ними.
2. Рассчитать линейные коэффициенты частной корреляции и коэффициент множественной корреляции, сравнить их с линейными коэффициентами парной корреляции, пояснить различия между ними.
3.
Рассчитать общий и частные F-критерии
Фишера.
Решение
1. Линейное уравнение множественной регрессии y от х1 и х2 имеет вид: . Для расчета его параметров применим метод стандартизации переменных и построим искомое уравнение в стандартизованном масштабе: .
Расчет b-коэффициентов
выполним по формулам
Получим уравнение:
Для
построения уравнения в естественной
форме рассчитаем
и
, используя формулы для перехода от
к
:
Значение
определим из соотношения
Для характеристики относительной силы влияния и на рассчитаем средние коэффициенты эластичности:
С
увеличением средней заработной платы
на 1% от ее среднего уровня средний
душевой доход
возрастает на 1,02% от своего среднего
уровня; при повышении среднего возраста
безработного
на 1% среднедушевой доход
снижается на 0,87% от своего среднего
уровня. Очевидно, что сила влияния средней
заработной платы
на средний душевой доход
оказалась больше, чем сила влияния
среднего возраста безработного
. К аналогичным выводам о силе связи
приходим при сравнении модулей значений
и
:
.
Различия
в силе влияния фактора на результат,
полученные при сравнении
и
, объясняются тем, что коэффициент
эластичности исходит из соотношения
средних:
а
-коэффициент - из соотношения средних
квадратических отклонений:
.
2. Линейные коэффициенты частной корреляции здесь рассчитываются по рекуррентной формуле:
;
;
.
Если
сравнить значения коэффициентов парной
и частной корреляции, то приходим к
выводу, что из-за слабой межфакторной
связи
коэффициенты парной и частной корреляции
отличаются незначительно: выводы о тесноте
и направлении связи на основе коэффициентов
парной и частной корреляции совпадают:
.
Расчет
линейного коэффициента множественной
корреляции выполним с использованием
коэффициентов
и
:
.
Зависимость
от
и
характеризуется как тесная, в которой
72% вариации среднего душевого дохода
определяются вариацией учтенных в модели
факторов: средней заработной платы и
среднего возраста безработного. Прочие
факторы, не включенные в модель, составляют
соответственно 28% от общей вариации
.
3.
Общий
-критерий проверяет гипотезу
о статистической значимости уравнения
регрессии и показателя тесноты связи
(
):
Сравнивая и , приходим к выводу о необходимости отклонить гипотезу , так как С вероятностью делаем заключение о статистической значимости уравнения в целом и показателя тесноты связи которые сформировали под неслучайным воздействием факторов и .
Частные
-критерии -
и
оценивают статистическую значимость
присутствия факторов
и
в уравнении множественной регрессии,
оценивают целесообразность включения
в уравнение одного фактора после другого
фактора, т.е.
оценивает целесообразность включения
в уравнение фактора
после того, как в него был включен
фактор
. Соответственно
указывает на целесообразность включения
в модель фактора
после фактора
: