Автор работы: Пользователь скрыл имя, 25 Апреля 2012 в 18:28, курсовая работа
Парные коэффициенты корреляции характеризуют взаимосвязь между двумя выбранными переменными на фоне действия остальных показателей и являются самыми распространёнными показателями тесноты связи при статистическом анализе данных.
Расчёт матрицы выборочных парных коэффициентов корреляции осуществляется в Excel с помощью пакета анализа данных.
Подготовка данных…………………………………………..…………….3
Корреляционный анализ экономических показателей…..5
Построение матрицы парных коэффициентов корреляции………5
Расчёт частных коэффициентов корреляции. Сравнение частных и парных коэффициентов корреляции……………………………11
Расчёт множественных коэффициентов корреляции……………19
Регрессионный анализ экономических показателей…………………24
3.1 Проверка исходных данных на мультиколлиниарность……………………………………………..…….25
3.2 Построение регрессионной модели и её интерпретация…………..27
3.3 Сравнение исходных данных с рассчитанными по уравнению регрессии………………………………………………………………..…40
В регрессионной статистике указываются множественный коэффициент корреляции (Множественный R) и детерминации (R-квадрат) между Y и массивом факторных признаков (что совпадает с полученными ранее значениями в корреляционном анализе).
Средняя часть таблицы (Дисперсионный анализ) необходима для проверки значимости уравнения регрессии.
Нижняя часть таблицы – точечные оценки bi генеральных коэффициентов регрессии βi, проверка их значимости и интервальная оценка.
Оценка вектора коэффициентов b (столбец Коэффициенты):
Тогда оценка уравнения регрессии имеет вид:
Необходимо проверить значимость уравнения регрессии и полученных коэффициентов регрессии.
Проверим на уровне α=0,05 значимость уравнения регрессии, т.е. гипотезу H0: β1=β2=β3=…=βk=0. Для этого рассчитывается наблюдаемое значение F-статистики:
Excel выдаёт это в результатах дисперсионного анализа:
4,703199
В столбце F указывается значение Fнабл.
По таблицам F-распределения или с помощью встроенной статистической функции FРАСПОБР для уровня значимости α=0,05 и числа степеней свободы числителя ν1=k=4 и знаменателя ν2=n-k-1=45 находим критическое значение F-статистики, равное
Так как наблюдаемое значение F-статистики превосходит ее критическое значение 4,703199> 2,578739, то гипотеза о равенстве вектора коэффициентов отвергается с вероятностью ошибки, равной 0,05. Следовательно, хотя бы один элемент вектора β=(β1,β2,β3,β4)T значимо отличается от нуля.
Проверим значимость отдельных
коэффициентов уравнения
Проверку значимости регрессионных коэффициентов проводят на основе t-статистики для уровня значимости .
Наблюдаемые значения t-статистик указаны в таблице результатов в столбце t-статистика.
Коэффициенты |
t-статистика | |
Y-пересечение |
b0 = -432,810927 |
-2,69326173 |
X1 |
b1 = -11,3460455 |
-0,64278819 |
X2 |
b2 = 257,8803568 |
2,529504191 |
X3 |
b3 = 319,0280512 |
2,575787117 |
X4 |
b4 = 7,903645989 |
1,113589093 |
t-статистика необходимо сравнить с критическим значением tкр, найденным для уровня значимости α=0,05 и числа степеней свободы ν=n – k - 1.
Для этого используем встроенную статистическую функцию Excel СТЬЮДРАСПОБР, введя в предложенное меню вероятность α=0,05 и число степеней свободы ν= n–k-1=50-4-1=45. (Можно найти значения tкр по таблицам математической статистики (см. Приложение, таб. П.2.2)).
Получаем tкр= 2,014103.
Для наблюдаемое значение t-статистики больше критического по модулю
|-2,69326173|>2,014103, |2,529504191|>2,014103, |2,575787117|>2,014103.
Следовательно, гипотеза о равенстве нулю этих коэффициентов отвергается с вероятностью ошибки, равной 0,05, т.е. соответствующие коэффициенты значимы.
Для наблюдаемое значение t-статистики меньше критического значения по модулю |-0,64278819|<2,014103, следовательно, гипотеза H0 не отвергается, т.е. - незначим. Так же для наблюдаемое значение
t-статистики меньше критического значения по модулю |1,113589093|<2,014103, следовательно, гипотеза H0 не отвергается, т.е.
- незначим.
Значимость регрессионных
коэффициентов проверяют и
Столбец p-значение показывает значимость параметров модели граничным 5%-ым уровнем, т.е. если p≤0,05, то соответствующий коэффициент считается значимым, если p>0,05, то незначимым.
И последние столбцы – нижние 95% и верхние 95% и нижние 98% и верхние 98% - это интервальные оценки регрессионных коэффициентов с заданными уровнями надёжности для γ=0,95 (выдаётся всегда) и γ=0,98 (выдаётся при установке соответствующей дополнительной надёжности).
Если нижние и верхние границы имеют одинаковый знак (ноль не входит в доверительный интервал), то соответствующий коэффициент регрессии считается значимым, в противном случае – незначимым.
Как видно из таблицы, для коэффициентов β1 и β4 p-значение p=0,5236 и p=0,2714 соответственно, что превышает величину 0,05 и их доверительные интервалы включают ноль, т.е. по всем проверочным критериям эти коэффициенты являются незначимыми.
В случае, когда при оценке
регрессии выявлено несколько незначимых
коэффициентов, первым из уравнения
регрессии исключается
Согласно алгоритму пошагового регрессионного анализа с исключением незначимых регрессоров, на следующем этапе необходимо исключить из рассмотрения переменную X1 (трудоемкость единицы продукции), имеющую незначимый коэффициент регрессии .
II ЭТАП РЕГРЕССИОННОГО АНАЛИЗА.
В модель включены факторные признаки X2, X3, X4, исключён X1.
ВЫВОД ИТОГОВ |
|
Регрессионная статистика | |
Множественный R |
0,536970621 |
R-квадрат |
0,288337448 |
Нормированный R-квадрат |
0,241924673 |
Стандартная ошибка |
103,788635 |
Наблюдения |
50 |
Дисперсионный анализ |
|||||
df(число степеней свободы ν) |
SS(сумма квадратов отклонений Q) |
MS(средний квадрат MS=SS/ν) |
F(Fнабл= MSR/MSост |
Значимость F | |
Регрессия |
3 |
200763,3199(QR) |
66921,10665 |
6,21245868 |
0,001239949 |
Остаток |
46 |
495515,7152(Qост) |
10772,08077 |
||
Итого |
49 |
696279,0351(Qобщ) |
Коэффици-енты(bi) |
Стандартная ошибка |
t-стати-стика (tнабл) |
P-Значе-ние |
Нижние 95% (βimin) |
Верхние 95% (βimax) |
Нижние 98,0% (βimin) |
Верхние 98,0% (βimax) | |||
Y-пере-сече-ние |
-447,3396 |
158,0858453 |
-2,8297 |
0,007 |
-765,55 |
-129,129 |
-828,36 |
-66,323 | ||
X2 |
258,56816 |
101,291024 |
2,5527 |
0,014 |
54,68 |
462,456 |
14,4377 |
502,699 | ||
X3 |
323,04797 |
122,9069944 |
2,6284 |
0,012 |
75,649 |
570,447 |
26,819 |
619,277 | ||
X4 |
8,6021296 |
6,968893598 |
1,2344 |
0,223 |
-5,4255 |
22,6298 |
-8,1942 |
25,3985 |
Оценка коэффициентов в случае трех объясняющих переменных имеет вид:
,
а уравнение регрессии имеет вид:
Проверим на уровне α=0,05 значимость уравнения регрессии, т.е. гипотезу H0: β2=β3=β4=0. Для этого в результатах дисперсионного анализа находим наблюдаемое значение F-статистики Fнабл= 6,2125.
С помощью встроенной статистической функции FРАСПОБР или по таблицам F-распределения для уровня значимости α=0,05 и числа степеней свободы числителя ν1=k=3 и знаменателя ν2=n-k-1=46 находим критическое значение F-статистики, равное
Так как наблюдаемое значение F-статистики превосходит ее критическое значение 6,2125> 2,8068, то гипотеза о равенстве вектора коэффициентов отвергается с вероятностью ошибки, равной 0,05. Следовательно, хотя бы один элемент вектора β=(β2,β3,β4)T значимо отличается от нуля.
Проверим значимость отдельных
коэффициентов уравнения
Наблюдаемые значения t-статистик указаны в таблице результатов в столбце t-статистика.
Коэффициенты(bi) |
t-статистика(tнабл) | |
Y-пересечение |
b0=-447,3395453 |
-2,829725485 |
X2 |
b1=258,5681634 |
2,552725338 |
X3 |
b2=323,0479678 |
2,628393684 |
X4 |
b4=8,602129566 |
1,23436087 |
Их необходимо сравнить с критическим значением tкр, найденным для уровня значимости α=0,05 и числа степеней свободы ν=n – k - 1.
Для этого используем встроенную статистическую функцию Excel СТЬЮДРАСПОБР, введя в предложенное меню вероятность α=0,05 и число степеней свободы ν= n–k-1=50-3-1=46.
Получаем tкр= 2,80684494
Для наблюдаемое значение t-статистики больше критического значения по модулю |-2,829725485 | >2,80684494, следовательно, гипотеза H0 отвергается, т.е. - значим.
Для наблюдаемое t-статистики меньше критического значения по модулю соответственно
|2,552725338| <2,80684494, |2,628393684| <2,80684494,
|1,23436087| <2,80684494, следовательно, гипотеза H0 не отвергается, т.е. - незначимы.
Значимость регрессионных
коэффициентов проверяют и
Столбец p-значение показывает значимость параметров модели граничным 5%-ым уровнем, т.е. если p≤0,05, то соответствующий коэффициент считается значимым, если p>0,05, то незначимым.
И последние столбцы – нижние 95% и верхние 95% и нижние 98% и верхние 98% - это интервальные оценки регрессионных коэффициентов с заданными уровнями надёжности для γ=0,95 (выдаётся всегда) и γ=0,98 (выдаётся при установке соответствующей дополнительной надёжности).
Если нижние и верхние границы имеют одинаковый знак (ноль не входит в доверительный интервал), то соответствующий коэффициент регрессии считается значимым, в противном случае – незначимым.
Как видно из таблицы, для коэффициента p-значение p= 0,2233, что превышает величину 0,05 и его доверительный интервал включает ноль, т.е. по всем проверочным критериям этот коэффициент является незначимым.
В случае, когда при оценке
регрессии выявлено несколько незначимых
коэффициентов, первым из уравнения
регрессии исключается
Далее, согласно алгоритму пошагового регрессионного анализа с исключением незначимых регрессоров, на следующем этапе необходимо исключить из рассмотрения переменную X4 (фондовооруженность труда), имеющую незначимый коэффициент регрессии .
III ЭТАП РЕГРЕССИОННОГО АНАЛИЗА.
В модель включены факторные признаки X2, X3, исключён X4.
ВЫВОД ИТОГОВ |
|
Регрессионная статистика | |
Множественный R |
0,514553421 |
R-квадрат |
0,264765223 |
Нормированный R-квадрат |
0,233478637 |
Стандартная ошибка |
104,3652099 |
Наблюдения |
50 |
Дисперсионный анализ |
|||||
df(число степеней свободы ν) |
SS(сумма квадратов отклонений Q) |
MS(средний квадрат MS=SS/ν) |
F(Fнабл= MSR/MSост) |
Значимость F | |
Регрессия |
2 |
184350,474(QR) |
92175,237 |
8,462579485 |
0,000726126 |
Остаток |
47 |
511928,5611(Qост) |
10892,09705 |
||
Итого |
49 |
696279,0351(Qобщ) |