Корреляционный и регрессионный анализ

Автор работы: Пользователь скрыл имя, 25 Апреля 2012 в 18:28, курсовая работа

Краткое описание

Парные коэффициенты корреляции характеризуют взаимосвязь между двумя выбранными переменными на фоне действия остальных показателей и являются самыми распространёнными показателями тесноты связи при статистическом анализе данных.
Расчёт матрицы выборочных парных коэффициентов корреляции осуществляется в Excel с помощью пакета анализа данных.

Содержание работы

Подготовка данных…………………………………………..…………….3
Корреляционный анализ экономических показателей…..5
Построение матрицы парных коэффициентов корреляции………5
Расчёт частных коэффициентов корреляции. Сравнение частных и парных коэффициентов корреляции……………………………11
Расчёт множественных коэффициентов корреляции……………19
Регрессионный анализ экономических показателей…………………24
3.1 Проверка исходных данных на мультиколлиниарность……………………………………………..…….25
3.2 Построение регрессионной модели и её интерпретация…………..27
3.3 Сравнение исходных данных с рассчитанными по уравнению регрессии………………………………………………………………..…40

Содержимое работы - 1 файл

оформленная к.р. Зайнуллина Э.А..docx

— 171.30 Кб (Скачать файл)

 

В регрессионной статистике указываются множественный коэффициент корреляции (Множественный R) и детерминации (R-квадрат)  между Y и массивом факторных признаков (что совпадает с полученными ранее значениями в корреляционном анализе).

Средняя часть таблицы (Дисперсионный анализ) необходима для проверки значимости уравнения регрессии.

Нижняя часть таблицы  – точечные оценки bi генеральных коэффициентов регрессии βi, проверка их значимости и интервальная оценка.

Оценка вектора коэффициентов b (столбец  Коэффициенты):

 

Тогда оценка уравнения регрессии  имеет вид:

 

Необходимо проверить  значимость уравнения регрессии  и полученных коэффициентов регрессии.

Проверим на уровне α=0,05 значимость уравнения регрессии, т.е. гипотезу  H0: β123=…=βk=0. Для этого рассчитывается  наблюдаемое значение F-статистики:

                                            

Excel выдаёт это в результатах дисперсионного анализа:

4,703199

В столбце  F  указывается значение Fнабл.

По таблицам F-распределения или с помощью встроенной статистической функции FРАСПОБР для уровня значимости α=0,05  и числа степеней свободы числителя ν1=k=4  и знаменателя ν2=n-k-1=45  находим критическое значение F-статистики, равное

                                           Fкр = 2,578739

Так как наблюдаемое значение F-статистики превосходит ее критическое значение 4,703199> 2,578739, то гипотеза о равенстве вектора коэффициентов отвергается с вероятностью ошибки, равной 0,05.  Следовательно, хотя бы один элемент вектора β=(β1234)T  значимо отличается от нуля.

Проверим значимость отдельных  коэффициентов уравнения регрессии, т.е. гипотезу .

Проверку значимости регрессионных  коэффициентов проводят на основе t-статистики     для уровня значимости .

Наблюдаемые значения t-статистик указаны в таблице результатов в столбце t-статистика.

 

Коэффициенты

                    t-статистика

Y-пересечение

b0 = -432,810927

-2,69326173

X1

b1 = -11,3460455

-0,64278819

X2

b2 = 257,8803568

2,529504191

X3

b3 = 319,0280512

2,575787117

X4

b4 = 7,903645989

1,113589093


 

t-статистика необходимо сравнить с критическим значением tкр, найденным для уровня значимости  α=0,05  и числа степеней свободы ν=n – k - 1.

Для этого используем встроенную статистическую функцию Excel СТЬЮДРАСПОБР,  введя в предложенное меню вероятность  α=0,05 и число степеней свободы   ν= n–k-1=50-4-1=45.   (Можно найти значения tкр  по таблицам математической статистики  (см. Приложение, таб. П.2.2)).

Получаем   tкр= 2,014103.

Для наблюдаемое значение t-статистики  больше критического по модулю 

|-2,69326173|>2,014103, |2,529504191|>2,014103, |2,575787117|>2,014103.

Следовательно, гипотеза о  равенстве нулю этих коэффициентов  отвергается с вероятностью ошибки, равной 0,05, т.е. соответствующие коэффициенты значимы.

Для наблюдаемое значение t-статистики меньше критического значения по модулю |-0,64278819|<2,014103, следовательно, гипотеза H0 не отвергается, т.е. - незначим. Так же для наблюдаемое значение

t-статистики меньше критического значения по модулю |1,113589093|<2,014103, следовательно, гипотеза H0 не отвергается, т.е.

  - незначим.

Значимость регрессионных  коэффициентов проверяют и следующие  столбцы результирующей таблицы:

Столбец  p-значение  показывает значимость параметров модели граничным 5%-ым уровнем, т.е. если p≤0,05, то соответствующий коэффициент считается значимым, если p>0,05, то незначимым.

И последние столбцы – нижние 95% и верхние 95%  и нижние 98% и верхние 98% - это интервальные оценки регрессионных коэффициентов с заданными уровнями надёжности  для γ=0,95 (выдаётся всегда)  и γ=0,98 (выдаётся при установке соответствующей дополнительной надёжности).

Если нижние и верхние  границы имеют одинаковый знак (ноль не входит в доверительный интервал), то соответствующий коэффициент  регрессии считается значимым, в  противном случае – незначимым.

Как видно из таблицы, для коэффициентов β1 и β4     p-значение p=0,5236 и p=0,2714 соответственно, что превышает величину 0,05 и их доверительные интервалы включают ноль, т.е. по всем проверочным критериям эти коэффициенты являются незначимыми.

В случае, когда при оценке регрессии выявлено несколько незначимых коэффициентов, первым из уравнения  регрессии исключается регрессор, для которого t-статистика  ( )  минимальна по модулю.

Согласно алгоритму пошагового регрессионного анализа с исключением  незначимых регрессоров, на следующем  этапе необходимо исключить из рассмотрения переменную X1 (трудоемкость единицы продукции), имеющую незначимый коэффициент регрессии .

II ЭТАП РЕГРЕССИОННОГО АНАЛИЗА.

В модель включены факторные  признаки  X2, X3, X4, исключён X1.

ВЫВОД ИТОГОВ

 
   

Регрессионная статистика

Множественный R

0,536970621

R-квадрат

0,288337448

Нормированный R-квадрат

0,241924673

Стандартная ошибка

103,788635

Наблюдения

50


 

Дисперсионный анализ

     
 

df(число степеней свободы ν)

SS(сумма квадратов отклонений Q)

MS(средний квадрат MS=SS/ν)

F(Fнабл= MSR/MSост

Значимость F

Регрессия

3

200763,3199(QR)

66921,10665

6,21245868

0,001239949

Остаток

46

495515,7152(Qост)

10772,08077

   

Итого

49

696279,0351(Qобщ)

     

 

 

Коэффици-енты(bi)

Стандартная ошибка

t-стати-стика

(tнабл)

P-Значе-ние

Нижние 95%

(βimin)

Верхние 95%

(βimax)

Нижние 98,0%

(βimin)

Верхние 98,0%

(βimax)

Y-пере-сече-ние

-447,3396

158,0858453

-2,8297

0,007

-765,55

-129,129

-828,36

-66,323

X2

258,56816

101,291024

2,5527

0,014

54,68

462,456

14,4377

502,699

X3

323,04797

122,9069944

2,6284

0,012

75,649

570,447

26,819

619,277

X4

8,6021296

6,968893598

1,2344

0,223

-5,4255

22,6298

-8,1942

25,3985


 

Оценка коэффициентов  в случае трех объясняющих переменных имеет вид:

,

а уравнение регрессии  имеет вид:

 

Проверим на уровне α=0,05 значимость уравнения регрессии, т.е. гипотезу  H0: β234=0.      Для этого в результатах дисперсионного анализа находим наблюдаемое значение F-статистики   Fнабл= 6,2125.

С помощью встроенной статистической функции FРАСПОБР или по таблицам F-распределения для уровня значимости α=0,05  и числа степеней свободы числителя ν1=k=3  и знаменателя ν2=n-k-1=46  находим критическое значение F-статистики, равное

                                           Fкр = 2,80684494

Так как наблюдаемое значение F-статистики превосходит ее критическое значение 6,2125> 2,8068, то гипотеза о равенстве вектора коэффициентов отвергается с вероятностью ошибки, равной 0,05.  Следовательно, хотя бы один элемент вектора β=(β234)T  значимо отличается от нуля.

Проверим значимость отдельных  коэффициентов уравнения регрессии, т.е. гипотезу

Наблюдаемые значения t-статистик указаны в таблице результатов в столбце t-статистика.

 

Коэффициенты(bi)

t-статистика(tнабл)

Y-пересечение

b0=-447,3395453

-2,829725485

X2

b1=258,5681634

2,552725338

X3

b2=323,0479678

2,628393684

X4

b4=8,602129566

1,23436087


 

Их необходимо сравнить с  критическим значением  tкр, найденным для уровня значимости  α=0,05  и числа степеней свободы ν=n – k - 1.

Для этого используем встроенную статистическую функцию Excel СТЬЮДРАСПОБР,  введя в предложенное меню вероятность  α=0,05 и число степеней свободы   ν= n–k-1=50-3-1=46.

Получаем   tкр= 2,80684494

 

Для  наблюдаемое значение t-статистики больше критического значения по модулю |-2,829725485 | >2,80684494, следовательно, гипотеза H0  отвергается, т.е. - значим.

Для наблюдаемое t-статистики меньше критического значения по модулю соответственно

 |2,552725338| <2,80684494, |2,628393684| <2,80684494,

|1,23436087| <2,80684494, следовательно, гипотеза H не отвергается, т.е. - незначимы.

Значимость регрессионных  коэффициентов проверяют и следующие  столбцы результирующей таблицы:

Столбец  p-значение  показывает значимость параметров модели граничным 5%-ым уровнем, т.е. если p≤0,05, то соответствующий коэффициент считается значимым, если p>0,05, то незначимым.

И последние столбцы – нижние 95% и верхние 95%  и нижние 98% и верхние 98% - это интервальные оценки регрессионных коэффициентов с заданными уровнями надёжности  для γ=0,95 (выдаётся всегда)  и γ=0,98 (выдаётся при установке соответствующей дополнительной надёжности).

Если нижние и верхние  границы имеют одинаковый знак (ноль не входит в доверительный интервал), то соответствующий коэффициент  регрессии считается значимым, в  противном случае – незначимым.

Как видно из таблицы, для  коэффициента      p-значение p= 0,2233, что превышает величину  0,05 и его доверительный интервал включает ноль, т.е. по всем проверочным критериям этот коэффициент является незначимым.

В случае, когда при оценке регрессии выявлено несколько незначимых коэффициентов, первым из уравнения  регрессии исключается регрессор, для которого t-статистика  ( )  минимальна по модулю.

  Далее, согласно алгоритму пошагового регрессионного анализа с исключением незначимых регрессоров, на следующем этапе необходимо исключить из рассмотрения переменную X4 (фондовооруженность труда), имеющую незначимый коэффициент регрессии .

                 III ЭТАП РЕГРЕССИОННОГО АНАЛИЗА.

В модель включены факторные  признаки  X2, X3, исключён X4.

ВЫВОД ИТОГОВ

 
   

Регрессионная статистика

Множественный R

0,514553421

R-квадрат

0,264765223

Нормированный R-квадрат

0,233478637

Стандартная ошибка

104,3652099

Наблюдения

50


 

Дисперсионный анализ

     
 

df(число степеней свободы ν)

SS(сумма квадратов отклонений Q)

MS(средний квадрат MS=SS/ν)

F(Fнабл= MSR/MSост)

Значимость F

Регрессия

2

184350,474(QR)

92175,237

8,462579485

0,000726126

Остаток

47

511928,5611(Qост)

10892,09705

   

Итого

49

696279,0351(Qобщ)

     

Информация о работе Корреляционный и регрессионный анализ