Автор работы: Пользователь скрыл имя, 17 Декабря 2011 в 20:31, задача
Построить диаграмму рассеивания результата у и фактора х.
Определить точечные и интервальные оценки параметров линейной модели у = а + bx, а также дисперсии ошибок наблюдений σ2.
Оценить статистическую значимость коэффициентов регрессии.
Верифицировать построенную модель, использую
- элементы теории корреляции;
- дисперсионный анализ в регрессии.
Задача 1
Изучается зависимость объема производства от численности людей по следующим данным
Объем производства, млн.р. | 17 | 14 | 26 | 27 | 27 | 35 | 18 | 22 | 49 |
Численность занятых, чел. | 32 | 33 | 42 | 51 | 60 | 64 | 35 | 40 | 108 |
Задание.
- элементы теории корреляции;
-
дисперсионный анализ в
5. Дать
интерпретацию коэффициентам
6. В
случае пригодной линейной
Статистический
анализ и прогноз осуществить
с надежностью γ = 0,95.
Решение.
(хi, yi), i = 1,…,9
Рис. 1
у = а + bx ,
где а
и b неизвестные параметры. Наилучшие
оценки этих параметров, найденные методом
наименьших квадратов, определяются по
формулам:
Несмещенные оценки дисперсий оценок и получаются в виде
Где - остаточная сумма квадратов, а - вычисленное по модели значение объясняемой переменной для данного хi .
Несмещенной оценкой дисперсии ошибок наблюдений σ2 будет величина
S2
=
Интервальные
оценки параметров модели определяют
по формулам:
где - квантиль распределения Стьюдента
(t
– распределения) уровня
и числа степеней свободы n-2. Здесь
γ – доверительная вероятность или надежность.
Для расчета
построим таблицу (табл.1)
Таблица 1
Результаты наблюдений и необходимые расчеты
для построения
линейной регрессии
№ | хi | yi | xi2 | yi2 | xiyi | ŷi | yi-ŷi | (yi-ŷi)2 |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
1 | 32 | 17 | 1024 | 289 | 544 | 17,6502 | -0,6502 | 0,4228 |
2 | 33 | 14 | 1089 | 196 | 462 | 18,0805 | -4,0804 | 16,6500 |
3 | 42 | 26 | 1764 | 676 | 1092 | 21,9524 | 4,0476 | 16,3833 |
4 | 51 | 27 | 2601 | 729 | 1377 | 25,8243 | 1,1757 | 1,3823 |
5 | 60 | 27 | 3600 | 729 | 1620 | 29,6962 | -2,6962 | 7,2697 |
6 | 64 | 35 | 4096 | 1225 | 2240 | 31,4170 | 3,5829 | 12,8373 |
7 | 35 | 18 | 1225 | 324 | 630 | 18,9409 | -0,9409 | 0,8852 |
8 | 40 | 22 | 1600 | 484 | 880 | 21,09195 | 0,9081 | 0,8246 |
9 | 108 | 49 | 11664 | 2401 | 5292 | 50,3465 | -1,3465 | 1,8131 |
∑ | 465 | 235 | 28663 | 7053 | 14137 | 235 | 0,0000 | 58,4682 |
Используя итоги столбцов (2-6), найдем оценки коэффициентов регрессии
Тогда уравнением линейной регрессии будет:
ŷ = 3,8834+0,4302х.
Оценки дисперсий получаем в виде:
Для построения доверительных интервалов (интервальных оценок) с γ=0,95 из таблицы квантилей распределения Стьюдента, найдем t0.95=t(0.975;7) = 2,365.
Тогда
-1,780529 < a< 9,547287;
0,3298505 < b < 0,530578.
Проверяемые гипотезы
Н0а : а = 0 при Н1а : а ≠ 0 и Н0b : b = 0 при Н1b : b ≠ 0.
Проверка
таких гипотез может
В нашем примере доверительный интервал a содержит нуль, следовательно, оценки параметра статистически незначимы, а доверительный интервал b не содержит нуля, следовательно, оценки параметра статистически значимы. Это означает, что на размер объем производства (у) оказывает влияние численность занятых человек (х), так и другие неучтенные в модели факторы.
Вывод
о значимости корреляции между х
и у может быть сделан, если
где
α- уровень значимости.
Здесь rB – выборочный коэффициент корреляции, который равен:
Наблюдаемое и критическое значения статистик Стьюдента равны
Так как 10,137695 > 2,365, гипотезу об отсутствии линейной связи отвергаем.
Коэффициент детерминации R2 = rB2 = (0,967591)2 = 0,936232. Он равен той доле дисперсии у, которая объяснена линейной зависимостью от х. В нашем случае 93,6% дисперсии объяснено линейной регрессией, а остальные 6,4% приходится на долю прочих факторов, не учтенных уравнением регрессии.
Высокое значение как коэффициента корреляции, так и коэффициента детерминации свидетельствует о том, что данные наблюдений хорошо согласуются с представлением их в виде линейной регрессионной модели.
Таблица 2
Расчет сумм квадратов
№ | |||||||
1 | 17 | 17,6502 | 0,4228 | -9,11 | 83,0124 | -8,4609 | 71,5865 |
2 | 14 | 18,0804 | 16,6500 | -12,11 | 146,679 | -8,0307 | 64,4916 |
3 | 26 | 21,9524 | 16,3833 | -0,11 | 0,0123 | -4,1587 | 17,2951 |
4 | 27 | 25,8243 | 1,3823 | 0,89 | 0,7901 | -0,2868 | 0,0823 |
5 | 27 | 29,6962 | 7,2697 | 0,89 | 0,7901 | 3,5851 | 12,8531 |
6 | 35 | 31,4171 | 12,8373 | 8,89 | 79,0125 | 5,3059 | 28,1534 |
7 | 18 | 18,9409 | 0,8852 | -8,11 | 65,7901 | -7,1702 | 51,4123 |
8 | 22 | 21,0919 | 0,8246 | -4,11 | 16,9012 | -5,0192 | 25,1920 |
9 | 49 | 50,3465 | 1,8131 | 22,89 | 523,9012 | 24,2354 | 587,3545 |
∑ | 235 | 235 | 58,4682 | 0,00 | 916,8889 | 0,0000 | 858,4207 |
Здесь 26,11.
Вычисления, необходимые
для дисперсионного анализа, сведем
в табл. 3
Таблица 3
Дисперсионный анализ
Источник дисперсии | Число степеней свободы | Сумма квадратов
SS |
Средний квадрат
MS |
Критерий Фишера
F |
Критическая точка
Fкр = F(α;1;7) |
Гипотеза
H0 : b = 0 |
Регрессор
х |
1 | 858,4207 | 858,4207 | 102,773 | 5,59 | H1 : b ≠ 0 |
Ошибка
(остаток) |
7 | 58,4682 | 8,3526 | |||
Общая
дисперсия
(итог) |
8 | 916,889 |
Здесь
- общая сумма квадратов; сумма квадратов, обусловленная регрессией и остаточная сумма квадратов соответственно. Эти суммы используются для определения несмещенных оценок дисперсий.
Гипотеза
об отсутствии линейной функциональной
связи H0 : b = 0 эквивалентна гипотезе
о равенстве дисперсий, обусловленных
регрессором х и ошибок наблюдений ε. Если
эти дисперсии различаются между собой
случайно, то есть незначимо, то фактор
или регрессор х оказывает несущественное
влияние и H0
: b = 0 следует принять. Для проверки гипотезы
о равенстве дисперсий
H0 : σR2 = σε2
используется критерий, статистика которого
˜ F(1,n-2) распределена по закону Фишера
с соответствующими числами степеней
свободы. Если F0 > Fкр, гипотеза
Н0 отвергается.
В нашем примере Fкр = F(0,05;1;7) = 5,59.
<