Автор работы: Пользователь скрыл имя, 26 Декабря 2010 в 12:44, задача
Решение одной задачи.
Результативный признак:
Y – ожидаемая продолжительность жизни женщины (в годах)
Факторные признаки:
– численность населения (в тыс. чел.)
– рождаемость (на 1000 чел.)
– среднее число детей в семье
– ВВП на душу населения (в долл. США по покупательной способности валют)
– плотность
населения (количество человек на кв. км)
1.
Множественный линейный
регрессионный анализ
1.
Модель множественного
линейного регрессионного
анализа признака Y:
; i = 1,2,…,52
независимы
и имеют одинаковое нормальное распределение
или, иначе,
наблюдения
независимы
и имеют нормальное распределение
Функция
называется
линейной функцией множественной
регрессии.
Исходные данные:
№ | Страна | Y |
|
|
|
|
| ||||||
1 |
Австралия |
80 |
17800 |
15 |
1,9 |
16848 |
2,3 | ||||||
2 |
Австрия |
79 |
8000 |
12 |
1,5 |
18396 |
94 | ||||||
3 |
Аргентина |
75 |
33900 |
20 |
2,8 |
3408 |
12 | ||||||
4 |
Бангладеш |
53 |
125000 |
35 |
4,7 |
202 |
800 | ||||||
5 |
Беларусь |
76 |
10300 |
13 |
1,88 |
6500 |
50 | ||||||
6 |
Бельгия |
79 |
10100 |
12 |
1,7 |
17912 |
329 | ||||||
7 |
Бразилия |
67 |
156600 |
21 |
2,7 |
2354 |
18 | ||||||
8 |
Буркина-Фасо |
50 |
10000 |
47 |
6,94 |
357 |
36 | ||||||
9 |
Великобритания |
80 |
58400 |
13 |
1,83 |
15974 |
237 | ||||||
10 |
Вьетнам |
68 |
73100 |
27 |
3,33 |
230 |
218 | ||||||
11 |
Гаити |
47 |
6500 |
40 |
5,94 |
383 |
231 | ||||||
12 |
Германия |
79 |
81200 |
11 |
1,47 |
17539 |
227 | ||||||
13 |
Гондурас |
70 |
5600 |
35 |
4,9 |
1030 |
46 | ||||||
14 |
Гонконг |
80 |
5800 |
13 |
1,4 |
14641 |
5494 | ||||||
15 |
Египет |
63 |
60000 |
29 |
3,77 |
748 |
57 | ||||||
16 |
Замбия |
45 |
9100 |
46 |
6,68 |
573 |
11 | ||||||
17 |
Индия |
59 |
911600 |
29 |
4,48 |
275 |
283 | ||||||
18 |
Ирландия |
78 |
3600 |
14 |
1,99 |
12170 |
51 | ||||||
19 |
Испания |
81 |
39200 |
11 |
1,4 |
13047 |
77 | ||||||
20 |
Италия |
81 |
58100 |
11 |
1,3 |
17500 |
188 | ||||||
21 |
Канада |
81 |
29100 |
14 |
1,8 |
19904 |
2,8 | ||||||
22 |
Китай |
69 |
1205200 |
21 |
1,84 |
377 |
124 | ||||||
23 |
Колумбия |
75 |
35600 |
24 |
2,47 |
1538 |
31 | ||||||
24 |
Коста-Рика |
79 |
3300 |
26 |
3,1 |
2031 |
64 | ||||||
25 |
Куба |
78 |
11100 |
17 |
1,9 |
1382 |
99 | ||||||
26 |
Малайзия |
72 |
19500 |
29 |
3,51 |
2995 |
58 | ||||||
27 |
Марокко |
70 |
28600 |
29 |
3,83 |
1062 |
63 | ||||||
28 |
Мексика |
77 |
91800 |
28 |
3,2 |
3604 |
46 | ||||||
29 |
Нидерланды |
81 |
15400 |
13 |
1,58 |
17245 |
366 | ||||||
30 |
Новая Зеландия |
80 |
3524 |
16 |
2,03 |
14381 |
13 | ||||||
31 |
Норвегия |
81 |
4300 |
13 |
2 |
17755 |
11 | ||||||
32 |
ОАЭ |
74 |
2800 |
28 |
4,5 |
14193 |
32 | ||||||
33 |
Польша |
77 |
38600 |
14 |
1,94 |
4429 |
123 | ||||||
34 |
Португалия |
78 |
10500 |
12 |
1,5 |
9000 |
108 | ||||||
35 |
Россия |
74 |
149200 |
13 |
1,83 |
6680 |
8,8 | ||||||
36 |
Саудовская Аравия |
70 |
18000 |
38 |
6,67 |
6651 |
7,7 | ||||||
37 |
Северная Корея |
73 |
23100 |
24 |
2,4 |
1000 |
189 | ||||||
38 |
Сингапур |
79 |
2900 |
16 |
1,88 |
14990 |
4456 | ||||||
39 |
США |
79 |
260800 |
15 |
2,06 |
23474 |
26 | ||||||
40 |
Таиланд |
72 |
59400 |
19 |
2,1 |
1800 |
115 | ||||||
41 |
Турция |
73 |
62200 |
26 |
3,21 |
3721 |
79 | ||||||
42 |
Украина |
75 |
51800 |
12 |
1,82 |
2340 |
87 | ||||||
43 |
Филиппины |
68 |
69800 |
27 |
3,35 |
867 |
221 | ||||||
44 |
Финляндия |
80 |
5100 |
13 |
1,8 |
15877 |
39 | ||||||
45 |
Франция |
82 |
58000 |
13 |
1,8 |
18944 |
105 | ||||||
46 |
Чили |
78 |
14000 |
23 |
2,5 |
2591 |
18 | ||||||
47 |
Швейцария |
82 |
7000 |
12 |
1,6 |
22384 |
170 | ||||||
48 |
Швеция |
81 |
8800 |
14 |
2,1 |
16900 |
19 | ||||||
49 |
Эфиопия |
54 |
55200 |
45 |
6,81 |
122 |
47 | ||||||
50 |
ЮАР |
68 |
43900 |
34 |
4,37 |
3128 |
35 | ||||||
51 |
Южная Корея |
74 |
45000 |
16 |
1,65 |
6627 |
447 | ||||||
52 |
Япония |
82 |
125500 |
11 |
1,55 |
19860 |
330 |
2. Матрица
оценок коэффициентов
парной корреляции:
1 | |||||||||||||
-0,18761 | 1 | ||||||||||||
-0,86801 | 0,042289 | 1 | |||||||||||
-0,85237 | -0,00289 | 0,966282 | 1 | ||||||||||
0,68232 | -0,19492 | -0,69164 | -0,57553 | 1 | |||||||||
0,110067 | -0,05363 | -0,14165 | -0,16288 | 0,163511 | 1 |
*жирным шрифтом
выделены коэффициенты
Выводы:
1) Судя по
наблюдениям, наиболее сильна
линейная связь
, , т.к. модуль оценки соответствующих коэффициентов парной корреляции выше 0,7, т.е. достаточно велик. Линейная связь с х4 так же достаточно сильна: ; связи с x1, x5 выражены слабее: ,
2) Сильна линейная
связь между регрессорами х2,
х3:
- это может свидетельствовать о коллинеарности
регрессоров х2, х3. Малые абсолютные
значения оценок коэффициентов корреляции
между остальными регрессорами говорят
об относительно слабой линейной связи
между ними.
3. Расчёт оценок , , , , ,
и
параметров модели линейной регрессии.
= 84,011744
= -0,000007
= -0,075403
= -3,851457
= 0,000284
= -0,000515
Средняя относительная ошибка аппроксимации:
Оценка коэффициента множественной линейной детерминации:
Судя по наблюдениям,
80% вариации ожидаемой продолжительности
жизни женщины (в годах) обусловлено линейным
влиянием на него данных факторов.
Оценка коэффициента множественной линейной корреляции:
— такова,
судя по наблюдениям, степень линейной
зависимости
от
,
,…,
.
Оценка нормированного коэффициента линейной детерминации:
Уравнение регрессии
адекватно.
Стандартная ошибка регрессии:
;
4. а) Количества степеней свободы случайных величин.
для
для
для
Заметим, что:
Проверка гипотезы производится на основе анализа статистики
имеющей (в предположении
справедливости
) распределение
Фишера – Снедекора с
и
степенями
свободы. В данном случае
, что больше
критической точки
, поэтому,
с вероятностью 95% делаем заключение о
статистической значимости уравнения
в целом.
Для данной модели
значимость
, меньше
- уравнение
значимо.
б) Проверим теперь гипотезы при альтернативах
Статистика при выполнении гипотезы имеет распределение Стьюдента с степенью свободы. Область отклонения гипотезы (на уровне значимости ) такова .
Критическая точка
, следовательно,
гипотезы
,
,
отвергаются,
т.к. оценки
, параметров
,
,
значимы,
а гипотезы
,
не отвергаются,
т.к. оценки
параметров
не значимы.
Уровни значимости гипотез - это вероятности (гипотезу отвергают при альтернативе , если ).
Гипотезы , , отвергаются, а гипотезы , не отвергаются, так как =0,05.
Кроме того,
Нижние 95% | Коэф-ты | Верхние 95% | |||
-0,000012 | a1 | -3,5E-07 | |||
-0,696344237 | a2 | 0,545538 | |||
-7,416709867 | a3 | -0,2862 | |||
2,14735E-05 | a4 | 0,000546 | |||
-0,001834466 | a5 | 0,000804 |
Интервалы для a1,
a3, a4 не содержит 0 , следовательно,
гипотезы отвергаются.
5. Таким образом, в построенном уравнение регрессии только 2 коэффициента оказались не значимы.
Исключим из
уравнения регрессор
, при котором
коэффициент не значим, а соответствующая
этому коэффициенту абсолютная величина
значения статистики
является
наименьшей (рассчитанный уровень значимости
является
наибольшим).
Оценка линейной функции регрессии будет такой:
Стандартная ошибка , средняя относительная ошибка аппроксимации