Регрессионный анализ

Автор работы: Пользователь скрыл имя, 26 Декабря 2010 в 12:44, задача

Краткое описание

Решение одной задачи.

Содержимое работы - 1 файл

ДЗ1.doc

— 509.50 Кб (Скачать файл)

                                 Лучников Андрей  Александрович. ММвЭ-ке  в/о 3-1. Вариант №16

Результативный  признак:

Y – ожидаемая продолжительность жизни женщины (в годах)

Факторные признаки:

– численность  населения (в тыс. чел.)

– рождаемость (на 1000 чел.)

– среднее число детей в семье

– ВВП на душу населения (в долл. США по покупательной способности валют)

– плотность населения (количество человек на кв. км) 

1. Множественный линейный регрессионный анализ 

1. Модель множественного линейного регрессионного анализа признака Y: 

; i = 1,2,…,52 

 независимы и имеют одинаковое нормальное распределение или, иначе, наблюдения  независимы и имеют нормальное распределение 

 

Функция 

 

называется  линейной функцией множественной регрессии. 

Исходные данные: 

Страна Y
 
 
 
 
 
 
 
 
 

 
 

1

Австралия

80

17800

15

1,9

16848

2,3

2

Австрия

79

8000

12

1,5

18396

94

3

Аргентина

75

33900

20

2,8

3408

12

4

Бангладеш

53

125000

35

4,7

202

800

5

Беларусь

76

10300

13

1,88

6500

50

6

Бельгия

79

10100

12

1,7

17912

329

7

Бразилия

67

156600

21

2,7

2354

18

8

Буркина-Фасо

50

10000

47

6,94

357

36

9

Великобритания

80

58400

13

1,83

15974

237

10

Вьетнам

68

73100

27

3,33

230

218

11

Гаити

47

6500

40

5,94

383

231

12

Германия

79

81200

11

1,47

17539

227

13

Гондурас

70

5600

35

4,9

1030

46

14

Гонконг

80

5800

13

1,4

14641

5494

15

Египет

63

60000

29

3,77

748

57

16

Замбия

45

9100

46

6,68

573

11

17

Индия

59

911600

29

4,48

275

283

18

Ирландия

78

3600

14

1,99

12170

51

19

Испания

81

39200

11

1,4

13047

77

20

Италия

81

58100

11

1,3

17500

188

21

Канада

81

29100

14

1,8

19904

2,8

22

Китай

69

1205200

21

1,84

377

124

23

Колумбия

75

35600

24

2,47

1538

31

24

Коста-Рика

79

3300

26

3,1

2031

64

25

Куба

78

11100

17

1,9

1382

99

26

Малайзия

72

19500

29

3,51

2995

58

27

Марокко

70

28600

29

3,83

1062

63

28

Мексика

77

91800

28

3,2

3604

46

29

Нидерланды

81

15400

13

1,58

17245

366

30

Новая Зеландия

80

3524

16

2,03

14381

13

31

Норвегия

81

4300

13

2

17755

11

32

ОАЭ

74

2800

28

4,5

14193

32

33

Польша

77

38600

14

1,94

4429

123

34

Португалия

78

10500

12

1,5

9000

108

35

Россия

74

149200

13

1,83

6680

8,8

36

Саудовская Аравия

70

18000

38

6,67

6651

7,7

37

Северная Корея

73

23100

24

2,4

1000

189

38

Сингапур

79

2900

16

1,88

14990

4456

39

США

79

260800

15

2,06

23474

26

40

Таиланд

72

59400

19

2,1

1800

115

41

Турция

73

62200

26

3,21

3721

79

42

Украина

75

51800

12

1,82

2340

87

43

Филиппины

68

69800

27

3,35

867

221

44

Финляндия

80

5100

13

1,8

15877

39

45

Франция

82

58000

13

1,8

18944

105

46

Чили

78

14000

23

2,5

2591

18

47

Швейцария

82

7000

12

1,6

22384

170

48

Швеция

81

8800

14

2,1

16900

19

49

Эфиопия

54

55200

45

6,81

122

47

50

ЮАР

68

43900

34

4,37

3128

35

51

Южная Корея

74

45000

16

1,65

6627

447

52

Япония

82

125500

11

1,55

19860

330

 

2. Матрица оценок коэффициентов парной корреляции: 

                  
       1               
       -0,18761  1            
       -0,86801  0,042289  1         
       -0,85237  -0,00289  0,966282  1      
       0,68232  -0,19492  -0,69164  -0,57553  1   
       0,110067  -0,05363  -0,14165  -0,16288  0,163511  1
 

*жирным шрифтом  выделены коэффициенты корреляции, оценки которые по модулю близки  или превосходят 0,7 

Выводы:

1) Судя по  наблюдениям, наиболее сильна  линейная связь результативного  признака  с факторным признаком (рождаемость на 1000 чел.) и - среднее число детей в семье.

, , т.к. модуль оценки соответствующих коэффициентов парной корреляции выше 0,7, т.е. достаточно велик. Линейная связь с х4 так же достаточно сильна: ; связи с x1, x5 выражены слабее: ,

2) Сильна линейная  связь между регрессорами х2, х3: - это может свидетельствовать о коллинеарности регрессоров х2, х3. Малые абсолютные значения оценок коэффициентов корреляции между остальными регрессорами говорят об относительно слабой линейной связи между ними. 

3. Расчёт оценок , , , , ,

 и

  параметров модели  линейной регрессии.

= 84,011744

= -0,000007

 = -0,075403

= -3,851457

= 0,000284

= -0,000515 

 

Средняя относительная  ошибка аппроксимации:

Оценка  коэффициента множественной  линейной детерминации:

Судя по наблюдениям, 80% вариации ожидаемой продолжительности жизни женщины (в годах) обусловлено линейным влиянием на него данных факторов. 

Оценка  коэффициента множественной  линейной корреляции:

 — такова, судя по наблюдениям, степень линейной зависимости от , ,…, . 

Оценка  нормированного коэффициента линейной детерминации:

Уравнение регрессии  адекватно. 

Стандартная ошибка регрессии:

;

 

4. а) Количества степеней свободы случайных величин.

 для

 для 

 для 

Заметим, что: 

 

Проверка гипотезы производится на основе анализа статистики

имеющей (в предположении  справедливости ) распределение Фишера – Снедекора с и степенями свободы. В данном случае , что больше критической точки , поэтому, с вероятностью 95% делаем заключение о статистической значимости уравнения в целом. 

Для данной модели значимость , меньше - уравнение значимо. 

б) Проверим теперь гипотезы при альтернативах

Статистика  при выполнении гипотезы имеет распределение Стьюдента с степенью свободы. Область отклонения гипотезы (на уровне значимости ) такова .

Критическая точка  , следовательно, гипотезы , , отвергаются, т.к. оценки ,   параметров , ,   значимы, а гипотезы , не отвергаются, т.к. оценки параметров не значимы. 

Уровни значимости гипотез  - это вероятности (гипотезу отвергают при альтернативе , если ).

Гипотезы  , , отвергаются, а гипотезы , не отвергаются, так как =0,05.

Кроме того,

     Нижние 95%  Коэф-ты  Верхние 95%
      -0,000012  a1  -3,5E-07
     -0,696344237  a2  0,545538
     -7,416709867  a3  -0,2862
     2,14735E-05  a4  0,000546
     -0,001834466  a5  0,000804

Интервалы для a1, a3, a4 не содержит 0 , следовательно, гипотезы отвергаются.  

5. Таким образом, в построенном уравнение регрессии только 2 коэффициента оказались не значимы.

Исключим из уравнения регрессор  , при котором коэффициент не значим, а соответствующая этому коэффициенту абсолютная величина значения статистики является наименьшей (рассчитанный уровень значимости является наибольшим). 

Оценка  линейной функции  регрессии будет  такой:

Стандартная ошибка , средняя относительная ошибка аппроксимации

Информация о работе Регрессионный анализ