Вероятность попадания в дорожно-транспортное происшествие

Автор работы: Пользователь скрыл имя, 19 Января 2012 в 13:41, дипломная работа

Краткое описание

По данным автотранспортного предприятия был организован массив данных по 50 водителям. Автотранспортное предприятие страхует водителей от дорожно-транспортных происшествий и желает закладывать в амортизационные расходы некую сумму для ремонта автомобилей, выделять средства для повышения квалификации водителей (курсы водителей АТП, проводимых сотрудниками учебных центров ГИБДД) и социальный пакет на диспансеризацию и лечение работников АТП.

Содержимое работы - 1 файл

проект.doc

— 503.50 Кб (Скачать файл)

     

,

     где , тогда отношение шансов (ОШ) может быть записано в виде

     Отсюда  получается, что, если модель верна, при  независимых X1, X2, …, Xk изменение Xj на единицу вызывает изменение отношения шансов в раз.

     График  зависимости, связывающей вероятность  события  и величину показан на рисунке 1. Эта зависимость носит нелинейный характер, причем Р не может выходить за пределы диапазона от 0 до 1.

     

     Рисунок 1. Логистическая  кривая

     Если  вместо функции распределения выбрать функцию распределения нормального закона , то вместо логит-модели получим близкую ей пробит-модель.

     Различать, когда следует применять логит-модль, а когда пробит-модель, в случае малых выборок невозможно, поскольку оценки коэффициентов модели отличаются множителем, который практически постоянен.

     Существует  несколько способов нахождения коэффициентов  логистической регрессии. На практике часто используют метод максимального правдопдобия. 

 

      Практическая часть  исследовательского проекта 

     По  данным автотранспортного предприятия  был организован массив данных по 50 водителям. Автотранспортное предприятие  страхует водителей от дорожно-транспортных происшествий и желает закладывать в амортизационные расходы некую сумму для ремонта автомобилей, выделять средства для повышения квалификации водителей (курсы водителей АТП, проводимых сотрудниками учебных центров ГИБДД) и социальный пакет на диспансеризацию и лечение работников АТП.

     По 50 водителям были зафиксированы  следующие переменные:

     Х1 – возраст водителя;

     Х2 – наличие проблем со зрением (имеются проблемы со зрением – 1, нет проблем – 0);

     Х3 – уровень подготовки водителя (если водитель прошел специальные курсы – 1, если нет – 0);

     Х4 – семейное положение (если женат  – 1, если холост или разведен или  вдовец – 0);

     Y – наличие дорожно-транспортных  происшествий (ДТП) за последний  год (0 – ДТП не было, 1 – ДТП  были).

     Исходные  данные представлены в таблице 1. 

  Y X1 X2 X3 Х4
Y Возраст Зрение Прошел курсы для  водителей Семейное положение
1 1 19 1 1 0
2 0 44 0 1 1
3 1 48 1 0 1
4 1 55 0 0 1
5 1 59 1 1 1
6 0 35 0 1 1
7 0 42 1 1 1
8 0 57 0 0 1
9 0 28 0 1 1
10 0 20 0 1 0
11 0 38 1 0 1
12 0 45 0 1 1
13 0 47 1 1 1
14 0 52 0 0 1
15 0 55 0 1 1
16 1 62 1 0 1
17 1 18 1 0 0
18 1 60 0 0 0
19 0 48 1 1 1
20 1 18 0 0 0
21 1 50 1 1 0
22 1 66 1 0 0
23 0 35 0 1 1
24 1 19 1 0 0
25 1 62 1 0 1
26 0 39 1 1 1
27 0 40 1 1 1
28 0 55 0 0 1
29 0 68 0 1 0
30 0 25 1 0 1
31 0 18 0 0 0
32 0 45 0 1 1
33 0 44 0 1 1
34 0 67 0 0 1
35 0 55 0 1 1
36 1 61 1 0 1
37 1 19 1 0 0
38 1 69 0 0 1
39 1 23 1 1 1
40 1 19 0 0 0
41 1 66 1 1 0
42 1 67 1 0 0
43 1 31 0 1 1
44 1 18 1 0 0
45 1 61 1 0 1
46 1 63 1 0 1
47 1 59 1 0 0
48 1 66 1 0 1
49 0 18 0 1 0
50 0 19 0 1 0

     Таблица 1. Исходные данные исследования 

     Начнем  с анализа описательных статистик (таблица 2) рассматриваемых переменных. 

Descriptive Statistics
  N Minimum Maximum Mean Std. Deviation
DTP 50 .00 1.00 .5000 .50508
Age 50 18.00 69.00 43.9400 17.69978
Vision 50 .00 1.00 .5200 .50467
Courses 50 .00 1.00 .4800 .50467
Marital Status 50 .00 1.00 .6400 .48487
Valid N (listwise) 50        
 

     Таблица 2. Описательные статистики исходных данных 

     Средний возраст работников АТП составляет около 44 лет, чуть более половины водителей имеют некоторые проблемы со зрением, чуть меньше половины работников прошли дополнительные курсы обучения, две трети состоят в зарегистрированном браке.

     Рассмотрим  матрицу парных коэффициентов корреляции для проверки мультиколлинеарности регрессоров (таблица 3).

     Анализ  матрицы парных коэффициентов корреляции свидетельствует о том, что мультиколлинеарных регрессоров нет.

     С увеличением возраста водителя вероятность  попадания в ДТП увеличивается (однако коэффициент статистически не значимый). С ухудшением зрения увеличиваются шансы попасть в ДТП (коэффициент статистически значимый). Прошедшие дополнительные курсы водители имеют меньше шансов попасть в ДТП (коэффициент статистически значимый). Женатые водители имеют меньше шансов попасть в ДТП (коэффициент статистически значимый на 5%-ном уровне).

     С увеличением возраста зрение снижается (однако коэффициент статистически  не значимый). 

Correlations
    DTP Age Vision Courses Marital Status
DTP Pearson Correlation 1 .136 .480** -.480** -.333*
Sig. (2-tailed)   .347 .000 .000 .018
N 50 50 50 50 50
Age Pearson Correlation .136 1 .097 -.182 .357*
Sig. (2-tailed) .347   .502 .206 .011
N 50 50 50 50 50
Vision Pearson Correlation .480** .097 1 -.199 -.053
Sig. (2-tailed) .000 .502   .167 .713
N 50 50 50 50 50
Courses Pearson Correlation -.480** -.182 -.199 1 .137
Sig. (2-tailed) .000 .206 .167   .344
N 50 50 50 50 50
Marital Status Pearson Correlation -.333* .357* -.053 .137 1
Sig. (2-tailed) .018 .011 .713 .344  
N 50 50 50 50 50
**. Correlation is significant at the 0.01 level (2-tailed).
*. Correlation is significant at the 0.05 level (2-tailed).
 

     Таблица 3. Матрица парных коэффициентов корреляции 
 

Classification Tablea,b
  Observed Predicted
  DTP Percentage Correct
  .00 1.00
Step 0 DTP .00 0 25 .0
1.00 0 25 100.0
Overall Percentage     50.0
a. Constant is included in the model.
b. The cut value is .500

     Таблица 4. Шаг 0. 

     Рассмотрим  модель, характеризующую влияние переменных Х1, Х2, Х3, Х4 на вероятность попадания в аварию. Для этого используем пакет SPSS.

     Таблица классификации на нулевом шаге представлена в таблице 4. Из этой таблицы можно  узнать, сколько наблюдений имеют  значения 1, и сколько 0. Логистическая  модель на следующих шагах будет предсказывать шансы и вероятности попадания в ДТП, базируясь на введенных переменных.

     Качество  приближения регрессионной модели оценивается с помощью  функции  правдоподобия. Мерой правдоподобия  служит отрицательное удвоенное  значение логарифма функции правдоподобия (-2Log(L)), отображаемое в таблице 5.  
 

Model Summary
Step -2 Log likelihood Cox & Snell R Square Nagelkerke R Square
1 39.450a .450 .600
a. Estimation terminated at iteration number 6 because parameter estimates changed by less than .001.
 

     Таблица 5. Сводка для модели 1 

     Чем меньше значение (-2Log(L)), тем лучше  сформированная модель.

     В качестве начального значения для (-2Log(L)) применяется значение, которое получается для регрессионной модели, содержащей только константы. После добавления переменных влияния значение (-2Log(L)) равно 39.450 и оно на 29.865 ниже, чем начальное. Это снижение означает улучшение, разность между исходным и конечным значением обозначается как величина хи-квадрат и является статистически значимой (таблица 6). 
 

Информация о работе Вероятность попадания в дорожно-транспортное происшествие