Автор работы: Пользователь скрыл имя, 19 Января 2012 в 13:41, дипломная работа
По данным автотранспортного предприятия был организован массив данных по 50 водителям. Автотранспортное предприятие страхует водителей от дорожно-транспортных происшествий и желает закладывать в амортизационные расходы некую сумму для ремонта автомобилей, выделять средства для повышения квалификации водителей (курсы водителей АТП, проводимых сотрудниками учебных центров ГИБДД) и социальный пакет на диспансеризацию и лечение работников АТП.
где , тогда отношение шансов (ОШ) может быть записано в виде
Отсюда получается, что, если модель верна, при независимых X1, X2, …, Xk изменение Xj на единицу вызывает изменение отношения шансов в раз.
График зависимости, связывающей вероятность события и величину показан на рисунке 1. Эта зависимость носит нелинейный характер, причем Р не может выходить за пределы диапазона от 0 до 1.
Рисунок 1. Логистическая кривая
Если вместо функции распределения выбрать функцию распределения нормального закона , то вместо логит-модели получим близкую ей пробит-модель.
Различать,
когда следует применять логит-
Существует
несколько способов нахождения коэффициентов
логистической регрессии. На практике
часто используют метод максимального
правдопдобия.
Практическая часть
исследовательского
проекта
По данным автотранспортного предприятия был организован массив данных по 50 водителям. Автотранспортное предприятие страхует водителей от дорожно-транспортных происшествий и желает закладывать в амортизационные расходы некую сумму для ремонта автомобилей, выделять средства для повышения квалификации водителей (курсы водителей АТП, проводимых сотрудниками учебных центров ГИБДД) и социальный пакет на диспансеризацию и лечение работников АТП.
По 50 водителям были зафиксированы следующие переменные:
Х1 – возраст водителя;
Х2 – наличие проблем со зрением (имеются проблемы со зрением – 1, нет проблем – 0);
Х3 – уровень подготовки водителя (если водитель прошел специальные курсы – 1, если нет – 0);
Х4 – семейное положение (если женат – 1, если холост или разведен или вдовец – 0);
Y
– наличие дорожно-
Исходные
данные представлены в таблице 1.
Y | X1 | X2 | X3 | Х4 | |
№ | Y | Возраст | Зрение | Прошел курсы для водителей | Семейное положение |
1 | 1 | 19 | 1 | 1 | 0 |
2 | 0 | 44 | 0 | 1 | 1 |
3 | 1 | 48 | 1 | 0 | 1 |
4 | 1 | 55 | 0 | 0 | 1 |
5 | 1 | 59 | 1 | 1 | 1 |
6 | 0 | 35 | 0 | 1 | 1 |
7 | 0 | 42 | 1 | 1 | 1 |
8 | 0 | 57 | 0 | 0 | 1 |
9 | 0 | 28 | 0 | 1 | 1 |
10 | 0 | 20 | 0 | 1 | 0 |
11 | 0 | 38 | 1 | 0 | 1 |
12 | 0 | 45 | 0 | 1 | 1 |
13 | 0 | 47 | 1 | 1 | 1 |
14 | 0 | 52 | 0 | 0 | 1 |
15 | 0 | 55 | 0 | 1 | 1 |
16 | 1 | 62 | 1 | 0 | 1 |
17 | 1 | 18 | 1 | 0 | 0 |
18 | 1 | 60 | 0 | 0 | 0 |
19 | 0 | 48 | 1 | 1 | 1 |
20 | 1 | 18 | 0 | 0 | 0 |
21 | 1 | 50 | 1 | 1 | 0 |
22 | 1 | 66 | 1 | 0 | 0 |
23 | 0 | 35 | 0 | 1 | 1 |
24 | 1 | 19 | 1 | 0 | 0 |
25 | 1 | 62 | 1 | 0 | 1 |
26 | 0 | 39 | 1 | 1 | 1 |
27 | 0 | 40 | 1 | 1 | 1 |
28 | 0 | 55 | 0 | 0 | 1 |
29 | 0 | 68 | 0 | 1 | 0 |
30 | 0 | 25 | 1 | 0 | 1 |
31 | 0 | 18 | 0 | 0 | 0 |
32 | 0 | 45 | 0 | 1 | 1 |
33 | 0 | 44 | 0 | 1 | 1 |
34 | 0 | 67 | 0 | 0 | 1 |
35 | 0 | 55 | 0 | 1 | 1 |
36 | 1 | 61 | 1 | 0 | 1 |
37 | 1 | 19 | 1 | 0 | 0 |
38 | 1 | 69 | 0 | 0 | 1 |
39 | 1 | 23 | 1 | 1 | 1 |
40 | 1 | 19 | 0 | 0 | 0 |
41 | 1 | 66 | 1 | 1 | 0 |
42 | 1 | 67 | 1 | 0 | 0 |
43 | 1 | 31 | 0 | 1 | 1 |
44 | 1 | 18 | 1 | 0 | 0 |
45 | 1 | 61 | 1 | 0 | 1 |
46 | 1 | 63 | 1 | 0 | 1 |
47 | 1 | 59 | 1 | 0 | 0 |
48 | 1 | 66 | 1 | 0 | 1 |
49 | 0 | 18 | 0 | 1 | 0 |
50 | 0 | 19 | 0 | 1 | 0 |
Таблица
1. Исходные данные исследования
Начнем
с анализа описательных статистик
(таблица 2) рассматриваемых переменных.
Descriptive Statistics | |||||
N | Minimum | Maximum | Mean | Std. Deviation | |
DTP | 50 | .00 | 1.00 | .5000 | .50508 |
Age | 50 | 18.00 | 69.00 | 43.9400 | 17.69978 |
Vision | 50 | .00 | 1.00 | .5200 | .50467 |
Courses | 50 | .00 | 1.00 | .4800 | .50467 |
Marital Status | 50 | .00 | 1.00 | .6400 | .48487 |
Valid N (listwise) | 50 |
Таблица
2. Описательные статистики
исходных данных
Средний возраст работников АТП составляет около 44 лет, чуть более половины водителей имеют некоторые проблемы со зрением, чуть меньше половины работников прошли дополнительные курсы обучения, две трети состоят в зарегистрированном браке.
Рассмотрим матрицу парных коэффициентов корреляции для проверки мультиколлинеарности регрессоров (таблица 3).
Анализ матрицы парных коэффициентов корреляции свидетельствует о том, что мультиколлинеарных регрессоров нет.
С увеличением возраста водителя вероятность попадания в ДТП увеличивается (однако коэффициент статистически не значимый). С ухудшением зрения увеличиваются шансы попасть в ДТП (коэффициент статистически значимый). Прошедшие дополнительные курсы водители имеют меньше шансов попасть в ДТП (коэффициент статистически значимый). Женатые водители имеют меньше шансов попасть в ДТП (коэффициент статистически значимый на 5%-ном уровне).
С
увеличением возраста зрение снижается
(однако коэффициент статистически
не значимый).
Correlations | ||||||
DTP | Age | Vision | Courses | Marital Status | ||
DTP | Pearson Correlation | 1 | .136 | .480** | -.480** | -.333* |
Sig. (2-tailed) | .347 | .000 | .000 | .018 | ||
N | 50 | 50 | 50 | 50 | 50 | |
Age | Pearson Correlation | .136 | 1 | .097 | -.182 | .357* |
Sig. (2-tailed) | .347 | .502 | .206 | .011 | ||
N | 50 | 50 | 50 | 50 | 50 | |
Vision | Pearson Correlation | .480** | .097 | 1 | -.199 | -.053 |
Sig. (2-tailed) | .000 | .502 | .167 | .713 | ||
N | 50 | 50 | 50 | 50 | 50 | |
Courses | Pearson Correlation | -.480** | -.182 | -.199 | 1 | .137 |
Sig. (2-tailed) | .000 | .206 | .167 | .344 | ||
N | 50 | 50 | 50 | 50 | 50 | |
Marital Status | Pearson Correlation | -.333* | .357* | -.053 | .137 | 1 |
Sig. (2-tailed) | .018 | .011 | .713 | .344 | ||
N | 50 | 50 | 50 | 50 | 50 | |
**. Correlation is significant at the 0.01 level (2-tailed). | ||||||
*. Correlation is significant at the 0.05 level (2-tailed). |
Таблица
3. Матрица парных
коэффициентов корреляции
Classification Tablea,b | |||||
Observed | Predicted | ||||
DTP | Percentage Correct | ||||
.00 | 1.00 | ||||
Step 0 | DTP | .00 | 0 | 25 | .0 |
1.00 | 0 | 25 | 100.0 | ||
Overall Percentage | 50.0 | ||||
a. Constant is included in the model. | |||||
b. The cut value is .500 |
Таблица
4. Шаг 0.
Рассмотрим модель, характеризующую влияние переменных Х1, Х2, Х3, Х4 на вероятность попадания в аварию. Для этого используем пакет SPSS.
Таблица классификации на нулевом шаге представлена в таблице 4. Из этой таблицы можно узнать, сколько наблюдений имеют значения 1, и сколько 0. Логистическая модель на следующих шагах будет предсказывать шансы и вероятности попадания в ДТП, базируясь на введенных переменных.
Качество
приближения регрессионной
Model Summary | |||
Step | -2 Log likelihood | Cox & Snell R Square | Nagelkerke R Square |
1 | 39.450a | .450 | .600 |
a. Estimation terminated at iteration number 6 because parameter estimates changed by less than .001. |
Таблица
5. Сводка для модели 1
Чем меньше значение (-2Log(L)), тем лучше сформированная модель.
В
качестве начального значения для (-2Log(L))
применяется значение, которое получается
для регрессионной модели, содержащей
только константы. После добавления переменных
влияния значение (-2Log(L)) равно 39.450 и оно
на 29.865 ниже, чем начальное. Это снижение
означает улучшение, разность между исходным
и конечным значением обозначается как
величина хи-квадрат и является статистически
значимой (таблица 6).
Информация о работе Вероятность попадания в дорожно-транспортное происшествие