Вероятность попадания в дорожно-транспортное происшествие

Автор работы: Пользователь скрыл имя, 19 Января 2012 в 13:41, дипломная работа

Краткое описание

По данным автотранспортного предприятия был организован массив данных по 50 водителям. Автотранспортное предприятие страхует водителей от дорожно-транспортных происшествий и желает закладывать в амортизационные расходы некую сумму для ремонта автомобилей, выделять средства для повышения квалификации водителей (курсы водителей АТП, проводимых сотрудниками учебных центров ГИБДД) и социальный пакет на диспансеризацию и лечение работников АТП.

Скачать целиком (87.27 Кб) Сколько стоит заказать работу?

Содержимое работы - 1 файл

проект.doc

— 503.50 Кб (Скачать файл)

где , тогда отношение шансов (ОШ) может быть записано в виде

Отсюда получается, что, если модель верна, при независимых X1, X2, …, Xk изменение Xj на единицу вызывает изменение отношения шансов в раз.

График зависимости, связывающей вероятность события и величину показан на рисунке 1. Эта зависимость носит нелинейный характер, причем Р не может выходить за пределы диапазона от 0 до 1.

Рисунок 1. Логистическая кривая

Если вместо функции распределения выбрать функцию распределения нормального закона , то вместо логит-модели получим близкую ей пробит-модель.

Различать, когда следует применять логит-модль, а когда пробит-модель, в случае малых выборок невозможно, поскольку оценки коэффициентов модели отличаются множителем, который практически постоянен.

Существует несколько способов нахождения коэффициентов логистической регрессии. На практике часто используют метод максимального правдопдобия.

Практическая часть исследовательского проекта

По 50 водителям были зафиксированы следующие переменные:

Х1 – возраст водителя;

Х2 – наличие проблем со зрением (имеются проблемы со зрением – 1, нет проблем – 0);

Х3 – уровень подготовки водителя (если водитель прошел специальные курсы – 1, если нет – 0);

Х4 – семейное положение (если женат – 1, если холост или разведен или вдовец – 0);

Y – наличие дорожно-транспортных происшествий (ДТП) за последний год (0 – ДТП не было, 1 – ДТП были).

Исходные данные представлены в таблице 1.

	Y	X1	X2	X3	Х4
№	Y	Возраст	Зрение	Прошел курсы для водителей	Семейное положение
1	1	19	1	1	0
2	0	44	0	1	1
3	1	48	1	0	1
4	1	55	0	0	1
5	1	59	1	1	1
6	0	35	0	1	1
7	0	42	1	1	1
8	0	57	0	0	1
9	0	28	0	1	1
10	0	20	0	1	0
11	0	38	1	0	1
12	0	45	0	1	1
13	0	47	1	1	1
14	0	52	0	0	1
15	0	55	0	1	1
16	1	62	1	0	1
17	1	18	1	0	0
18	1	60	0	0	0
19	0	48	1	1	1
20	1	18	0	0	0
21	1	50	1	1	0
22	1	66	1	0	0
23	0	35	0	1	1
24	1	19	1	0	0
25	1	62	1	0	1
26	0	39	1	1	1
27	0	40	1	1	1
28	0	55	0	0	1
29	0	68	0	1	0
30	0	25	1	0	1
31	0	18	0	0	0
32	0	45	0	1	1
33	0	44	0	1	1
34	0	67	0	0	1
35	0	55	0	1	1
36	1	61	1	0	1
37	1	19	1	0	0
38	1	69	0	0	1
39	1	23	1	1	1
40	1	19	0	0	0
41	1	66	1	1	0
42	1	67	1	0	0
43	1	31	0	1	1
44	1	18	1	0	0
45	1	61	1	0	1
46	1	63	1	0	1
47	1	59	1	0	0
48	1	66	1	0	1
49	0	18	0	1	0
50	0	19	0	1	0

Таблица 1. Исходные данные исследования

Начнем с анализа описательных статистик (таблица 2) рассматриваемых переменных.

Descriptive Statistics
	N	Minimum	Maximum	Mean	Std. Deviation
DTP	50	.00	1.00	.5000	.50508
Age	50	18.00	69.00	43.9400	17.69978
Vision	50	.00	1.00	.5200	.50467
Courses	50	.00	1.00	.4800	.50467
Marital Status	50	.00	1.00	.6400	.48487
Valid N (listwise)	50

Таблица 2. Описательные статистики исходных данных

Средний возраст работников АТП составляет около 44 лет, чуть более половины водителей имеют некоторые проблемы со зрением, чуть меньше половины работников прошли дополнительные курсы обучения, две трети состоят в зарегистрированном браке.

Рассмотрим матрицу парных коэффициентов корреляции для проверки мультиколлинеарности регрессоров (таблица 3).

Анализ матрицы парных коэффициентов корреляции свидетельствует о том, что мультиколлинеарных регрессоров нет.

С увеличением возраста водителя вероятность попадания в ДТП увеличивается (однако коэффициент статистически не значимый). С ухудшением зрения увеличиваются шансы попасть в ДТП (коэффициент статистически значимый). Прошедшие дополнительные курсы водители имеют меньше шансов попасть в ДТП (коэффициент статистически значимый). Женатые водители имеют меньше шансов попасть в ДТП (коэффициент статистически значимый на 5%-ном уровне).

С увеличением возраста зрение снижается (однако коэффициент статистически не значимый).

Correlations
		DTP	Age	Vision	Courses	Marital Status
DTP	Pearson Correlation	1	.136	.480^**	-.480^**	-.333^*
	Sig. (2-tailed)		.347	.000	.000	.018
	N	50	50	50	50	50
Age	Pearson Correlation	.136	1	.097	-.182	.357^*
	Sig. (2-tailed)	.347		.502	.206	.011
	N	50	50	50	50	50
Vision	Pearson Correlation	.480^**	.097	1	-.199	-.053
	Sig. (2-tailed)	.000	.502		.167	.713
	N	50	50	50	50	50
Courses	Pearson Correlation	-.480^**	-.182	-.199	1	.137
	Sig. (2-tailed)	.000	.206	.167		.344
	N	50	50	50	50	50
Marital Status	Pearson Correlation	-.333^*	.357^*	-.053	.137	1
	Sig. (2-tailed)	.018	.011	.713	.344
	N	50	50	50	50	50
**. Correlation is significant at the 0.01 level (2-tailed).
*. Correlation is significant at the 0.05 level (2-tailed).

Таблица 3. Матрица парных коэффициентов корреляции

Classification Table^a,b
	Observed		Predicted
			DTP		Percentage Correct
			.00	1.00
Step 0	DTP	.00	0	25	.0
		1.00	0	25	100.0
	Overall Percentage				50.0
a. Constant is included in the model.
b. The cut value is .500

Таблица 4. Шаг 0.

Рассмотрим модель, характеризующую влияние переменных Х1, Х2, Х3, Х4 на вероятность попадания в аварию. Для этого используем пакет SPSS.

Таблица классификации на нулевом шаге представлена в таблице 4. Из этой таблицы можно узнать, сколько наблюдений имеют значения 1, и сколько 0. Логистическая модель на следующих шагах будет предсказывать шансы и вероятности попадания в ДТП, базируясь на введенных переменных.

Качество приближения регрессионной модели оценивается с помощью функции правдоподобия. Мерой правдоподобия служит отрицательное удвоенное значение логарифма функции правдоподобия (-2Log(L)), отображаемое в таблице 5.

Model Summary
Step	-2 Log likelihood	Cox & Snell R Square	Nagelkerke R Square
1	39.450^a	.450	.600
a. Estimation terminated at iteration number 6 because parameter estimates changed by less than .001.

Таблица 5. Сводка для модели 1

Чем меньше значение (-2Log(L)), тем лучше сформированная модель.

В качестве начального значения для (-2Log(L)) применяется значение, которое получается для регрессионной модели, содержащей только константы. После добавления переменных влияния значение (-2Log(L)) равно 39.450 и оно на 29.865 ниже, чем начальное. Это снижение означает улучшение, разность между исходным и конечным значением обозначается как величина хи-квадрат и является статистически значимой (таблица 6).

Информация о работе Вероятность попадания в дорожно-транспортное происшествие