Автор работы: Пользователь скрыл имя, 05 Апреля 2012 в 17:22, курсовая работа
В широком смысле статистика – наука, изучающая массовые явления, то есть явления, протекающие в совокупностях объектов некоторого рода и между взаимодействующими совокупностями. Массовое явление – множество однородных явлений, подверженных действию постоянных и случайных причин, закономерности которых могут проявится только в массе, совокупности. Статистическая совокупность – множество реально существующих материальных предметов, процессов или явлений, однородных по одному или нескольким признакам.
1. Введение
2. Анализ эмпирического распределения
3. Проведение выборочного наблюдения
4. Заключение
5. Список используемой литературы
(188) 463.9
(189) 465.1
(190) 471.6
(191) 483.3
(192) 491.1
(193) 495.2
(194) 498
(195) 499.2
(196) 521.6
(197) 526.5
(198) 566.8
--------------
Составной частью обработки данных статистического наблюдения является построение интервальных рядов распределения. Цель его – выявление основных свойств и закономерностей исследуемой статистической совокупности. Интервал указывает определённые пределы значений варьирующего признака и обозначается нижний и верхний пределы интервала. Такие распределения наиболее распространены в практике статистической работы. В зависимости от того, является ли признак, взятый за основу группировки, качественным или количественным, различают соответственно два типа рядов распределения – атрибутивные и вариационные.
При построении интервальных рядов распределения необходимо прежде всего установить число интервалов, на которые следует разбить все единицы изучаемой совокупности. Автоматически устанавливается рекомендуемое системой число интервалов. В нашем примере —23. При этом следует иметь ввиду, что алгоритм определения числа интервалов (К=4,45 lnn), реализуемый в пакете STATGRAPHICS, дает завышенное число интервалов по сравнению с тем, что получается по известной Sturge's формуле: K = 1 + 3.322 Lg n. Следующим этапом анализа является табличное и графическое представление исходных данных. Статистическая таблица – форма рационального и наглядного изложения цифровых характеристик исследуемых явлений и его составных частей. Статистическое обобщение информации и представление её в виде сводных таблиц даёт возможность характеризовать размеры, структуру и динамику изучаемых явлений. Графическое изображение рядов распределения наряду со статистическими таблицами, являются важным средством выражения и анализа статистических данных, поскольку наглядное представление облегчает восприятие информации. Графики позволяют мгновенно охватить и осмыслить совокупность показателей - выявить наиболее типичные соотношения и связи этих показателей, определить тенденции развития, охарактеризовать структуру, степень выполнения плана, оценить географическое размещение объектов. Этим объясняется широкое применение графиков и таблиц для пропаганды статистической информации, характеризующей результаты развития различных сфер национальной экономики и социальных отношений.
(1) Frequency Tabulation
------------------------------
Lower Upper Relative Cumulative Cum. Rel.
Class Limit Limit Midpoint Frequency Frequency Frequency Frequency
------------------------------
at or below .00 0 .00000 0 .0000
1 .00 26.09 13.04 0 .00000 0 .0000
2 26.09 52.17 39.13 0 .00000 0 .0000
3 52.17 78.26 65.22 0 .00000 0 .0000
4 78.26 104.35 91.30 0 .00000 0 .0000
5 104.35 130.43 117.39 3 .01515 3 .0152
6 130.43 156.52 143.48 3 .01515 6 .0303
7 156.52 182.61 169.57 7 .03535 13 .0657
8 182.61 208.70 195.65 6 .03030 19 .0960
9 208.70 234.78 221.74 23 .11616 42 .2121
10 234.78 260.87 247.83 19 .09596 61 .3081
11 260.87 286.96 273.91 21 .10606 82 .4141
12 286.96 313.04 300.00 16 .08081 98 .4949
13 313.04 339.13 326.09 21 .10606 119 .6010
------------------------------
Mean = 315.773 Standard Deviation = 89.9254 Median = 314.65
(2) Frequency Tabulation
------------------------------
Lower Upper Relative Cumulative Cum. Rel.
Class Limit Limit Midpoint Frequency Frequency Frequency Frequency
------------------------------
14 339.13 365.22 352.17 18 .09091 137 .6919
15 365.22 391.30 378.26 17 .08586 154 .7778
16 391.30 417.39 404.35 17 .08586 171 .8636
17 417.39 443.48 430.43 11 .05556 182 .9192
18 443.48 469.57 456.52 7 .03535 189 .9545
19 469.57 495.65 482.61 4 .02020 193 .9747
20 495.65 521.74 508.70 3 .01515 196 .9899
21 521.74 547.83 534.78 1 .00505 197 .9949
22 547.83 573.91 560.87 1 .00505 198 1.0000
23 573.91 600.00 586.96 0 .00000 198 1.0000
above 600.00
------------------------------
Mean = 315.773 Standard Deviation = 89.9254 Median = 314.65
В данной таблице для каждого интервала определен верхний и нижний предел, медиана данного интервала, абсолютная частота, относительная и накопленная (кумулятивная) частота. Из данной таблицы видно, что наибольшее количество единиц генеральной совокупности сосредоточено в девятом интервале (23 единиц).
В качестве графического изображения вариационного ряда могут быть использованы традиционные графики: гистограмма, полигон, кумулята. В нашем примере графики строятся в абсолютных частотах. Для графического изображения интервальных вариационных рядов применяется гистограмма. Она стоится так: на оси абсцисс откладываются равные отрезки, которые в принятом масштабе соответствуют величине интервалов вариационного ряда. На отрезках строят прямоугольники, площади которых пропорциональны частотам интервала. Гистограмма может быть преобразована в полигон распределения, если середины верхних сторон прямоугольников соединить отрезками прямых. Две крайние точки прямоугольников замыкаются по оси абсцисс на середины интервалов, в которых частоты равны нулю.
По построенной гистограмме распределения можно определить значение моды. Для этого правую вершину модального прямоугольника соединяем с правым верхним углом предыдущего прямоугольника, а левую вершину модального прямоугольника – с левым верхним углом последующего прямоугольника. Абсцисса точки пересечения этих прямых и будет модой распределения.
В ряде случаев для изображения вариационных рядов используется кумулятивная кривая (кумулята). Для её построения надо рассчитать накопленные частоты и частости. Накопленные частоты показывают, сколько единиц совокупности имеют значение признака не больше, чем рассматриваемое значение, и определяются последовательным суммированием частот интервалов. При построении кумуляты интервального ряда распределения нижней границе первого интервала соответствует частота, равная нулю, а верхней границе – вся частота данного интервала.
Медиану распределения можно определить по кумуляте. Для её определения высоту наибольшей ординаты, которая соответствует общей численности совокупности, делят пополам. Через полученную точку проводят прямую, параллельную осе абсцисс, до пересечения её с кумулятой. Абсцисса точки пересечения является медианой.
Для графического изображения дискретного ряда применяют полигон распределения. Для его построения на оси абсцисс отмечают точки, соответствующие величине вариантов значений признака, из них восстанавливаются перпендикуляры, длина которых соответствует частоте (частости) этих вариантов по принятому масштабу на оси ординат. Вершины перпендикуляров в последовательном порядке соединяются отрезками прямых.
Подставив в Sturge's формулу количество единиц данной совокупности получим количество интервалов для нашей совокупности: K= 1 + 3.322 Lg 198 = 8.8, округляем до целого числа получим 9 интервалов. Построим гистограмму, полигон и кумуляту с этим количеством интервалов.
Эмпирические данные в определённой степени связаны со случайными ошибками наблюдения, величина которых неизвестна. Влияние этих случайностей затемняет основную закономерность изменения величины признака. С увеличением числа наблюдений и одновременным уменьшением величины интервала зигзаги полигона распределения начинают сглаживаться, и в пределе мы приходим к плавной кривой, которая называется кривой распределения. Кривая распределения характеризует теоретическое распределение, т.е. то распределение, которое получилось бы при полном погашении всех случайных причин, затемняющих основную закономерность. Укажем особенности кривой нормального распределения:
кривая симметрична относительно максимальной ординаты. Максимальная ордината соответствует значению , и её величина равна ;
кривая асимптотически приближается к оси абсцисс, продолжаясь в обе стороны до бесконечности;
кривая имеет две точки перегиба, находящиеся на расстоянии от;
при =const с увеличением кривая становится более пологой. При = const с изменением кривая не меняет свою форму, а лишь сдвигается вправо или влево по осе абсцисс;
в промежутке находится 68,3% всех значений признака, в промежутке находится 95,4% всех значений признака, а в промежутке находится 99,7% значений признака.
Исследование закономерности ( или формы ) распределения включает решение трёх основных задач:
- выяснение общего характера распределения;
- выравневание эмпирического распределения, которое состоит в том, что на основании эмпирического распределения строится кривая y = f (x) c заданной формой;
- проверка соответствия найденного теоретического распределения эмпирическому.
В ППП STATGRAPHICS предлагается сгладить эмпирическое распределение несколькими теоретическими законами:
1. Сглаживание эмпирического распределения нормальным законом распределения
2. Сглаживание эмпирического распределения треугольным законом распределения
Сгладив эмпирическое распределение некоторыми теоретическими законами распределения, необходимо оценить правомерность такого сглаживания, то есть провести проверку статистической гипотезы о законе распределения. Проведем проверку статистической гипотезы о законе распределения по критерию Пирсона — "Chi-square test":
Чем больше разность между наблюдаемыми и теоретическими частотами, тем больше величина критерия Пирсона. Чтобы отличить существенные значения χ 2 от значений, которые могут возникнуть в результате случайностей выборки, рассчитанное значение критерия сравнивается с табличным значением χ т2 при соответствующем числе степеней свободы и заданном уровне значимости. Уровень значимости выбираем таким образом, что Р (χ 2 > χ т2) = ά ( величина ά принимается равной 0.05). С помощью ППП STATGRAPHICS оценим правомерность нормального (1) и треугольного (2) сглаживания, используя критерий Пирсона.
(1) Chisquare Test
------------------------------
Lower Upper Observed Expected
Limit Limit Frequency Frequency Chisquare
------------------------------
at or below 156.522 6 7.6 .32960
156.522 182.609 7 6.1 .11873
182.609 208.696 6 9.4 1.23895
208.696 234.783 23 13.3 7.13811
234.783 260.870 19 17.2 .18874
260.870 286.957 21 20.5 .01193
286.957 313.043 16 22.5 1.87203
313.043 339.130 21 22.7 .12545
339.130 365.217 18 21.1 .44204
365.217 391.304 17 18.0 .05203
391.304 417.391 17 14.1 .59392
417.391 443.478 11 10.2 .06500
443.478 469.565 7 6.8 .00807
above 469.565 9 8.6 .01541
------------------------------
Chisquare = 12.2 with 11 d.f. Sig. level = 0.348798