Автоматизированный априорный анализ статистической совокупности в среде MS Excel

Автор работы: Пользователь скрыл имя, 01 Мая 2012 в 15:53, лабораторная работа

Краткое описание

В процессе исследования совокупности необходимо решить ряд задач.
I. Статистический анализ выборочной совокупности
1. Выявить наличие среди исходных данных резко выделяющихся значений признаков (аномалий в данных) и исключить их из выборки.
2. Рассчитать обобщающие статистические показатели совокупности по изучаемым признакам: среднюю арифметическую ( ), моду (Мо), медиану (Ме), размах вариации (R), дисперсию( ), среднее квадратическое отклонение ( ), коэффициент вариации (Vσ).
3. На основе рассчитанных показателей в предположении, что распределения единиц по обоим признакам близки к нормальному, оценить:
а) степень колеблемости значений признаков в совокупности;
б) степень однородности совокупности по изучаемым признакам;
в) количество попаданий индивидуальных значений признаков в диапазоны ( ), ( ), ( )..

Содержимое работы - 1 файл

ОТЧЕТ 1,2,3 (шаблон).doc

— 599.00 Кб (Скачать файл)

      Расхождение с правилом «трех  сигм» может быть существенным. Например, менее 60% значений хi попадают в центральный диапазон ( ) или значительно более 5% значения хi выходит за диапазон ( ). В этих случаях распределение нельзя считать близким к нормальному.

 
 
 

      Вывод:

      Сравнение данных графы 5 табл.9 с правилом «трех  сигм» показывает на их незначительное расхождение, следовательно, распределение единиц совокупности по признаку Среднегодовая стоимость основных производственных фондов можно считать близким к нормальному.

      Сравнение данных графы 6 табл.9 с правилом «трех  сигм» показывает на незначительное расхождение, следовательно, распределение единиц совокупности по признаку Выпуск продукции можно считать близким к нормальному.

      Задача 4. Для ответа на вопросы 4а) – 4в) необходимо воспользоваться табл.8 и сравнить величины показателей для двух признаков.

      Для сравнения степени колеблемости значений изучаемых признаков, степени однородности совокупности по этим признакам, надежности их средних значений используются коэффициенты вариации Vs признаков.

      Вывод:

      Так как Vs для первого признака меньше , чем Vs для второго признака, то колеблемость значений первого признака меньше колеблемости значений второго признака, совокупность более однородна по второму признаку, среднее значение первого признака является более надежным, чем у второго признака.

      Задача 5. Интервальный вариационный ряд распределения единиц совокупности по признаку Среднегодовая стоимость основных производственных фондов представлен в табл.7, а его гистограмма и кумулята – на рис.2.

      Возможность отнесения распределения признака «Среднегодовая стоимость основных производственных фондов» к семейству нормальных распределений устанавливается путем анализа формы гистограммы распределения. Анализируются количество вершин в гистограмме, ее асимметричность и выраженность «хвостов», т.е. частоты появления в распределении значений, выходящих за диапазон ( ).

      1. При анализе формы гистограммы прежде всего следует оценить распределение вариантов признака по интервалам (группам). Если на гистограмме четко прослеживаются два-три «горба» частот вариантов, это говорит о том, что значения признака концентрируются сразу в нескольких интервалах, что не соответствует нормальному закону распределения.

      Если  гистограмма имеет одновершинную форму, есть основания предполагать, что выборочная совокупность может иметь характер распределения, близкий к нормальному.

      2. Для дальнейшего анализа  формы распределения используются описательные параметры выборки – показатели центра распределения ( , Mo, Me) и вариации ( ). Совокупность этих показателей позволяет дать качественную оценку близости эмпирических данных к нормальной форме распределения.

      Нормальное  распределение является симметричным, и для него выполняются соотношения:

=Mo=Me

Нарушение этих соотношений свидетельствует о наличии асимметрии распределения. Распределения с небольшой или умеренной асимметрией в большинстве случаев относятся к нормальному типу.

      3. Для  анализа  длины «хвостов» распределения используется правило «трех сигм». Согласно этому правилу в нормальном и близким к нему распределениях крайние значения признака (близкие к хmin и хmax) встречаются много реже (5-7 % всех случаев), чем лежащие в диапазоне ( ). Следовательно, по проценту выхода значений признака за пределы диапазона ( ) можно судить о соответствии длины «хвостов» распределения нормальному закону.

      Вывод:

      1. Гистограмма является многовершинной.

      2. Распределение приблизительно симметрично, так как параметры =, Mo, Me  отличаются незначительно:

      

= 6920,            Mo=7167,50,          Me=6994,25.

      3. “Хвосты” распределения являются длинными, т.к. согласно графе 5 табл.9  3,4% вариантов лежат за пределами интервала ( )=(4565,68;9274,32) млн. руб.

      Следовательно, на основании п.п. 1,2,3, можно сделать заключение о близости изучаемого распределения к нормальному.

 

      II. Статистический анализ  генеральной совокупности

Задача 1. Рассчитанные в табл.3 генеральные показатели представлены в табл.10.

      Таблица 10

      Описательные  статистики генеральной совокупности

Обобщающие  статистические показатели совокупности по изучаемым признакам Признаки
Среднегодовая стоимость основных производственных фондов Выпуск  продукции
Стандартное отклонение , млн. руб. 1197,28 1428,25
Дисперсия 1433480,74 2039906,35
Асимметричность As -0,15 0,04
Эксцесс Ek -0,34 -0,20

      Для нормального распределения справедливо  равенство

      RN=6sN.

      В условиях близости распределения единиц генеральной совокупности к нормальному это соотношение используется для прогнозной оценки размаха вариации признака в генеральной совокупности.

      Ожидаемый размах вариации признаков RN:

      - для первого признака RN =7183,68,

      - для второго признака RN  =8569,5.

     Соотношение между генеральной и выборочной дисперсиями:

      - для первого признака  1,03, т.е. расхождение между дисперсиями незначительное ;

      ля второго признака 1,03, т.е. расхождение между дисперсиями незначительное.

      Задача 2. Применение выборочного метода наблюдения связано с измерением степени достоверности статистических характеристик генеральной совокупности, полученных по результатам выборочного наблюдения. Достоверность генеральных параметров зависит от репрезентативности выборки, т.е. от того, насколько полно и адекватно представлены в выборке статистические свойства генеральной совокупности.

      Как правило, статистические характеристики выборочной и генеральной совокупностей  не совпадают, а отклоняются на некоторую величину ε, которую называют ошибкой выборки (ошибкой репрезентативности). Ошибка выборки – это разность между значением показателя, который был получен по выборке, и генеральным значением этого показателя. Например, разность

   

= |
-
|

определяет  ошибку репрезентативности для средней  величины признака.

      Так как ошибки выборки всегда случайны, вычисляют среднюю и предельную ошибки выборки.

      1. Для среднего значения признака  средняя ошибка выборки (ее называют также стандартной ошибкой)  выражает среднее квадратическое отклонение s выборочной средней от математического ожидания M[ ] генеральной средней .

     Для изучаемых признаков средние ошибки выборки даны в табл. 3:

     - для признака Среднегодовая стоимость основных производственных фондов

          =218,59,

    - для  признака Выпуск продукции

          =260,76.

      2. Предельная ошибка выборки определяет границы, в пределах которых  лежит генеральная средняя . Эти границы задают так называемый доверительный интервал генеральной средней – случайную область значений, которая с вероятностью P, близкой к 1,  гарантированно содержит значение генеральной средней. Эту вероятность называют доверительной вероятностью или уровнем надежности.

      Для уровней надежности P=0,954; P=0,683 оценки предельных ошибок выборки даны в табл. 3 и табл. 4.

      Для генеральной средней предельные значения и доверительные интервалы  определяются выражениями:

                             ,

               

      Предельные  ошибки выборки и ожидаемые границы  для генеральных средних представлены в табл. 11.

      Таблица 11

Предельные  ошибки выборки и ожидаемые границы  для генеральных средних

Доверительная

вероятность

      Р

Коэффи-циент

доверия

        t

Предельные  ошибки выборки, млн. руб. Ожидаемые границы для средних 
, млн. руб.
для первого

признака

для второго

признака

для первого

признака

для второго

признака

0,683 1 222,57 265,51 6697,43
7142,57
6190,94
6721,96
0,954 2 447,07 533,32 6472,93
7367,07
5923,13
6989,77

Вывод:

     Увеличение  уровня надежности ведет к расширению ожидаемых границ для генеральных средних.

     Задача 3. Рассчитанные в табл.3 значения коэффициентов асимметрии As и эксцесса Ek даны в табл.10.

        1.Показатель  асимметрии As оценивает смещение ряда распределения влево или вправо по отношению к оси симметрии нормального распределения.

      Если  асимметрия правосторонняя (As>0) то правая часть эмпирической кривой оказывается длиннее левой, т.е. имеет место неравенство >Me>Mo, что означает преимущественное появление в распределении более высоких значений признака (среднее значение больше серединного Me и модального Mo).

      Если  асимметрия левосторонняя (As<0), то левая часть эмпирической кривой оказывается длиннее правой и выполняется неравенство <Me<Mo, означающее, что в распределении чаще встречаются более низкие значения признака (среднее значение меньше серединного Me и модального Mo).

     Чем больше величина |As|, тем более асимметрично распределение. Оценочная шкала асимметрии:

Информация о работе Автоматизированный априорный анализ статистической совокупности в среде MS Excel