Автор работы: Давыдов Максим, 31 Мая 2010 в 20:57, шпаргалка
лекции
Простые и сложные гипотезы. Говоря о теоретическом законе распределения, которому гипотетически должны бы следовать элементы данной выборки, надо различать простые и сложные (т.е. составные) гипотезы об этом законе:
Например, для ошибок округления при измерении расстояний с помощью линейки со шкалой 1 см мы можем предположить, что их распределение — равномерное на отрезке от —0.5 см до 0.5 см. Эта гипотеза является простой, так как она указывает единственное теоретическое распределение. А при исследовании мощности выпущенных с завода электрических лампочек мы можем предположить, что эта мощность описывается нормальным распределением с неизвестными средним и дисперсией. Эта гипотеза — сложная, она представляет собой двухпараметрическое семейство распределений.
Естественно, что методы проверки согласия с простыми и сложными гипотезами должны быть различны. Мы начнем с простых гипотез, хотя на практике они встречаются реже, чем сложные: ведь в большинстве случаев теоретические соображения или традиция не идут далее указания типа распределения (нормальный, показательный, пуассоновский и т.п.), параметры которого остаются неопределенными. 1
Критерий согласия Колмогорова в случае простой гипотезы
Простая гипотеза. Мы будем рассматривать ситуацию, когда измеряемые данные являются числами, иначе говоря, одномерными случайными величинами. Как уже говорилось распределение одномерных случайных величин может быть полностью описано указанием их функции распределения. И многие критерии согласия основаны на проверке близости теоретической и эмпирической (выборочной) функций распределения.
Пусть мы имеем выборку размера п. Обозначим истинную функцию распределения, которой подчиняются наблюдения, G(x), эмпирическую (выборочную) функцию распределения — Fn(x), а гипотетическую функцию распределения — F(x). Тогда гипотеза Н о том, что истинная функция распределения есть F(x), записывается в виде
H: G(X) =F(X).
Как проверить гипотезу H? Если H верна, то Fn и F должны проявлять определенное сходство, и различие между ними должно убывать с увеличением п. Действительно, вследствие теоремы Бернулли Fn(x) → F(x} при п → ∞. Для количественного выражения сходства функций Fn и F используют различные способы, о которых будет говориться ниже.
Статистика Колмогорова. Для выражения сходства функций можно использовать то или иное расстояние между этими функциями. Например, можно сравнить Fn и F в равномерной метрике, т.е. рассмотреть величину:
Определение. Статистику Dn называют статистикой Колмогорова.
Очевидно, что Dn — случайная величина, поскольку ее значение зависит от случайного объекта Fn. Если гипотеза H справедлива и n→∞, то Fn{x) →F(x) при всяком х. Поэтому естественно, что при этих условиях Dn → 0. Если же гипотеза Я неверна, то Fn → G и G ≠ F, а потому sup-∞<x<∞ | Fn(x) - F(x) → supx | G(x) - F(x] .. Эта последняя величина положительна, так как G не совпадает с F. Такое различие в поведении Dn в зависимости от того, верна H или нет, позволяет использовать Dn как статистику для проверки H.
Как всегда при проверке гипотезы, следует рассуждать так, как если бы гипотеза была верна. Ясно, что H должна быть отвергнута, если полученное в эксперименте значение оказывается неправдоподобно большим. Но для этого надо знать как распределена статистика Dn при гипотезе H: G(X) =F(X) и данных xиG.
Оказывается, что если гипотетическое распределение указано правильно, то закон распределения статистики Dn одним и тем же для всех непрерывных функций G и зависит только от объема выборки n.
.
Критерий согласия хи-квадрат К.Пирсона для простой гипотезы
Теоретики предложили много статистических критериев, аналогичных Dn и ш2n. При всей привлекательности их с математической точки зрения надо отметить, что требование непрерывности теоретического распределения F(X) позволяет прилагать их не ко всем выборкам. Например, вне поля их действия остаются выборки из дискретных распределений. Поэтому надо познакомиться с более универсальным критерием К.Пирсона (1900), опирающимся на теорему, также носящую имя К.Пирсона.
Теорема К.Пирсона
относится к независимым
Теорема К.Пирсона. Пусть п — число независимых повторений некоего опыта, который заканчивается одним из r (r — натуральное число) элементарных исходов, скажем, a1, ..., Аr. Пусть р1,..., рr — вероятности этих исходов, причем p1 + …+рг = 1. Обозначим через m1,...,mr количества опытов, заканчивающихся, соответственно, исходами a1,..., Аr. (Ясно, что m1 + ... + mr = п.) Введем случайную величину
Тогда справедливо следующее утверждение: при n→∞ случайная величина χ2 асимптотически подчиняется распределению хи-квадрат) с (r — 1) степенями свободы.
Гипотеза. Теорему К.Пирсона можно использовать для проверки гипотезы о том, что вероятности p1,. . . , рr приняли определенные значения р°1,..., р°r. Далее будем называть это гипотезой Н:
Н
: p1 =
p°1, р2 =
р02,
… ,pr =
p°r,
Рассмотрим статистику:
Определение. Статистика χ2 называется статистикой хи-квадрат Пирсона для простой гипотезы.
Ясно, что χ2/n представляет собой квадрат некоего расстояния между двумя r-мерными векторами: вектором относительных частот и вектором вероятностей. От евклидового расстояния это расстояние отличается лишь тем, что разные координаты входят в него с разными весами.
Свойства.
Обсудим поведение статистики χ2
в случае, когда гипотеза Н
верна, и в случае, когда H неверна.
Если верна H, то асимптотическое поведение
χ2 при n→∞ указывает
теорема К.Пирсона. Чтобы понять, что происходит,
когда H неверна, заметим, что по закону
больших чисел mi/n
→ pi
при п →∞, для i= 1, . . .,
r. Поэтому при n →∞:
Эта величина равна 0, только если pi = рi° для всех i. Поэтому если H неверна, то χ2→ ∞(при n →∞).
Правило проверки гипотезы. Из сказанного следует, что H должна быть отвергнута, если полученное в опыте значение χ2 слишком велико. Здесь, как всегда, слова «слишком велико» означают, что наблюденное значение χ2 превосходит критическое значение, которое в данном случае можно взять из таблиц распределения хи-квадрат, Иначе говоря, вероятность Р(χ2≥ χ2крит} — малая величина и, следовательно, маловероятно случайно получить такое же, как в опыте, или еще большее расхождение между вектором частот и вектором вероятностей.
Асимптотический
характер теоремы К.Пирсона, лежащий
в основе этого правила, требует осторожности
при его практическом использовании. На
него можно полагаться только при больших
п. Судить же о том, достаточно ли п
велико, надо с учетом вероятностей p1,
. . . , рг. Поэтому нельзя сказать,
к примеру, что ста наблюдений будет достаточно,
поскольку не только п
должно быть велико, но и произведения
np1, . . . ,
прr
(ожидаемые частоты) тоже не должны быть
малы.