Автор работы: Давыдов Максим, 31 Мая 2010 в 20:57, шпаргалка
лекции
Формулирование
нулевой гипотезы
Однако на практике
обычным является построение нулевой
гипотезы, которая затем будет проверяться
с помощью альтернативной гипотезы, которая
предполагается верной. Установление
наличия зависимости величины у
от х ,предполагает
использование для этого обратной процедуры,
когда в качестве нулевой гипотезы принимается
утверждение о том, что величина y
не зависит от х,
т. е. что β=β0. Альтернативная гипотеза
заключается в том, что β0 ≠β0,
иными словами, что значение х
влияет на величину у.
Если можно отвергнуть нулевую гипотезу,
вы таким образом устанавливаете наличие
зависимости, по крайней мере в общих чертах.
С использованием введенной системы обозначений
нулевая и альтернативная гипотезы соответственно
примут вид:
H0:β = 0 и H1:β≠0.
Последующее рассмотрение касается модели парной регрессии Оно будет относиться только к коэффициенту наклона βно точно такие же процедуры применимы и к постоянному члену а. Возьмем общий случай, в котором в нулевой гипотезе утверждается, что β равно некоторому конкретному значению, скажем, β0, и альтернативная гипотеза состоит в том, что Р не равно этому значению (H0: β= β0; H1: β≠ β0). Вы можете предпринять попытку отклонить или подтвердить нулевую гипотезу в зависимости от того, что вам необходимо в данном случае. Будем предполагать, что четыре условия Гаусса—Маркова выполняются.
Если гипотеза
H0 верна, то оценки b, полученные
в ходе регрессионного анализа, будут
иметь распределение с математическим
ожиданием β и дисперсией σ2/nσx2
Теперь мы вводим допущение, что остаточный
член e имеет нормальное распределение.
Если это так, то величина b
будет также нормально распределена
β-2sd β-sd β β+sd β+2sd
«s. d.» на рисунке соответствует величине стандартного отклонения оценки b ценок параметра β будет находиться в пределах двух стандартных отклонений от β(если верна гипотеза H0: β0= 0).
Сначала мы допустим, что знаем значение стандартного отклонения величины b. Это наиболее неправдоподобное допущение, и мы позднее отбросим его. На практике же значение этого отклонения (так же как и неизвестные значения параметров а) подлежит оценке. Можно, тем не менее, упростить рассмотрение, предположив, что точное значение отклонения известно, и, следовательно, имея возможность построить график
Сопоставимость,
случайность и
уровень значимости
Теперь приступим к главному. Предположим, что мы взяли фактическую выборку из наблюдений общей инфляции и инфляции, вызванной ростом заработной платы, и построили оценку β, используя для этого регрессионный анализ. Если оценка близка 1,0, мы должны быть полностью удовлетворены нулевой гипотезой, так как она и результат оценивания для выборки совместимы друг с другом. Но с другой стороны, предположим, что оценка значительно отличается от 1,0. Допустим, например, что она равна 0,7. Это составит три стандартных отклонения вниз от 1,0. Вероятность того, что отличие от среднего достигнет трех стандартных отклонений в положительную или отрицательную сторону, составляет лишь 0,0027, т. е. очень низка. Исходя из этого вызывающего беспокойство результата, вы можете прийти к одному из двух выводов.
Каким образом вы определите, когда необходимо выбрать первый вывод, а когда — второй? Очевидно, что чем меньше вероятность построения регрессии, подобной той, которую вы получили при условии правильности гипотезы, тем больше вероятность отказа от гипотезы и выбор второго вывода. Насколько малой должна быть указанная вероятность для выбора второго вывода?
На этот вопрос нет и не может быть определенного ответа. В большинстве работ по экономике за критический уровень берется 5 или 1%. Если выбирается уровень 5%, то переключение на второй вывод происходит в том случае, когда при истинности нулевой гипотезы вероятность получения столь экстремального значения b составляет менее 5%. В этом случае говорят, что нулевая гипотеза должна быть отвергнута при 5-процентном уровне значимости.
Это происходит в том случае, когда величина b отстоит от р0 более чем на 1,96 стандартного отклонения. Если вы посмотрите на таблицу нормального распределения, то увидите, что вероятность того, что величина b будет превосходить среднее значение на более чем 1,96 стандартного отклонения, составляет 2,5% и, аналогичным образом, вероятность того, что эта величина будет более чем на 1,96 стандартного отклонения ниже среднего значения, также будет 2,5%. Общая вероятность того, что данная величина отстоит от математического ожидания более чем на 1,96 стандартного отклонения, составляет, таким образом, 5%.
Можно обобщить это решающее правило в математической форме, сказав, что нулевая гипотеза отвергается, если
Z> 1,96 или Z< -1,96,
где Z — число стандартных отклонений между регрессионной оценкой и гипотетическим значением р:
-1,96 <
Z < 1,96.
Это условие
можно записать с помощью величин
b и β, подставив выражение для Z из уравнения
-1,96< <1,96
а из этого уравнения можно получить следующее:
β0 - 1,96 bb < b < β0 + 1,96 σb.
Уравнение дает множество значений для величины β, которые не приводят к отказу от конкретной нулевой гипотезы о том, что β = 1. Это множество значений получило название области принятия гипотезы для b при 5-процентном уровне значимости.
В нашем примере,
где σb= 0,1, можно отвергнуть
гипотезу при уровне значимости в 5%, если
величина b находится выше или ниже
гипотетического среднего значения на
величину более 0,196, т. е. выше 1,196 или ниже
0,804. Таким образом, область принятия гипотезы
включает значения величины b
от 0,804 до 1,196. Это показано незаштрихованной
областью на рис
0,804 1,0 1,196
Функция плотности
вероятности для b
Область принятия гипотезы для величины b при 5-процентном
уровне значимости
Аналогичным образом считается, что нулевая гипотеза должна быть отвергнута при уровне значимости в 1%, если гипотеза подразумевает, что вероятность получения столь экстремального значения для величины b составляет менее 1%. Это происходит, когда величина b отстоит на более чем 2,58 стандартного отклонения вверх или вниз от гипотетического значения т. е. когда
Z > 2,58 или Z < -2,58.
Возвращаясь
к таблице нормального
Что происходит, когда стандартное отклонение величины b неизвестно?
До сих пор мы считали, что стандартное отклонение величины b известно. Однако на практике это допущение нереально. Это приводит к двум изменениям процедуры проверки гипотез. Во-первых, величина Z oneделяется на основе использования стандартной ошибки sb вместо стандартного отклонения и носит название t-статистики:
Во-вторых, критические уровни t определяются величиной, имеющей так называемое t-распределение вместо нормального распределения. Мы не будем вдаваться в причины этого или даже описывать t-распределение математически. Достаточно будет сказать, что оно родственно нормальному распределению, а его точная форма зависит от числа степеней свободы в регрессии, и оно все лучше аппроксимируется нормальным распределением по мере увеличения числа степеней свободы. Вы, конечно, уже встречали понятие t-распределения во вводном курсе статистики.
Оценивание каждого
параметра в уравнении
Критическое значение t, которое мы обозначим как tкрит, заменит число 1,96 в уравнении). Таким образом, условие того, что оценка регрессии не должна приводить к отказу от нулевой гипотезы b = β0, будет следующим:
Доверительные
интервалы
Доверительные интервалы параметров регрессии определяются следующим образом.
Здесь td
- значение t-статистики для выбранного
уровня значимости d. Величина
p=1-d называется доверительной вероятностью
или уровнем надежности, нередко выражаемым
в процентах. Это показатель, характеризует
вероятность того, что теоретическое
значение параметра регрессии будет находиться
в полученном доверительном интервале.
F-тест на качество оценивания
Даже если между у и х отсутствует зависимость, по любой данной выборке наблюдений может показаться, что такая зависимость существует, возможно и слабая. Только по случайному стечению обстоятельств выборочная ковариация будет в точности равна нулю. Следовательно, только чисто случайно коэффициент корреляции и коэффициент R2 будут в точности равны нулю.
Это представляет для нас проблему. Как узнать, действительно ли полученное при оценке регрессии значение коэффициента R2 отражает истинную зависимость или оно появилось случайно?
В принципе можно было бы принять следующую процедуру. Сформулируем в качестве нулевой гипотезы утверждение, что связь между у и х отсутствует, и найдем значение коэффициента, которое может быть превышено в 5% случаев. Затем используем эту цифру в качестве критического значения для проверки гипотезы при 5-процентном уровне значимости. Если этот уровень превышается, то мы отклоняем нулевую гипотезу. Если он не превышен, то эта гипотеза принимается.
Такая проверка,
подобно г-тесту для
Каким образом можно определить критическое значение коэффициента R2 при любом уровне значимости? Здесь возникает небольшая проблема. У нас нет таблицы критических значений коэффициента R2. Традиционная процедура состоит в использовании косвенного подхода и выполнения так называемого t-теста, основанного на анализе дисперсии
Предположим, что, как и прежде, можно разложить дисперсию зависимой переменной на «объясненную» и «необъясненную» составляющие, воспользовавшись
Используя определение выборочной дисперсии и умножив на п обе части уравнения можно представить его следующим образом: (Напомним, что е = 0 и выборочное среднее значение у равняется выборочному среднему у.)
Левая часть уравнения представляет собой общую сумму квадратов отклонений (TSS) зависимой переменной от ее выборочного среднего значения. Первый член в правой части уравнения является объясненной суммой квадратов (ESS), а второй член - необъясненной суммой квадратов отклонений (RSS), который может быть просто назван S: