Автор работы: Давыдов Максим, 31 Мая 2010 в 20:57, шпаргалка
лекции
В ходе рассмотрения мы постоянно будем иметь дело с моделью парной регрессии, в которой у связан с х следующей зависимостью:
y=α+βx+e
и на основе п выборочных наблюдений будем оценивать уравнение регрессии.
Мы также будем предполагать, что х — это неслучайная экзогенная переменная. Иными словами, ее значения во всех наблюдениях можно считать заранее заданными и никак не связанными с исследуемой зависимостью.
Во-первых, заметим, что величина y состоит из двух составляющих. Она включает неслучайную составляющую (α+βx), которая не имеет ничего общего с законами вероятности (а и b могут быть неизвестными, но тем не менее это постоянные величины), и случайную составляющую e.
Отсюда следует,
что, когда мы вычисляем b
по обычной формуле:
.
b также содержит случайную составляющую. Cov (x, у) зависит от значений у, а у зависит от значений e.
Если случайная составляющая принимает разные значения в п наблюдениях, то мы получаем различные значения у и, следовательно, разные величины Cov (х, у) и b.
Теоретически мы можем разложить b на случайную и неслучайную составляющие. Воспользовавшись правилом расчета ковариации получим:
По ковариационным
правилам, ковариация Cov (x,α)
равна нулю, ковариация Cov (x,βх)
равна βCov (x, х). Причем Cov (x,
х) это тож, что и D(x).
Следовательно, мы можем записать:
Итак, мы показали, что коэффициент регрессии Ь, полученный по любой выборке, представляется в виде суммы двух слагаемых:
2) случайной составляющей, зависящей от Cov (x,e), которой обусловлены отклонения коэффициента b от константы β. Аналогичным образом можно показать, что а имеет постоянную составляющую, равную истинному значению α, плюс случайную составляющую, которая зависит от случайного фактора e.
Следует заметить,
что на практике мы не можем разложить
коэффициенты регрессии на составляющие,
так как не знаем истинных значений
α и β или фактических значений
e в выборке. Они интересуют нас потому,
что при определенных предположениях
позволяют получить некоторую информацию
о теоретических свойствах а
и b.
Не будет преувеличением сказать, что именно понимание важности этих условий отличает компетентного исследователя, использующего регрессионный анализ, от некомпетентного. Если эти условия не выполнены, исследователь должен это сознавать. Если корректирующие действия возможны, то аналитик должен быть в состоянии их выполнить. Если ситуацию исправить невозможно, исследователь должен быть способен оценить, насколько серьезно это может повлиять на результаты.
Рассмотрим теперь эти условия одно за другим, объясняя кратко, почему они имеют важное значение. Три последних условия будут также подробно рассмотрены в следующих главах.
1-е условие Гаусса—Маркова: M(ei) = 0 для всех наблюдений
Первое условие состоит в том, что математическое ожидание случайного члена в любом наблюдении должно быть равно нулю. Иногда случайный член будет положительным, иногда отрицательным, но он не должен иметь систематического смещения ни в одном из двух возможных направлений.
Фактически если уравнение регрессии включает постоянный член, то обычно бывает разумно предположить, что это условие выполняется автоматически, так как роль константы состоит в определении любой систематической тенденции в у, которую не учитывают объясняющие переменные, включенные в уравнение регрессии.
2-е
условие Гаусса—Маркова:
M(ei2)
постоянна для всех
наблюдений
Второе условие состоит в том, что дисперсия случайного члена должна быть постоянна для всех наблюдений. Иногда случайный член будет больше, иногда меньше, однако не должно быть априорной причины для того, чтобы он порождал большую ошибку в одних наблюдениях, чем в других.
Эта постоянная дисперсия обычно обозначается σ2, а условие записывается следующим образом:
M(ei2)=σ2
Величина σ2 конечно, неизвестна. Одна из задач регрессионного анализа состоит в оценке стандартного отклонения случайного члена.
Если рассматриваемое
условие не выполняется, то коэффициенты
регрессии, найденные по обычному методу
наименьших квадратов, будут неэффективны,
и можно получить более надежные результаты
путем применения модифицированного метода
регрессии.
3-е условие Гаусса—Маркова: Cov (ei,ej) = 0 (i≠j)
Это условие предполагает отсутствие систематической связи между значениями случайного члена в любых двух наблюдениях. Например, если случайный член велик и положителен в одном наблюдении, это не должно обусловливать систематическую тенденцию к тому, что он будет большим и положительным в следующем наблюдении (или большим и отрицательным, или малым и положительным, или малым и отрицательным). Случайные члены должны быть абсолютно независимы друг от друга.
В силу того, что Е (ei) = Е(ej) = 0, данное условие можно записать следующим образом:
M(eiej) = 0 (i≠j).
Если это условие не будет выполнено, то регрессия, оцененная по обычному методу наименьших квадратов, вновь даст неэффективные результаты. В следующих лекциях рассматриваются возникающие здесь проблемы и пути их преодоления.
4-е
условие Гаусса—Маркова:
случайный член
должен быть распределен
независимо от
объясняющих переменных
В большинстве глав книги мы будем в сущности использовать более сильное предположение о том, что объясняющие переменные не являются стохастическими, т. е. не имеют случайной составляющей. Значение любой независимой переменной в каждом наблюдении должно считаться экзогенным, полностью определяемым внешними причинами, не учитываемыми в уравнении регрессии.
Если это условие выполнено, то теоретическая ковариация между независимой переменной и случайным членом равна нулю. Так как Е(e) = 0, то
Cov(xi,ei)
= M{(хi –
)(ei)} =
M(xiei)-
M(et) =
M(xiui).
Следовательно, данное условие можно записать также в виде:
M(xiei) = 0
Предположение о нормальности
Наряду с условиями Гаусса—Маркова обычно также предполагается нормальность распределения случайного члена. Читатели должны знать о нормальном распределении из вводного курса статистики. Дело в том, что если случайный член и нормально распределен, то так же будут распределены и коэффициенты регрессии. Это условие пригодится нам позже в данной главе, когда потребуется проводить проверку гипотез и определять доверительные интервалы для α и β, используя результаты построения регрессии.
Предположение о нормальности основывается на центральной предельной теореме. В сущности, теорема утверждает, что если случайная величина является общим результатом взаимодействия большого числа других случайных величин, ни одна из которых не является доминирующей, то она будет иметь приблизительно нормальное распределение, даже если отдельные составляющие не имеют нормального распределения.
Случайный член и определяется несколькими факторами, которые не входят в явной форме в уравнение регрессии. Поэтому даже если мы ничего не знаем о распределении этих факторов (или даже об их сущности), мы имеем право предположить, что они нормально распределены. В любом случае вряд ли вы столкнетесь здесь с проблемами.
Несмещенность
коэффициентов регрессии
Можно показать, что b будет несмещенной оценкой β, если выполнется 4-е условие Гаусса—Маркова:
так как β— константа. Если мы примем сильную форму 4-го условия Гаусса-Маркова и предположим, что x — неслучайная величина, мы можем также считать σx2 известной константой.
Далее, если х — неслучайная величина, то M{Cov (x,e)} = 0 и, следовательно,
Таким образом, b — несмещенная оценка β. Можно получить тот же результат со слабой формой 4-го условия Гаусса—Маркова (которая допускает, что переменная х имеет случайную ошибку, но предполагает, что она распределена независимо от e.
За исключением того случая, когда случайные факторы в п наблюдениях в точности «гасят» друг друга, что может произойти лишь при случайном совпадении, b будет отличаться от β в каждом конкретном эксперименте. Однако не будет систематической ошибки, завышающей или занижающей оценку. То же самое справедливо и для коэффициента а.
а — это несмещенная оценка α при условии выполнения 1-го и 4-го условий Гаусса—Маркова. Безусловно, для любой конкретной выборки фактор случайности приведет к расхождению оценки и истинного значения.
Точность
коэффициентов регрессии
Рассмотрим теперь теоретические дисперсии оценок а и b.
Из уравнения (3.25) можно сделать три очевидных заключения. Во-первых, дисперсии а и b прямо пропорциональны дисперсии остаточного члена σ2. Чем больше фактор случайности, тем хуже будут оценки при прочих равных условиях. Во-вторых, чем больше число наблюдений, тем меньше дисперсии оценок. Это также имеет определенный смысл. Чем большей информацией вы располагаете, тем более точными, вероятно, будут ваши оценки. В-третьих, чем больше дисперсия х, тем меньше будет дисперсия коэффициентов регрессии. В чем причина этого? Напомним, что коэффициенты регрессии вычисляются на основании предположения, что наблюдаемые изменения у происходят вследствие изменений х, но в действительности они лишь отчасти вызваны изменениями х, а отчасти вариациями e. Чем меньше дисперсия х, тем больше, вероятно, будет относительное влияние фактора случайности при определении отклонений у и тем более вероятно, что регрессионный анализ может оказаться неверным. В действительности, важное значение имеет не абсолютная, а относительная величина σ2 и σx2.
Прежде чем пойти дальше, задайте себе следующий вопрос: какая прямая будет ближе к точкам, представляющим собой выборку наблюдений по х и у. истинная прямая у = а + βx или линия регрессии. а + b? Ответ будет таков: линия регрессии, потому что по определению она строится таким образом, чтобы свести к минимуму сумму квадратов расстояний между ней и значениями наблюдений. Следовательно, разброс остатков у нее меньше, чем разброс значений e, и D(e) имеет тенденцию занижать оценку σ2. Действительно, можно показать, что математическое ожидание D (e), если имеется всего одна независимая переменная, равно [(п — 2)/n]σ2. Однако отсюда следует, что если определить s2 как
то s2 будет представлять собой несмещенную оценку σ2
Mожно получить оценки теоретических дисперсий для а и b и после извлечения квадратного корня — оценки их стандартных отклонений. Вместо слишком громоздкого термина «оценка стандартного отклонения функции плотности вероятности» коэффициента регрессии будем использовать термин «стандартная ошибка» коэффициента регрессии, которую в дальнейшем мы будем обозначать в виде сокращения sa и sb Таким образом, для парного регрессионного анализа мы имеем:
Если воспользоваться компьютерной программой оценивания регрессии, то стандартные ошибки будут подсчитаны автоматически одновременно с оценками а и b.
В том случае, если условия Гаусса—Маркова для остаточного члена выполнены, коэффициенты регрессии, построенной обычным методом наименьших квадратов, будут наилучшими линейными несмещенными оценками (best linear unbiased estimators, или BLUE): несмещенными, как уже было показано; линейными, так как они являются линейными функциями значений у; наилучшими, так как они являются наиболее эффективными в классе всех несмешенных линейных оценок. Теорема Гаусса—Маркова доказывает это.
Проверка
гипотез, относящихся
к коэффициентам
регрессии
С чего начинается статистическое исследование — с теоретического построения гипотез или с эмпирического анализа? В действительности, теория и практика взаимно обогащают друг друга, и подобные вопросы не задаются. Поэтому вопрос о проверке гипотез мы будем рассматривать с двух точек зрения. С одной стороны, мы можем предположить, что сначала формулируется гипотеза, и цель эксперимента заключается в выяснении ее применимости. Это приведет к проверке гипотезы о значимости. С другой стороны, мы можем сначала провести эксперимент и затем определить, какие из теоретических гипотез соответствуют результатам эксперимента. Это приводит к построению доверительных интервалов.