Автор работы: Давыдов Максим, 31 Мая 2010 в 20:57, шпаргалка
лекции
и в соответствии
с нулевой гипотезой
Зависимость между F- и t-статистиками
Предположим, что вы оцениваете регрессию с несколькими объясняющими переменными, а затем повторяете расчет, отбросив одну из них. Используя разницу в объясненной сумме квадратов, можно выполнить F-тест для предельного вклада независимой переменной, которая была отброшена. Можно показать, что такой тест эквивалентен двустороннему t-тесту для гипотезы о том, что для этой переменной в первоначальной регрессии β = 0.
Другими словами, t-тесты обеспечивают эффективную проверку предельного вклада каждой переменной при допущении, что все другие переменные уже включены в уравнение.
Если объясняющие
способности независимых
Скорректированный коэффициент R2
Если вы посмотрите на распечатку уравнений регрессии, то почти наверняка найдете рядом с коэффициентом R2 показатель, который называют скорректированным коэффициентом R2 (adjusted R2), Иногда его также называют «исправленным» коэффициентом R2, хотя это определение не означает, по мнению многих, что такой коэффициент улучшен по сравнению с обычным.
Как отмечалось
выше, при добавлении объясняющей
переменной к уравнению регрессии коэффициент
R2 никогда не уменьшается,
а обычно увеличивается. Скорректированный
коэффициент R2,
который обычно обозначают
, обеспечивает компенсацию для
такого автоматического сдвига вверх
путем наложения «штрафа» за увеличение
числа независимых переменных. Этот коэффициент
определяется следующим образом:
где k — число независимых переменных. По мере роста k увеличивается отношение k/(n — k— 1) и, следовательно, возрастает размер корректировки коэффициента R2 в сторону уменьшения.
Можно показать, что добавление новой переменной к регрессии приведет к увеличению R , если и только если соответствующая t-cтатистика больше единицы (или меньше -1). Следовательно, увеличение при добавлении новой переменной необязательно означает, что ее коэффициент значимо отличается от нуля. Поэтому отнюдь не следует, как можно было бы предположить, что увеличение означает улучшение спецификации уравнения.
Это является одной
из причин того, почему
не стал широко использоваться
в качестве диагностической величины.
Другая причина состоит в уменьшении внимания
к самому коэффициенту R2. Ранее
среди экономистов наблюдалась тенденция
рассматривать коэффициент R2
в качестве основного индикатора успеха
в спецификации модели. Однако на практике,
как будет показано в следующих главах,
даже плохо определенная модель регрессии
может дать высокий коэффициент R2,
и признание этого факта привело к снижению
значимости R2.
Теперь он рассматривается в качестве
одного из целого ряда диагностических
показателей, которые должны быть проверены
при построении модели регрессии.
СПЕЦИФИКАЦИЯ ПЕРЕМЕННЫХ
Свойства оценок
коэффициентов регрессии в
ВЛИЯНИЕ ОТСУТСТВИЯ В УРАВНЕНИИ ПЕРЕМЕННОЙ, КОТОРАЯ ДОЛЖНА БЫТЬ ВКЛЮЧЕНА.
однако вы не уверены в значимости х2. Считая, что модель должна выглядеть как
вы оцениваете регрессию
.
и вычисляете bl по формуле Cov (xt , y)/D (x1) вместо правильного выражения. По определению, b1, является несмещенной оценкой величины β1 если M(b1) равняется β1. Практически, если первоначальная модель верна, то
Если опустить х2 в регрессионном соотношении, то переменная x1 будет играть двойную роль: отражать свое прямое влияние и заменять переменную х2 в описании ее влияния. Данное кажущееся опосредованное влияние величины х1, на у будет зависеть от двух факторов: от видимой способности х1, имитировать поведение х2 и от влияния величины х2 на у.
Кажущаяся способность переменной x1, объяснять поведение х2 определяется коэффициентом наклона h в псевдорегрессии:
Величина h естественно, рассчитывается при помощи обычной формулы для парной регрессии, в данном случае Cov(x1,x2)/D (x1). Влияние величины х2, на у определяется коэффициентом β2,. Таким образом, эффект имитации посредством величины β2 может быть записан как β2Соу (х1, x2)/D (х1). Прямое влияние величины х1, на у описывается с помощью β1. Таким образом, при оценивании регрессионной зависимости у от переменной х1, (без включения в нее переменной х2) коэффициент при х1, определяется формулой:
b1+ b2,Cov (x1, x2)/D (х1) + Ошибка выборки.
При условии, что величина х, не является стохастической, ожидаемым значением коэффициента будет сумма первых двух членов этой формулы. Присутствие второго слагаемого предполагает, что математическое ожидание коэффициента будет отличаться от истинной величины β1, другими словами, оценка будет смещенной.
Таким образом, β1 смещена на величину, равную β2Cov (x1, x2)/D (x1). Направление смещения будет зависеть от знака величин β2 и Cov(x1,x2). Например, если β2 положительна, а также положительна ковариация, то смещение будет положительным, а b1 будет в среднем давать завышенные оценки β1,. Самостоятельно вы можете рассмотреть и другие случаи.
Есть, однако, один исключительный случай, когда оценка β1 остается несмещенной. Это случается, когда выборочная ковариация между х1, и х2 в точности равняется нулю. Если Cov (х1, x2) = 0, то смещение исчезает. Действительно, коэффициент, полученный с использованием парной регрессии, будет точно таким же, как если бы вы оценили правильно специфицированную множественную регрессию. Конечно, величина смещения здесь равнялась бы нулю и при β2 = 0, но в этом случае неправильной спецификации не возникает.
Другим серьезным следствием невключения переменной, которая на самом деле должна присутствовать в регрессии, является то, что формулы для стандартных ошибок коэффициентов и тестовые статистики, вообще говоря, становятся неприменимыми. Это, разумеется, означает, что, основываясь на полученных результатах оценки регрессии, в принципе нельзя заниматься проверкой каких-либо гипотез.
Влияние
включения в модель
переменной, которая
не должна быть включена
Допустим, что истинная модель представляется в виде:
а вы считаете, что ею является
и рассчитываете оценку величины b1, используя формулу
вместо выражения Cov (x1, y)/D (х1).
В целом проблемы смещения здесь нет, даже если b1, будет рассчитана неправильно. Величина M(b1) остается равной β1, но в общем оценка будет неэффективной. Она будет более неустойчивой, в смысле наличия большей дисперсии относительноβ1, чем при правильном вычислении.
Это можно легко объяснить интуитивно. Истинная модель может быть записана в виде:
Таким образом,
если вы строите регрессионную
Утрата эффективности в связи со включением х2 в случае, когда она не должна была быть включена, зависит от корреляции между х1, и х2.
Сравните дисперсии
величины β1 при построении
парной и множественной регрессии.
Парная регрессия |
Множественная регрессия |
Дисперсия в общем окажется большей при множественной регрессии, и разница будет тем большей, чем ближе коэффициент корреляции к единице или -1. Единственным исключением в связи с проблемой утраты эффективности является вариант, когда коэффициент корреляции точно равен нулю. В этом случае оценка b1 для множественной регрессии совпадает с оценкой для парной]регрессии. Доказательство этого опустим.
ОТБОР ФАКТОРОВ ПРИ ПОСТРОЕНИИ МНОЖЕСТВЕННОЙ РЕГРЕССИИ
Включение в
уравнение множественной
Включение в модель факторов с высокой интеркорреляцией может привести к нежелательным последствиям — система нормальных уравнений может оказаться плохо обусловленной и повлечь за собой неустойчивость и ненадежность оценок коэффициентов регрессии.
Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются неинтерпретируемыми.
Включаемые во
множественную регрессию
При дополнительном включении в регрессию k + \ фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться: