Автор работы: Давыдов Максим, 31 Мая 2010 в 20:57, шпаргалка
лекции
МНОЖЕСТВНЕННАЯ
РЕГРЕССИЯ
Допустим, что переменная y связана с k независимыми переменными x1, x2, …, xk неизвестной истинной зависимостью
Оценим уравнение для данного множества п наблюдений по методу наименьших квадратов:
Это вновь означает минимизацию суммы квадратов разностей, а отклонение в наблюдении i выражается как
Теперь мы выбираем b0 , b1 ,∙∙∙ ,bk так, чтобы свести к минимуму S — сумму квадратов отклонений . . Мы получаем (k+ 1) условий первого порядка dS/db0 = 0, dS/db1 = 0, ..., dS/dbk = 0, что дает (k+ 1) уравнение для нахождения (k+ 1) неизвестных. Выражения для b0 , b1, ... , bk становятся очень сложными, и математика не будет здесь представлена в явном виде. Вычисления целесообразнее сделать с помощью матричной алгебры. В частности, для уравнения с двумя независимыми переменными можно получить следующее выражение для b1:
Как и в случае парного регрессионного анализа, коэффициенты регрессии должны рассматриваться как случайные переменные специального вида, случайные компоненты которых обусловлены наличием в модели случайного члена. Каждый коэффициент регрессии вычисляется как функция значений у и независимых переменных в выборке, а у в свою очередь определяется независимыми переменными и случайным членом. Отсюда следует, что коэффициенты регрессии действительно определяются значениями независимых переменных и случайным членом, а их свойства существенно зависят от свойств последнего.
Мы продолжаем считать, что выполняются условия Гаусса—Маркова, а именно: 1) математическое ожидание и в любом наблюдении равно нулю; 2) теоретическая дисперсия его распределения одинакова для всех наблюдений; 3) теоретическая ковариация его значений в любых двух наблюдениях равняется нулю; 4) распределение и независимо от распределения любой объясняющей переменной. Первые три условия идентичны условиям для парного регрессионного анализа, а четвертое условие является обобщением своего аналога. На данный момент мы примем усиленный вариант четвертого условия, допустив, что независимые переменные являются нестохастическими.
Существуют еще два практических требования. Во-первых, нужно иметь достаточное количество данных для проведения линии регрессии, что означает наличие стольких (независимых) наблюдений, сколько параметров необходимо оценить. Во-вторых, как мы увидим далее в этом разделе, между независимыми переменными не должно существовать строгой линейной зависимости.
Мы покажем, что b1 является несмещенной оценкой β1 для случая с двумя объясняющими переменными. Доказательство можно легко обобщить, используя матричную алгебру для любого числа объясняющих переменных. Как видно из вышеизложенного, величина b1 является функцией от х1, х2 и у. В свою очередь у определяется по x1 , х2 и e. Следовательно, величина bl фактически зависит от значений х,, х2 и и в выборке (поняв суть преобразований, можно опустить детали математических выкладок):
.
Отсюда величина
b1 имеет две составляющие:
истинное значение β, и составляющую
ошибки. Перейдя к математическому ожиданию,
получим:
при допущении, что выполняется четвертое условие Гаусса—Маркова.
В теореме Гаусса—Маркова для множественного регрессионного анализа доказывается, что, как и для парной регрессии, обычный метод наименьших квадратов (МНК) дает наиболее эффективные линейные оценки в том смысле, что на основе той же самой выборочной информации невозможно найти другие несмещенные оценки с меньшими дисперсиями при выполнении условий Гаусса—Маркова. Мы не будем доказывать эту теорему, но исследуем факторы, регулирующие возможную точность коэффициентов регрессии. В общем случае можно сказать, что коэффициенты регрессии, скорее всего, являются более точными:
Первые три из желательных условий повторяют то, на чем мы уже останавливались в случае парного регрессионного анализа. Лишь четвертое условие является новым. Сначала мы рассмотрим случай с двумя независимыми переменными и затем перейдем к более общему случаю.
Если истинная зависимость имеет вид:
и вы получили уравнение регрессии
использовав необходимые данные, то теоретическая дисперсия вероятностного распределения для b1 будет описываться выражением:
где — теоретическая дисперсия величины e. Аналогичное выражение можно получить для теоретической дисперсии величины b2, заменив D (х1 ) на D (х2).
Из уравнения можно видеть, что, как и в случае парного регрессионного анализа, желательно, чтобы величины п и D (х1 ) были большими, а величина — малой. Однако теперь мы получили еще и член , и вполне очевидно, что желательно иметь слабую корреляцию между х1, и х2.
Стандартная ошибка
коэффициента множественной регрессии
имеет такой же смысл, как и в парном
регрессионном анализе, в том плане, что
она является оценкой стандартного отклонения
распределения коэффициента регрессии
вокруг его истинного значения. Как и в
парном регрессионном анализе, формула
для стандартной ошибки может быть выведена
на основе выражения дисперсии распределения,
замены теоретической остаточной дисперсии
на несмещенную оценку и извлечения квадратного
корня. Как и прежде, значимость выражения,
полученного таким образом, зависит от
правильной спецификации модели и выполнения
условий Гаусса—Маркова для случайного
члена.
|
Качество оценивания: коэффициент R2
Как и в парном регрессионном анализе, коэффициент детерминации R2 определяет долю дисперсии у, объясненную регрессией, и эквивалентно определяется как величина D ( )/ D ( у ), как {1 — D (e)/ D (у)} или как квадрат коэффициента корреляции между у и .
Этот коэффициент никогда не уменьшается (а обычно он увеличивается) при добавлении еще одной переменной в уравнение регрессии, если все ранее включенные объясняющие переменные сохраняются.
Для иллюстрации этого предположим, что вы оцениваете регрессионную зависимость у от x1 и х2 и получаете уравнение вида:
Далее, предположим, что вы оцениваете регрессионную зависимость у. только от x1, в результате получив следующее:
Это уравнение можно переписать в виде:
Если сравнить уравнения, то коэффициенты в первом из них свободно определялись с помощью метода наименьших квадратов на основе данных для у, xl и х2 при обеспечении наилучшего качества оценки. Однако в последнем уравнении коэффициент при х2 был произвольно установлен равным нулю, и оценивание не будет оптимальным, если только по случайному совпадению величина b2 не окажется равной нулю, когда оценки будут такими же. (В этом случае величина b*0 будет равна b0 , а величина b1* будет равна b1) Следовательно, обычно коэффициент R2 будет выше в первом уравнении, чем в последнем, и он никогда не станет ниже. Конечно, если новая переменная на самом деле не относится к этому уравнению, то увеличение коэффициента R2 будет, вероятно, незначительным.
Вы можете решить, что поскольку коэффициент R2 измеряет долю дисперсии, совместно объясненной независимыми переменными, то можно определить отдельный вклад каждой независимой переменной и таким образом получить меру ее относительной важности. Было бы очень удобно, если бы это стало возможным. К сожалению, такое разложение невозможно, если независимые переменные коррелированы, поскольку их объясняющая способность будет перекрываться.
F-тесты
Ранее F-тест использовался для анализа дисперсии. Теперь, когда мы используем регрессионный анализ для деления дисперсии зависимой переменной на «объясненную» и «необъясненную» составляющие, можно построить F-статистику:
где ESS— объясненная сумма квадратов отклонений; RSS— остаточная (необъясненная) сумма квадратов; k — число степеней свободы, использованное на объяснение. С помощью этой статистики можно выполнить F-тест для определения того, действительно ли объясненная сумма квадратов больше той, которая может иметь место случайно. Для этого нужно найти критический уровень F в колонке, соответствующей k степеням свободы, и в ряду, соответствующем (n–k–1) степеням свободы.
Чаще всего F-тест используется для оценки того, значимо ли объяснение, даваемое уравнением в целом. Кроме того, с помощью F-статистик можно выполнить ряд дополнительных тестов, что также будет рассмотрено ниже.
При осуществлении F-теста для уравнения в целом проверяется, превышает ли коэффициент R2 то значение, которое может быть получено случайно. Проверим, является ли значимой совместная объясняющая способность k независимых переменных; тест для этого может быть описан как проверка нулевой гипотезы:
H0: β1,=β2 = ...=βk, = 0.
В определенном смысле этот тест дополняет t-тесты, которые используются для проверки значимости вклада отдельных случайных переменных, когда проверяется каждая из гипотез β1= 0,..., βk = 0.
При расчете F-статистики для уравнения в целом, возможно, было бы удобно разделить числитель и знаменатель уравнения на TSS (общую сумму квадратов), заметив, что ESS/TSS равняется R2, a RSS/TSS равняется (1 —R2). В результате можно записать:
Дальнейший
анализ дисперсии
Помимо проверки уравнения в целом F-тест можно использовать для определения значимости совместного предельного вклада группы переменных. Предположим, что вы сначала оцениваете регрессию с k независимыми переменными и объясненная сумма квадратов составляет ESSk. Затем вы добавляете еще несколько переменных, доведя их общее число до т, и объясненная сумма квадратов возрастает до ESSm. Таким образом, вы объяснили дополнительную величину (ESSm — ESSk), использовав для этого дополнительные (т — k) степеней свободы, и требуется выяснить, превышает ли данное увеличение то, которое может быть получено случайно.
Вновь используется F-тест, и соответствующая F-статистика может быть описана следующим образом.
Поскольку RSSm — необъясненная сумма квадратов отклонений в уравнении со всеми m переменными — равняется (TSS — ESSm) и RSSk — необъясненная сумма квадратов отклонений в уравнении с k переменными — равняется (TSS —ESSk), улучшение качества уравнения при добавлении (m – k) переменных, представленное как разность (ESSm — ESSk), записывается в виде выражения (RSSk — RSSm). Следовательно, соответствующая F-статистика равна: