Автор работы: Давыдов Максим, 31 Мая 2010 в 20:57, шпаргалка
лекции
ПАРНАЯ РЕГРЕССИЯ
Коэффициент корреляции показывает, что две переменные связаны друг с другом, однако он не дает представления о том, каким образом они связаны. Рассмотрим более подробно те случаи, для которых мы предполагаем, что одна переменная зависит от другой.
Сразу же отметим,
что не следует ожидать получения
точного соотношения между
Начнем с рассмотрения
простейшей модели:
Величина у, рассматриваемая как зависимая переменная, состоит из двух составляющих: 1) неслучайной составляющей α+βx, где х выступает как объясняющая (или независимая) переменная, а постоянные величины α и β — как параметры уравнения; 2) случайного члена e.
Почему же существует случайный член? Имеется несколько причин.
1. Невключение объясняющих переменных. Соотношение между у и х почти наверняка является очень большим упрощением. В действительности существуют другие факторы, влияющие на у, которые не учтены в формуле Влияние этих факторов приводит к тому, что наблюдаемые точки лежат вне прямой. Часто происходит так, что имеются переменные, которые мы хотели бы включить в регрессионное уравнение, но не можем этого сделать потому, что не знаем, как их измерить, например психологические факторы. Возможно что существуют также другие факторы, которые мы можем измерить, н которые оказывают такое слабое влияние, что их не стоит учитывать. Кроме того, могут быть факторы, которые являются существенными, но которые мы из-за отсутствия опыта таковыми не считаем. Объединив все эти составляющие, мы получаем то, что обозначено как и. Если бы мы точно знали, какие переменные присутствуют здесь, и имели возможность точно их измерить, то могли бы включить их в уравнение и исключить соответствующий элемент из случайного члена. Проблема состоит в том, что мы никогда не можем быть уверены, что входит в данную совокупность, а что — нет.
Остаточный член
является суммарным проявлением
всех этих факторов. Очевидно, что если
бы вас интересовало только измерение
влияния х на у,
то было бы значительно удобнее, если бы
остаточного члена не было. Если бы он
отсутствовал, мы бы знали, что любое изменение
у от наблюдения к наблюдению вызвано
изменением х, и смогли бы точно вычислить
р. Однако в действительности каждое изменение
у отчасти вызвано изменением и,
и это значительно усложняет жизнь. По
этой причине e иногда описывается
как шум.
Регрессия
по методу наименьших
квадратов с одной
независимой переменной
Рассмотрим случай,
когда имеется п
наблюдений двух переменных х
и у. Предположив, что у
зависит от х, мы хотим подобрать уравнение
Мы хотим выбрать
а и b, чтобы минимизировать величину
S:
Можно обнаружить, что величина S минимальна, когда
Варианты выражения для b
Вывод выражений для а и b будет осуществляться в соответствии с той же процедурой, которая использовалась в двух примерах в разделе 2.3, и предлагается сравнивать общий вариант с примерами на каждом этапе. Начнем с того, что выразим квадрат /-го остатка через а и b и наблюдения значений х и у:
Суммируя по всем п наблюдениям, запишем S в виде:
Заметим, что данное выражение для S является квадратичной формой по a и b, и ее коэффициенты определяются выборочными значениями х и у. Мы можем влиять на величину S, только задавая значения а и b. Значения хну, которые определяют положение точек на диаграмме рассеяния, уже не могут быть изменены после того, как мы взяли определенную выборку.
Условия первого порядка для минимума, то есть ∂5/∂а = 0 и ∂б/∂b = 0, принимают вид: Эти уравнения известны как нормальные уравнения для коэффициентов регрессии. Подставив 23вместо ∑yi и вместо ∑xi, получим:
Следовательно,
Подставив выражение для а в уравнение и помня, что ∑хi,- равно пх,
имеем:
После деления
на 2n и перегруппировки получим:
Отсюда
Интерпретация линейного уравнения регрессии
Представим простой способ интерпретации коэффициентов линейного уравнения регрессии
у = a + bx,
когда у и х — переменные с простыми, естественными единицами измерения.
Во-первых, можно сказать, что увеличение х на одну единицу (в единицах измерения переменной x) приведет к увеличению значения y на b единиц (в единицах измерения переменной у). Вторым шагом является проверка, каковы действительно единицы измерения х и у, и замена слова «единица» фактическим количеством. Третьим шагом является проверка возможности более простого выражения результата, который может оказаться не вполне удобным. В примере, приведенном в данном разделе, в качестве единицы измерения для х и у использовались миллиарды долларов, что позволило произвести очевидные упрощения.
Постоянная а дает прогнозируемое значение y (в единицах у), если х = 0. Это может иметь или не иметь ясного смысла в зависимости от конкретной ситуации.
Качество оценки: коэффициент R2
Цель регрессионного анализа состоит в объяснении поведения зависимой переменной у. В любой данной выборке у оказывается сравнительно низким в одних наблюдениях и сравнительно высоким — в других. Мы хотим знать, почему это так. Разброс значений у в любой выборке можно суммарно описать с помощью выборочной дисперсии sy2. Мы должны уметь рассчитывать величину этой дисперсии.
В парном регрессионном
анализе мы пытаемся объяснить поведение>>
путем определения
Величина — расчетное значение у в наблюдении i — это то значение, которое имел бы у при условии, что уравнение регрессии было правильным, и отсутствии случайного фактора. Это, иными словами, величина у, спрогнозированная по значению х в данном наблюдении. Тогда остаток е, - это расхождение между фактическим и спрогнозированным значениями величины y. Это та часть у, которую мы не можем объяснить с помощью уравнения регрессии. Разложим дисперсию у:
Далее, оказывается, что должна быть равна нулю. Следовательно, мы получаем:
Это означает, что мы можем разложить D (у) на две части: — часть, которая «объясняется» уравнением регрессии в вышеописанном смысле, и D (е) — «необъясненную» часть1.
. Oтношение дисперсии
у, объясненной уравнением регрессии
ко всей дисперсии, известно как коэффициент
детерминации, и его обычно обозначают
R2:
Максимальное значение коэффициента R2 равно единице. Это происходит в том случае, когда линия регрессии точно соответствует всем наблюдениям, так что , для всех i и все остатки равны нулю. Тогда и R2=1.
Если в выборке отсутствует видимая связь между у и х, то коэффициент R2 будет близок к нулю.
При прочих равных
условиях желательно, чтобы коэффициент
R2 был как можно больше.
В частности, мы заинтересованы в таком
выборе коэффициентов а
и Ь, чтобы максимизировать R2.
Не противоречит ли это нашему критерию,
в соответствии с которым а
и b должны быть выбраны таким образом,
чтобы минимизировать сумму квадратов
остатков? Нет, легко показать, что эти
критерии эквивалентны, если (используется
как определение коэффициента R2.
СВОЙСТВА КОЭФФИЦИЕНТОВ РЕГРЕССИИ
И ПРОВЕРКА ГИПОТЕЗ
С помощью регрессионного анализа мы можем получить оценки параметров зависимости. Однако они являются лишь оценками. Поэтому возникает вопрос о том, насколько они надежны. Дадим сначала общий ответ, изучив условия несмещенности и факторы, определяющие дисперсию оценок. Основываясь на этом, мы будем совершенствовать способы проверки совместимости регрессионной оценки с конкретной априорной гипотезой об истинном значении оцениваемого параметра. И следовательно, мы будем строить доверительный интервал для истинного значения, который представляет собой множество всех возможных гипотетических значений, не противоречащих результатам экспериментов. Будет также показано, каким образом можно проверить, является ли качество подбора кривой более высоким, чем при чисто случайном подборе.
Случайные
составляющие коэффициентов
регрессии
Коэффициент регрессии, вычисленный методом наименьших квадратов, -это особая форма случайной величины, свойства которой зависят от свойств остаточного члена в уравнении. Мы продемонстрируем это сначала теоретически, а затем посредством контролируемого эксперимента. В частности, мы увидим, какое значение для оценки коэффициентов регрессии имеют некоторые конкретные предположения, касающиеся остаточного члена.