Автор работы: Дарья *, 05 Сентября 2010 в 19:37, шпаргалка
Пространственные данные – характеризуют ситуацию по конкретной переменной (или набору переменных), относящейся к пространственно разделенным сходным объектам в один и тот же момент времени. Таковы, например, данные по курсам покупки или продажи наличной валюты в конкретный день по разным обменным пунктам г. Москвы. Другим примером является, скажем, набор сведений (объем производства, количество работников, доход и др.) по разным фирмам в один и тот же момент времени или период.
15. Интервальная оценка параметров модели парной регрессии.
В прогнозных расчетах по уравнению регрессии определяется предсказываемое (ур) значение как точечный прогноз ýх при хр =хк, т.е. путем подстановки в уравнение регрессии ýх=а+bx соответствующего значения х. Однако точечный прогноз явно не реален. Поэтому он дополняется расчетом стандартной ошибки ýх, т.е. u и соответственно интервальной оценкой прогнозного значения (у*)
где u рассчитывается по формуле: , где -средная квадратиче6ская ошибка, t(кр) берется из таблицы T-критерия Стьюдента с заданной доверительной вероятностью и степенью свободы.
Интервальная оценка параметров моделей парной регрессии
Для значимого ур-я регрессии строят интервальные оценки параметров a и b.
Интервальная оценка параметра a, есть:
Замечание:
если интервальные границы в разные по
знаку, то такие уравнения в прогнозировании
использовать нельзя, т.е. непонятно какое
направление.
16. Проверка выполнения предпосылок МНК.
Рассмотрим
выполнение предпосылки
Невыполнение этой предпосылки, т.е. нарушение условия гомоскедастичности возмущений означает, что дисперсия возмущения зависит от значений факторов. Такие регрессионные модели называются моделями с гетероскедастичностью возмущений.
Обнаружение гетероскедастичности
Для обнаружения гетероскедастичности обычно используют тесты, в которых делаются различные предположения о зависимости между дисперсией случайного члена и объясняющей переменной: тест ранговой корреляции Спирмена, тест Голдфельда - Квандта, тест Глейзера, двусторонний критерий Фишера и другие.
При малом объеме выборки для оценки гетероскедастичности может использоваться метод Голдфельда — Квандта.
Данный тест используется для проверки такого типа гетероскедастичности, когда дисперсия остатков возрастает пропорционально квадрату фактора. При этом делается предположение, что, случайная составляющая распределена нормально.
Чтобы оценить нарушение гомоскедастичности по тесту Голдфельда - Квандта необходимо выполнить следующие шаги.
Упорядочение п наблюдений по мере возрастания переменной х.
Исключение d средних наблюдений (d д.б. примерно равно четверти общего количества наблюдений). Разделение совокупности на две группы (соответственно с малыми и большими значениями фактора Х) и определение по каждой из групп уравнений регрессии.
Определение остаточной суммы квадратов для первой регрессии и второй регрессии . Вычисление отношений (или ). В числителе должна быть большая сумма квадратов.
Полученное отношение имеет F распределение со степенями свободы k1=n1-k и k2=n-n1-k, (k– число оцениваемых параметров в уравнении регрессии).
Если
, то гетероскедастичность имеет место.
Чем больше величина F превышает табличное
значение F -критерия, тем более нарушена
предпосылка о равенстве дисперсий остаточных
величин.
17. Интервалы прогноза по линейному уравнению парной регрессии (прогнозирование с применением модели множественной регрессии).
2 вида доверительных интервалов:
1) Дов. интервал для функции регрессии: Мх(У)=f(х);
^y - t1-α,k · S^y ≤ Mx(Y) ≤ ^y + t1-α,k · S^y
Mx(Y) – усл. мат. ож. зависимой переменной У;
t1-α,k – табл. значение к-та Стьюдента с доверит. вероятностью γ=1-α, где α – уровень значимости с числом степеней свободы k=n-2 для парной регрессии.
S^y =
^y – стандартная ошибка групповой средней.
Прогноз значений зависимой переменной У по ур-ию регрессии оправдан, если значение независимой переменной Х не выходит за пределы её значений по выборке, поскольку величина доверительного интервала зависит от значений объясняющей переменной Х: при длина интервала минимальна, а по мере удаления от длина интервала увеличивается.
2) Дов. интервал для индивид. значений зависимой переменной: ^y - t1-α,n-2 · S^y0 ≤ y0* ≤ ^y+ t1-α,n-2·S^y0
^y0 = b0 + b1 · x0
t1-α,n-2 – табл. значение к-та Стьюдента…………
S^y =
3). Дов.
интервал для параметров
y = β0 + β1x + E
^y = b0 + b1x
Интервальная оценка параметров регрессии β1 на уровне значимости α имеет вид:
Прогнозирование с помощью модели множественной регрессии.
Уравнение
регрессии применяют для
Прогноз, полученный подстановкой в уравнение регрессии ожидаемого значения параметра, является точечным. Вероятность реализации такого прогноза ничтожна мала. Целесообразно определить доверительный интервал прогноза.
Для того чтобы определить область возможных значений результативного показателя, при рассчитанных значениях факторов следует учитывать два возможных источника ошибок: рассеивание наблюдений относительно линии регрессии и ошибки, обусловленные математическим аппаратом построения самой линии регрессии. Ошибки первого рода измеряются с помощью характеристик точности, в частности, величиной . Ошибки второго рода обусловлены фиксацией численного значения коэффициентов регрессии, в то время как они в действительности являются случайными, нормально распределенными.
Для линейной модели регрессии доверительный интервал рассчитывается следующим образом. Оценивается величина отклонения от линии регрессии (обозначим ее U):.
где
18. Понятие и причины гетероскедантичности. Её последствия. Обнаружение.
Для того,
чтобы регресс. анализ, основанный на
МНК давал наилучшие
Постоянство дисперсий понимается след. образом: вероятность того, что величина Е примет к-л значение, наперёд заданное, одинакова для всех наблюдений. Это свойство называется гомоскеданстичностью («одинаковый разброс»). Если свойство постоянства дисперсий не выполнено, то мы говорим о гетероскедантичности случ. компоненты и теоретические кривые меняются в зависимости от номера наблюдения. Д(Еi) ≠ σ² (Д(Еi) = σ²).
Причины: возможной причиной является то, что значения переменных, входящих в уравнение регрессии, существенно различаются в разных наблюдениях (например, У-объём выпуска, Х-произв-ть труда, У1(выручка) = 5 т.р., а Уi = 10 млн. р.)
Последствия: если гетерос-ть не устранить, то теоретическая дисперсия оценок, полученных МНК, значительно возрастает. МНК оценки становятся неэффективными, кроме того оценки коэф-та регрессии м.б. не верными, иметь большую ошибку. При наличии гетероскедантичности использование МНК становится неоправданным.
Обнаружение: 3 критерия:
1) тест ранговой корреляции Спирмена. В этом тесте предполагается, что имеется корреляция между объясняющей переменной (Х) и остатками (Е). Для применения теста обе эти последовательности упорядочиваются, после чего рассч-ся к-т ранговой корреляции rxe = 1 – (6∑Di²/n-(n²1)), где Di – разность между рангами объясняющей переменной и остаточной компонентой. Рассч-ют t-статистику: t=(rxe·√n-1 / √1- rxe²). Если выполнено такое равенство, то гипотеза об отсутствии гетероскедантичности отклоняется.
2) Тест Голдфелда-Квандта. Он используется при предположении, что выполнен НЗР остаточной компоненты и ошибки остаточной компоненты пропорциональны объясняющей компоненте (чем больше Х, тем больше σ, и наоборот). Все наблюдения упорядочиваются по Х. Затем производится оценка отдельных регрессий для первых n наблюдений и для последних n наблюдений. Далее вычисляется сумма квадратов остатков. RSS = ∑(yi – yi^) (RSS1 – к началу ряда, RSS2 – к концу ряда; n’= 3/8 n, т.е. делить на 3 части наблюдения; Fрасч = RSS2 / RSS1 (должно иметь статистику Фишера) и сравнивается с F табличным.) Число степеней свободы = n’ – k, где k – число параметров модели, α – заданный уровень значимости. Если Fрасч < Fтабл, то гипотеза о равенстве сумм квадратов остатков не отвергается (т.е. дисперсия не растёт), остатки являются гомоскедантичными.
3) Тест Глейзера. В этом тесте предполагается, что дисперсия остатков есть функция объясняющей переменной σе² = f(x). → надо построить уравнение регрессии и оценить его значимость. Если оно в целом статистически значимо, то имеет место гетероскедантичность.
Устранение гетероскедантичности: устранить её можно путём деления каждого наблюдения на величину σеi.
Yi = β0 + β1xi + Ei
Yi/ σеi = β0/σеi + β1 (xi/σеi) + Ei/σеi
В новом
уравнении регрессии случ. составляющая
равна Ei/σеi, а её дисперсия D (Ei/σеi)
= 1. → становится постоянной (=1), → модель
гомоскедантична.
19. Нелинейная регрессия. Нелинейные модели и их линеаризация.
Различают 2 класса нелинейных регрессий:
-регрессии
нелинейные относительно
Пусть Y=lgy; A=lga; B=lgb
Тогда Y=A+Bx б) внутр. нелинейные модели линеаризации не подлежат. Для оценки их параметров испол-ся спец. итеративные методы; критерием сходимости этих методов служит минимум суммы квадратов остатков.
Степенная y=axb ε Показательная y=abx ε
Экспоненциальная у=уa+bx ε. Линеаризация нелинейной модели представляет собой преобразование используемой модели в линейную путем замены переменных на нестепенные.
Так, в
параболе второй степени у=а0+а1х+а2х2+
ε заменяя переменные х=х1, х2=х2, получим
двухфакторное уравнение
Соответственно для полинома третьего порядка y=a+bx+cx2+dx3+ ε при замене х=х, х2=х2, х3=х3,, получим трехфакторную модель линейной регрессии: у=а0+а1х1+а2х2+ а3х3 + ε
Название ф-ии | Вид модели | Заменяемые переменные | Вид линеаризиров.модели |
Показательная | Ln y = Ln a+ х ln b | Ln y = Y, Ln a = α, Ln b =β | Y = |
Степенная | Ln y = Ln a+ b ln x | Ln y = Y, Ln a = α, Ln x =x | Y = |
гиперболическая | Y = a + b/x | 1/x=X | Y = a +b X |