Автор работы: Пользователь скрыл имя, 02 Ноября 2011 в 22:56, курс лекций
Тема 1.: Введение в статистику.
понятия статистики, статистическая закономерность и совокупность.
признаки единиц статистической совокупности, их классификация.
предмет и метод статистики.
Малая выборка – выборка наблюдения численность единиц которого не превышает 30, n£30/
Разработка теории малой выборки была проделана английским статистом Госсет, писавшим под псевдонимом student в 1908 году.
Он доказал, что оценка расхождения между средствами малой выборки и генеральной выборки имеет особый закон распределения. При расчетах по малой выборке величина s2 не рассчитывается. tст для возможных пределов ошибки пользуются критерием student. Стр.44-45. - вероятность обратного события.
Количество степеней свободы
d.f=n-1,
предельная ошибка малой выборки
предельная ошибка доли
§1. Понятие корреляционной связи и КРА.
§2. Условия применения и ограничения КРА.
§3. Парная регрессия на основе метода наименьших квадратов.
§4. Применение парного линейного уравнения регрессии.
§5. Показатели тесноты связи и силы связи.
§6. Множественная корреляция.
Функциональная связь y=5x
Корреляционная связь
Различают 2 типа связей меду различными явлениями и их признаком функциональную и статистическую.
Функциональной называется такая связь когда с изменением значения одной из переменных вторая изменяется строго определенным образом, т.е., значению одной переменной соответствует одно или несколько точно заданных значений другой переменной. Функциональная связь возможна лишь в том случае, когда переменная у зависит от переменной х и не от каких других факторов не зависит, но в реальной жизни такое невозможно.
Статистическая связь существует в том случае, когда с изменением значения одной из переменных вторая может в определенных пределах принимать любые значения, но ее статистические характеристики изменяются по определенному закону.
Важнейший частный случай статистической связи – корреляционная связь. При корреляционной связи разным значениям одной переменной соответствуют различные средние значения другой переменной, т.е. с изменением значения признака х закономерным образом изменяется среднее значение признака у.
Слово корреляция ввел английский биолог и статист Френсис Галь (correlation)
Корреляционная связь может возникнуть разными путями:
В статистике принято различать следующие виды зависимости:
Задачей
корреляционного анализа
Регрессия
исследует форму связи. Задача регрессионного
анализа – определение
Корреляционно-регрессионный анализ как общее понятие включает в себя изменение тесноты связи и установления аналитического выражения связи.
Регрессионный анализ заключается в определении аналитического выражения связи. По форме различают линейную регрессию, которая выражается уравнением прямой , и не линейную регрессию или .
По направлению связи различают на прямую т.е. с увеличением признака х увеличивается признак у.
Обратная т.е. с увеличением х уменьшается у.
Х – признак фактический
У - признак результативный
Разница между фактическим значением и значением рассчитанным по уравнению связи возведенное в квадрат должна стремиться к минимуму.
При МНК min сумма квадратов отклонений эмпирических значений у от теоретических полученных по выбранному уравнению регрессии.
Для линейной зависимости
для параболы
Для гиперболы
параметры a,b,c записываются в уравнение, затем подставляем полученное уравнение эмпирическое значение xi и находим теоретическое значение yi. Затем сравниваем yi теоретическое и yi эмпирическое. Сумма квадратов разности между ними должна быть минимальна. Выбираем тот вид зависимости при котором выполняется данная зависимость.
В уравнении парной линейной регрессии:
b – коэффициент парной линейной регрессии, он измеряет силу связи, т.е. характеризует среднее по совокупности отклонение у от его средней величины на принятую единицу измерения.
b=20 при изменении х на 1 признак у отклониться от своего среднего значения на 20 в среднем по совокупности.
Положительный знак при коэффициенте регрессии говорит о прямой связи между признаками, знак «-» говорит об обратной связи между признаками.
Основное применение – прогнозирование по уравнению регрессии. Ограничением при прогнозировании служат условия стабильности других факторов и условий процесса. Если резко измениться в нем среда протекающего процесса, то данное уравнение регрессии не будет иметь места.
Точечный прогноз получается подстановкой в уравнение регрессии ожидаемого значения фактора. Вероятность точной реализации такого прогноза крайне мала.
Если точечный прогноз сопровождается значением средней ошибки прогноза, то такой прогноз называется интервальным.
Средняя ошибка прогноза образуется из двух видов ошибок:
Средняя ошибка прогноза.
- ошибка положения линии регрессии в генеральной совокупности
n - объем выборки
xk – ошибочное значение фактора
- СКО результативного признака
от линии регрессии в
Корреляционный анализ предполагает оценку тесноты связи. Показатели:
при =-1 связь функциональная обратная, =1 связь функциональная прямая, при =0 связь отсутствует.
МИНУСЫ
Применяется только для линейных связей, используется для оценки связей между количественными признаками. Рассчитываются только по индивидуальным значениям.
Корреляционное отношение:
Эмпирическое: оба вида дисперсии рассчитываются по результативному признаку.
Теоретическое:
- дисперсия значений результативного признака рассчитанных по уравнению регрессии
- дисперсия эмпирического
ПЛЮСЫ
Коэффициент корреляции Спирмена
xi | yi |
10 | 1 |
20 | 7 |
30 | 4 |
Ранги – порядковые номера единиц совокупности в ранжированном ряду. Ранжировать оба признака необходимо в одном и том же порядке от меньших к большим или наоборот. Если ранги единиц совокупности обозначить рх и ру, то коэффициент корреляции рангов примет следующий вид:
Преимущества коэффициента корреляционного ряда:
Недостатки коэффициента Спирмена.
США 2400 кВт/ч 1
РФ 800 кВт/ч 2
Канада 600 кВт/ч 3
Если среди значения Спирмена встречаются несколько одинаковых, то образуются связанные ранги т.е. одинаковые средние номера
800 1
600 2,5
600 2,5
400 4
В данном случае коэффициент Спирмена рассчитывается следующим образом:
j – номера связок по порядку для признака х
Aj – число одинаковых рангов в j связи по х
k – номера связок по порядку признака у
Bk – число одинаковых рангов в к-ой связке по у
- максимальная сумма ранга
S – фактическая сумма рангов
Дает более строгую оценку чем коэффициент Спирмена.
Для расчета все единицы ранжируются по признаку х по признаку у для каждого ранга подсчитывается число последующих рангов превышающих данный их сумму обозначим Р и число последующих рангов ниже данного обозначения Q.