Корреляционно-регресионный анализ

Автор работы: Пользователь скрыл имя, 04 Октября 2011 в 00:19, лабораторная работа

Краткое описание

Проводились исследования влияния температуры на кислотность при производстве сыра «Майского». Результаты исследований представлены в таблице 1

Содержимое работы - 1 файл

оТЧЕТ ТЕМА 1 МОДЕЛИРОВАНИЕ.docx

— 203.59 Кб (Скачать файл)

     Коэффициент корреляции определяется по формуле (10):

(10)

     Чем ближе коэффициент корреляции к  единице, тем теснее линейная зависимость  между переменными Х и Y.

     В нашем случае r=-0,986. Так как коэффициент корреляции r находится в интервале [-1;1], то делаем вывод, что в данном случае линейная зависимость может существовать, а может и не существовать. Для точного ответа на вопрос необходим дополнительный дисперсионный анализ.

     Осуществим  статистическое оценивание коэффициентов  регрессии, т.е. проверим, отличается ли значимо оценка коэффициента регрессии  от нуля. Граница значимости устанавливается  на основании распределения Стьюдента. Для этого по формуле (11) вычисляем статистику tнабл.

          (11)

     В нашем случае имеем: . Далее необходимо сравнить tнабл с . Необходимо, чтобы . В этом случае регрессионная модель выбрана удачно, т.е. она согласуется с экспериментальными данными и значение коэффициента r значимо отличается от нуля. В противном случае, регрессионная модель не согласуется с экспериментальными данными, т.е. регрессионная модель выбрана неудачно.

     Коэффициент детерминации R2 характеризует степень совпадения экспериментальных данных модельным (рассчитанным по уравнению регрессии). Чем выше значение коэффициента детерминации, тем выше точность значений, рассчитанных по уравнению регрессии. Коэффициент детерминации изменяется от 0 до 1. Вычисляется коэффициент детерминации по формуле (12):

(12)

     Если  R2>0,7, то говорят, что выбранная модель работоспособна.

     Для удобства вычислений R2 создается таблица следующего вида:

Таблица 7

     
   
В последней строке таблицы размещаются  суммы по каждому столбцу
 

     - среднее значение yi, рассчитывается по формуле (13)

(13)

     В нашем случае расчеты представлены в таблице 8:

Таблица 8

   
 
   
 
 
 
 
         
  242,7712969 188,0816327 131,2857143  
  81,19394223 114,7959184  
  25,69027078 45,08163265  
  5,955632047 0,510204082  
  17,05636634 18,36734694  
  114,4961451 68,65306122  
  298,2749683 371,9387755  
  785,438622 807,428571  
         
    
 
 

     .

     Таким образом, 0,9727>0,7, то есть выбранная модель работоспособна.

     Далее, для проверки соответствия линейной регрессионной модели экспериментальным  данным, используют статистический критерий проверки нулевой гипотезы, критерий Фишера. Для этого рассчитывается:

    1. полная сумма квадратов (общая дисперсия):
(14)
    1. сумма квадратов регрессии:
(15)
    1. остаточная сумма квадратов
(16)

где берется из 2-го столбца таблицы 8; - из 1-го столбца таблицы 8; - 5-й столбец из таблицы 5.

Выполняем обязательную проверку a=b+c.

     Нулевая гипотеза Н0 состоит в предположении того, что линейной зависимости между переменными Х и Y не существует. Конкурирующей к ней гипотезой является Н1, которая предполагает, что линейная зависимость между переменными X и Y существует. Необходимо подтвердить или опровергнуть гипотезы. Поэтому находим статистический критерий - величину Fнабл, который сравниваем с коэффициентом Фишера, найденным по таблицам распределения. Если Fнабл< Fa;n1;n2, то нулевая гипотеза Н0 подтверждается, в обратном случае, т.е. если Fнабл> Fa;n1;n2, то нулевая гипотеза Н0 отвергается и принимается альтернативная гипотеза Н1.

     Предположим, что линейная гипотеза Н0 верна, т.е. r=0.

     Для удобства вычислений построим таблицу  9 дисперсионного анализа:

  Таблица 9 – Дисперсионный анализ

    Источник  изменчивости Суммы квадратов Число степеней свободы Средние квадраты Fнабл
    Линейная  регрессия b 1 М1 = b =М1/М2
    Остаток c n-2 М2 = c/(n-2)
    Полная  изменчивость a n-1  
 

     Результаты  вычислений представлены в таблице 10.

  Таблица 10

Источник  изменчивости Суммы квадратов Число степеней свободы Средние квадраты Fнабл
Линейная  регрессия 785,438622 1 785,438622 178,590363
Остаток 21,9899497 5 4,39798994
Полная  изменчивость 807,428571 6  
 
 

     Контроль: а=807,4285;  b+с = 785,4386+21,9899=807,4285.

     Определим табличный критерий Фишера Fa;n1;n2. Он определяется по трем параметрам a=0,05; n1=n-d (n – количество опытов, d – число значимых коэффициентов), n2=n(m-1) (m – количество повторностей и равно 2). В нашем случае Fa;n1;n2 = F0,05;5;7 = 3,972.

     Необходимо, чтобы Fнабл> Fa;n1;n2. В нашем случае имеем: 178,5903>3,972. Значит, Н0, гипотеза отсутствия линейной связи между переменными Х и Y отвергается, т.е. между переменными Х и Y существует линейная связь [2 c. 281-283, 7 c. 9-12].

    6) Проведем анализ исходных данных  при помощи встроенных функций  EXCEL.

     Анализ  данных электронных таблиц Excel позволяет автоматически осуществить поиск коэффициентов уравнения регрессии и определение коэффициентов корреляции, детерминации, доверительных интервалов и т.д.

   Для этого необходимо выполнить последовательно  следующие действия:

  1. Выбирается меню Сервис, команда Анализ данных.
  2. В открывшемся окне Анализ данных  выбирается команда Регрессия.
  3. В окне Регрессия в строке Входной интервал Y указывается диапазон, где размещаются исходные значения Y в электронной таблице.
  4. В строке Входной интервал X указывается диапазон размещения исходных значений X в электронной таблице.
  5. В Параметрах вывода в окне Регрессия указывается, где Вы хотите расположить результат: на этом же листе, на новом листе или в новой книге. После выбора места расположения указывается диапазон, в котором будут располагаться результаты вычислений.
  6. В команде Остатки указывается, какие остатки необходимо вывести после вычислений, например вывод Стандартизированных остатков и Остатков. Для этого напротив этих команд устанавливаются галочки.
  7. В команде Нормальная вероятность установить галочку напротив команды График нормальной вероятности и График подбора.

В нашем  случае имеем:

     Сравнивая значения статистических величин, рассчитанных Excel в Анализе данных и рассчитанных нами ранее, видим, что полученные данные совпадают.

    7) Подберем математическую модель  с использованием линий тренда  в электронных таблицах EXCEL.

     Для построения линий тренда необходимо:

    1. Выделить точку на корреляционном поле и вызвать контекстное меню, в котором выбирается команда Добавить линию тренда;

    2. В открывшемся диалоговом окне Линия тренда представлены шесть видов линий тренда. Выбирается линия тренда наиболее соответствующая расположению точек на корреляционном поле;

    3. На вкладке Параметры диалогового окна Линия тренда устанавливаются флажки напротив команд Показать уравнение на диаграмме и Поместить на диаграмму величину достоверности аппроксимации R2. Величина достоверности аппроксимации – это коэффициент детерминации. Нажимается кнопка ОК. После чего на графике отображается уравнение регрессии и значение коэффициента детерминации.

     Наиболее  соответствует экспериментальным  данным та линия тренда, коэффициент  детерминации которой наибольший и  наиболее близок к единице. При этом коэффициент детерминации должен быть больше 0,7.

     В нашем случае имеем:

    Рисунок 2 – Линии тренда

     Анализ  математической модели с помощью  линий тренда проводится по значению коэффициента детерминации R2. Необходимо, чтобы:

  • R2>0,7; т.е. модель должна быть работоспособной;
  • R2 должен быть максимально приближен к 1.

     В нашем случае, все модели работоспособны, а наиболее близок к 1 R2=0,9368, т.е. коэффициент детерминации полиномиальной модели. Но, т.к. разность между коэффициентами детерминации линейной и полиномиальной моделей невелика, то для расчетов можно принять линейную модель, а для более точных вычислений использовать полиномиальную модель.

Информация о работе Корреляционно-регресионный анализ