Использование дисперсионного анализа в методических исследованиях
Курсовая работа, 02 Июля 2013, автор: пользователь скрыл имя
Краткое описание
Проникновение математических методов в самые разнообразные, подчас неожиданные сферы человеческой деятельности дает возможность пользоваться новыми, как правило, весьма плодотворными средствами исследования. Рост математической культуры специалистов в соответствующих областях приводит к тому, что изучение общих теоретических положений и методов вычислений уже не встречает серьезных трудностей. Вместе с тем на практике оказывается, что одних лишь математических познаний далеко не достаточно для решения той или иной прикладной задачи – необходимо еще получить навыки в переводе исходной формулировки задачи на математический язык. В этом и состоит проблема овладения искусством математического моделирования.
Содержание работы
Введение 4
Основная часть 5
2.1)Однофакторный дисперсионный анализ 6
2.2)Двухфакторный дисперсионный анализ 11
2.3)Многофакторный дисперсионный анализ 14
Задача для курсовой работы 18
3.1)Решение задачи для курсовой работы 20
Заключение 22
Список используемых источников 23
Содержимое работы - 1 файл
Титул курсовой работы.doc
— 335.50 Кб (Скачать файл)
Для случайной модели II слагаемое
Fi в выражении (1) – величина
случайная. Обозначая ее дисперсией
получим из (9)
и, как и в модели I
M(
)= σ2.
В таблице №1 представлен общий
вид вычисления значений, с помощью дисперсионного
анализа.
Таблица №1 – Базовая таблица дисперсионного
анализа
Компоненты дисперсии |
Сумма квадратов |
Число степеней свободы |
Средний квадрат |
Математическое ожидание среднего квадрата |
Межгрупповая |
|
m-1 |
= Q1/(m-1) |
|
Внутригрупповая |
|
mn-m |
= Q2/(mn-m) |
M(S
)= σ2 |
Общая |
|
mn-1 |
Гипотеза H0 примет вид σF2
=0. В случае справедливости этой гипотезы
M(
)= M(
)= σ2.
В случае однофакторного комплекса как
для модели I, так и модели II средние квадраты
S2 и S2, являются несмещенными
и независимыми оценками одной и той же
дисперсии σ2.
Следовательно, проверка нулевой гипотезы
H0 свелась к проверке существенности
различия несмещенных выборочных оценок
S2
и S
дисперсии σ2.
Гипотеза H0 отвергается, если фактически
вычисленное значение статистики
F = S
/S
больше критического Fα:K1:K2, определенного
на уровне значимости α при числе степеней
свободы k1=m-1 и k2=mn-m, и принимается,
если F < Fα:K1:K2
.
F- распределение Фишера (для x > 0) имеет
следующую функцию плотности (для
= 1, 2, ...;
= 1, 2, ...):
где
- степени свободы;
Г - гамма-функция.
Применительно к данной задаче опровержение
гипотезы H0 означает наличие существенных
различий в качестве изделий различных
партий на рассматриваемом уровне значимости.
Для вычисления сумм квадратов Q1,
Q2, Q часто бывает удобно использовать
следующие формулы:
т.е. сами средние, вообще говоря, находить
не обязательно.
Таким образом, процедура однофакторного
дисперсионного анализа состоит в проверке
гипотезы H0 о том, что имеется одна
группа однородных экспериментальных
данных против альтернативы о том, что
таких групп больше, чем одна. Под однородностью
понимается одинаковость средних значений
и дисперсий в любом подмножестве данных.
При этом дисперсии могут быть как известны,
так и неизвестны заранее. Если имеются
основания полагать, что известная или
неизвестная дисперсия измерений одинакова
по всей совокупности данных, то задача
однофакторного дисперсионного анализа
сводится к исследованию значимости различия
средних в группах данных.
Двухфакторный дисперсионный анализ
Принимается аддитивная и независимая модель действия факторов:
, причем , . (15)
Величины aj и bi называются вкладами факторов. Последние два условия всегда можно выполнить масштабированием величин aj и bi за счет изменения величины c.
Для каждого наблюдения из рассматриваемой совокупности справедливо уравнение:
xij = c + aj + bi + e ij, i =1, ..., n; j =1, ..., k. (16)
Обычно наблюдения представляют структурной таблицей статистического комплекса. Приведем простейший двухфакторный комплекс, в которой каждому сочетанию (Aj, Bj) уровней (градаций) факторов, т.е. одной клетке таблицы, соответствует одно наблюдение (в таблице сочетание символов “( )^” обозначает статистическую оценку групповых средних): Разложение результатов измерения при двухфакторном дисперсионном анализе представлены в таблице №2.
Таблица №2:
Фактор B |
Фактор A |
Средние по строкам |
B1 B2 ... Bn |
x11 x12 ... x1k x21 x22 ... x2k ... xn1 xn2 ... xnk |
x1· =(c+b1)^ x2· =(c+b2)^ ... xn· =(c+bn)^ |
Средние по столбцам |
x· 1= x· 2= x· k= |
x· · =c^ |
Основное тождество
Оценки c, bi, aj могут быть получены с помощью метода наименьших квадратов (МНК) минимизацией суммы (17)
Основываясь на МНК-оценках
, (18)
введем следующие обозначения:
- для сумм квадратов отклонений под влиянием k уровней фактора А и n уровней фактора В:
, ; (19)
- для остаточной суммы квадратов:
; (20)
- для полной суммы квадратов наблюдений относительно общего среднего :
. (21)
Тогда справедливо следующее
, (22)
т.е. полная сумма квадратов отклонений является суммой квадратов вкладов по факторам и квадратов случайных отклонений (или остатков ). Другими словами, полное рассеяние есть сумма вариации под влиянием факторов и случайной составляющей.
Проверка нулевых гипотез
По имеющимся наблюдениям
HA: a1 = a2 = . . . = ak = 0
HB: b1 = b2 = . . . = bn = 0 .
Основой процедуры проверки гипотезы является сравнение двух статистически независимых оценок дисперсии s 2.
Одна из них, s 2* оценивает дисперсию вне зависимости от того, верна или нет гипотеза HA (или HВ) и основана на сумме квадратов случайных отклонений:
. (23)
Другая, s 2** оценивает дисперсию, если HA (или HВ) верна. Для гипотезы HA эта дисперсия основана на сумме квадратов разностей “между столбцами”, т.е. по уровням фактора A:
. (24)
Если гипотеза HA верна, то отношение
(25)
имеет F-распределение Фишера с (k -1) и r степенями свободы. Если
FA ³ F1-a , (26)
где F1-a – квантиль этого распределения порядка 1- a , a – выбранный уровень значимости, то гипотеза HA отклоняется.
Вместо (5.54) можно использовать эквивалентную процедуру: гипотеза HA отклоняется, если
P{ F ³ FA } £ a, (27)
где P{ F ³ FA } – вероятность при справедливости HA получить значение, большее, чем FA; F – случайная величина, имеющая распределение Фишера.
Для проверки гипотезы HВ используют сумму квадратов разностей "между строками", то есть по уровням фактора B: . (28)
Аналогичным образом, если отношение велико, то гипотеза HB отклоняется.
Многофакторный дисперсионный
анализ
Следует сразу же отметить, что
принципиальной разницы между многофакторным
и однофакторным дисперсионным анализом
нет. Многофакторный анализ не меняет
общую логику дисперсионного анализа,
а лишь несколько усложняет ее, поскольку,
кроме учета влияния на зависимую переменную
каждого из факторов по отдельности, следует
оценивать и их совместное действие. Таким
образом, то новое, что вносит в анализ
данных многофакторный дисперсионный
анализ, касается в основном возможности
оценить меж-факторное взаимодействие.
Тем не менее, по-прежнему остается возможность
оценивать влияние каждого фактора в отдельности.
В этом смысле процедура многофакторного
дисперсионного анализа (в варианте ее
компьютерного использования) несомненно
более экономична, поскольку всего за
один запуск решает сразу две задачи: оценивается
влияние каждого из факторов и их взаимодействие.
Общая схема двухфакторного эксперимента,
данные которого обрабатываются дисперсионным
анализом имеет вид:
Зависимая переменная xi |
|
Взаимодействие факторов A и B |
Прочие не учитываемые (случайные) факторы |
Фактор B: |
Фактор А: |
|
Рисунок 1.1 – Схема двухфакторного эксперимента
Данные, подвергаемые многофакторному
дисперсионному анализу, часто обозначают
в соответствии с количеством факторов
и их уровней.
Предположив, что в
рассматриваемой задаче о качестве различных
m партий изделия изготавливались на разных
t станках и требуется выяснить, имеются
ли существенные различия в качестве изделий
по каждому фактору:
А - партия изделий;
B - станок.
В результате получается переход к задаче
двухфакторного дисперсионного анализа.
Все данные представлены в таблице №3,
в которой по строкам - уровни Ai фактора
А, по столбцам — уровни Bj фактора
В, а в соответствующих ячейках, таблицы
находятся значения показателя качества
изделий xijk (i=1,2,...,m; j=1,2,...,l; k=1,2,...,n).
Таблица №3 – Показатели качества изделий
B1 |
B2 |
… |
Bj |
… |
Bl | |
A1 |
x11l,…,x11k |
x12l,…,x12k |
… |
x1jl,…,x1jk |
… |
x1ll,…,x1lk |
|
A2 |
x21l,…,x21k |
x22l,…,x22k |
… |
x2jl,…,x2jk |
… |
x2ll,…,x2lk |
|
… |
… |
… |
… |
… |
… |
… |
Ai |
xi1l,…,xi1k |
xi2l,…,xi2k |
… |
xijl,…,xijk |
… |
xjll,…,xjlk |
|
… |
… |
… |
… |
… |
… |
… |
Am |
xm1l,…,xm1k |
xm2l,…,xm2k |
… |
xmjl,…,xmjk |
… |
xmll,…,xmlk |
Двухфакторная дисперсионная модель
имеет вид:
где xijk - значение наблюдения в ячейке
ij с номером k;
μ - общая средняя;
Fi - эффект, обусловленный влиянием
i-го уровня фактора А;
Gj - эффект, обусловленный влиянием
j-го уровня фактора В;
Iij - эффект, обусловленный взаимодействием
двух факторов, т.е. отклонение от средней
по наблюдениям в ячейке ij от суммы первых
трех слагаемых в модели (29);
εijk - возмущение, обусловленное
вариацией переменной внутри отдельной
ячейки.
Предполагается, что εijk имеет нормальный
закон распределения N(0; с2), а все
математические ожидания F*,
G*, Ii*, I*j равны нулю.
Групповые средние находятся по
формулам:
- в ячейке:
,
по строке:
по столбцу:
общая средняя:
В таблице №4 представлен общий вид вычисления
значений, с помощью дисперсионного анализа.
Таблица №4 – Базовая таблица дисперсионного
анализа
Компоненты дисперсии |
Сумма квадратов |
Число степеней свободы |
Средние квадраты |
Межгрупповая (фактор А) |
|
m-1 |
|
Межгрупповая (фактор B) |
|
l-1 |
|
Взаимодействие |
|
(m-1)(l-1) |
|
Остаточная |
|
mln - ml |
|
Общая |
|
mln - 1 |
Проверка нулевых гипотез HA, HB, HAB об отсутствии влияния на рассматриваемую переменную факторов А, B и их взаимодействия AB осуществляется сравнением отношений
Если n=1, т.е. при одном наблюдении в ячейке, то не все нулевые гипотезы могут быть проверены так как выпадает компонента Q3 из общей суммы квадратов отклонений, а с ней и средний квадрат
С точки зрения техники вычислений для нахождения сумм квадратов Q1, Q2, Q3, Q4, Q целесообразнее использовать формулы:
Q3 = Q – Q1 – Q2 – Q4.
Отклонение от основных предпосылок дисперсионного анализа — нормальности распределения исследуемой переменной и равенства дисперсий в ячейках (если оно не чрезмерное) — не сказывается существенно на результатах дисперсионного анализа при равном числе наблюдений в ячейках, но может быть очень чувствительно при неравном их числе. Кроме того, при неравном числе наблюдений в ячейках резко возрастает сложность аппарата дисперсионного анализа. Поэтому рекомендуется планировать схему с равным числом наблюдений в ячейках, а если встречаются недостающие данные, то возмещать их средними значениями других наблюдений в ячейках. При этом, однако, искусственно введенные недостающие данные не следует учитывать при подсчете числа степеней свободы.
Задача для курсовой работы