Как видно из таблицы, общая сумма квадратов SS = 28 разбита на компоненты: сумму квадратов, обусловленную внутригрупповой изменчивостью (2+2=4; см. вторую строку таблицы) и сумму квадратов, обусловленную различием средних значений между группами (28-(2+2)=24; см первую строку таблицы). Заметим, что MS в этой таблице есть средний квадрат, равный SS, деленная на число степеней свободы (ст.св).
Внутригрупповая изменчивость (SS) обычно называется остаточной компонентой или дисперсией ошибки. Это означает, что обычно при проведении эксперимента она не может быть предсказана или объяснена. С другой стороны, SS эффекта (или компоненту дисперсии между группами) можно объяснить различием между средними значениями в группах. Иными словами, принадлежность к некоторой группе объясняет межгрупповую изменчивость, т.к. нам известно, что эти группы обладают разными средними значениями.
Проверка значимости
Если на выборочные наблюдения не оказывают влияния определенные факторы, то оценки дисперсий не отличаются друг от друга. Это можно проверить с помощью F-критерия, а именно
По таблице F-распределения находят значения Fкр для выбранного уровня значимости q и числа степеней свободы. Если Fрасч < Fкр, делается вывод о том, что результаты эксперимента не противоречат гипотезе об отсутствии эффекта уровней исследуемого фактора. Если Fрасч ≥ Fкр, то следует сделать вывод о том, что исследуемый фактор вносит существенный эффект в разброс выходной величины у. В рассмотренном выше примере F-критерий показывает, что различие между средними статистически значимо (значимо на уровне 0.008).
Основная логика дисперсионного анализа
Подводя итоги, можно сказать, что целью дисперсионного анализа является проверка статистической значимости различия между средними (для групп или переменных). Эта проверка проводится с помощью разбиения суммы квадратов на компоненты, т.е. с помощью разбиения общей дисперсии (вариации) на части, одна из которых обусловлена случайной ошибкой (то есть внутригрупповой изменчивостью), а вторая связана с различием средних значений. Последняя компонента дисперсии затем используется для анализа статистической значимости различия между средними значениями. Если это различие значимо, нулевая гипотеза отвергается и принимается альтернативная гипотеза о существовании различия между средними.
Зависимые и независимые переменные
Переменные, значения которых определяется с помощью измерений в ходе эксперимента (например, балл, набранный при тестировании), называются зависимыми переменными. Переменные, которыми можно управлять при проведении эксперимента (например, методы обучения или другие критерии, позволяющие разделить наблюдения на группы или классифицировать) называются факторами или независимыми переменными.
|