Хелпикс

Главная

Контакты

Случайная статья





План четвертого занятия по статистическому практикуму.



 

1. Дисперсионный анализ: сравнение средних значений нескольких выборок. Можно рассматривать как обобщение критерия Стьюдента (который был для двух выборок).

 

Это задача проверки статистических гипотез. Нулевая гипотеза: все средние равны. Альтернатива: не все равны.

 

Важно: критерий работает в предположении нормальности выборок и того, что все дисперсии равны. Идея заключается в том, что считается оценка дисперсии по объединению всех выборок, а затем - отдельно по каждой выборке и усредняется. Первое делится на второе (F-отношение). Если все средние равны, то будет F-распределение, зависящее только от объемов совокупностей. Если средние не все равны, то первое будет больше и отношение значимо отклонится от 1 в большую сторону (можно проиллюстрировать рисунком).

 

Открываем файл " Дисперс". Объясняем, что там видим. Будем исследовать содержание хрома в стальном пруте. Ячейка C44 - выпадение данных, метод все равно работает.

Запускаем Сервис -> Анализ данных -> Однофакторный дисперсионный анализ (англ. вариант " Anova: Single Factor".

Интервал данных: A40: H44, метки в первой строке, выходной интервал J20.

Excel выдал сводную табличку оценок (средние, дисперсии). Строго говоря, дисперсии он не сравнивает. Наглядно отличия средних значений действительно существенны по сравнению с дисперсиями. Это подтверждает критерий: F-значение получилось больше 15, при том что критическое значение на уровне значимости 0. 05 равно 2. 44. Р-значение почти что ноль.

 

Можно заметить (качественный вывод), что с увеличением номера пласта наблюдается уменьшение среднего содержания хрома.

 

Применим AtteStat. Запускаем модуль " Дисперсионный анализ". Интервал данных A41: H44, интервал вывода J44. Отмечаем критерии: Однофакторный дисперсионный анализ, Бартлетта, Кокрена и Шеффе.

 

Дисперсионный анализ выдал тот же ответ, что и Excel (правда, вывода не написал).

 

Критерии Бартлетта и Кокрена сравнивают не средние, а дисперсии. Они нужны, чтобы обосновать применение основного критерия. Бартлетт выдал Р-значение большое (0. 77), т. е. нет оснований считать дисперсии различными. Кокрен не сработал, так как количество наблюдений должно для него быть одинаковым.

 

Критерий Шеффе обработал выборки попарно. С помощью него можно посмотреть, для каких из них средние отличаются, а для каких - нет. Например, пласт 1 не отличается от 2, 3 и 4. Но достаточно уверенно отличается от 5. Пласт 6 не отличается от 7, но 7 достаточно надежно отличается от 8.

 

 

2. Обнаружение зависимости дисперсии от среднего. Или, выражаясь языком измерений, зависимость точности измерения от результата измерения.

 

Сначала мы используем критерии Бартлетта и Кокрена для того, чтобы обнаружить, есть ли отличия в диспесиях. Открываем файл “Образцы”. Запускаем AtteStat -> Дисперсионный анализ. Интервал данных A106: E125 (для удобства работы данные из исходной таблицы сгруппированы по образцам). Выходной интервал G105. Выбрать критерии Бартлетта и Кокрена. Малые величины P-значений (порядка 1%) говорят о том, что нулевую гипотезу (о равенстве дисперсий) можно с достаточной надежностью отвергнуть.

 

Обнаружив отличия в точности измерений, разумно поставить задачу о том, от каких факторов зависит эта точность. Одно из разумных предположений – что точность зависит от самого измеряемого значения. Чтобы наглядно «увидеть», насколько это наблюдается, построим график зависимости дисперсии от среднего. Точнее, нужно строить график зависимости среднеквадратичного отклонения (СКО) от среднего, так как СКО имеет ту же размерность, что и средние.

 

Для этого можно воспользоваться одним из двух путей. Либо вызвать модуль «Описательная статистика», после чего нужно будет удалять из результатов столбцы с заголовками, чтобы нужные данные шли в строке подряд. Либо вызвать модуль Excel «Однофакторный дисперсионный анализ», в результате чего мы сразу получаем таблицу с нужными данными, только они идут по строкам. Второй способ кажется проще, только в нем нужно будет еще вручную вычислить значения СКО.

 

Для наглядности я рекомендую вызывать оба метода. Вызываем: Сервис -> Анализ данных -> Описательная статистика. Интервал данных A105: E125, отметить " метки в первой строке". Выходной интервал G116, отметить " Вывод итоговых статистик". Получаем таблицу с данными. Теоретически из нее можно удалить лишние стобцы, разделяющие данные, и построить график.

 

Далее вызываем Сервис -> Анализ данных -> Однофакторный дисперсионный анализ. Интервал данных тот же, что и выше. Выходной интервал G134. Рядом со столбцом дисперсий строим столбец СКО (квадратный корень). Убедиться (по результатам описательных статистик), что значения получены правильно.

 

Далее строим точечный график. Мастер построения диаграмм - точечная диаграмма (без соединения линией), в качестве данных указать соответствующие столбцы со значениями среднего и СКО. Наблюдается явная линейная зависимость.

 

Наблюдая линейный график, разумно поставить задачу о поиске линейной зависимости. Это будет предмет следующего занятия.

 



  

© helpiks.su При использовании или копировании материалов прямая ссылка на сайт обязательна.