Хелпикс

Главная

Контакты

Случайная статья





План первого занятия по статистическому практикуму.



План первого занятия по статистическому практикуму.

 

Открыть файл "Содержания". Провести вычисления для описательной статистики аллюминия (B3:B62). Можно параллельно сделать то же в AtteStat. Я предлагаю сразу вывести 4 окна с информацией:

 

 

       Сервис -> Анализ данных -> Описательная статистика

       Input Range: B3:B62, выходной G12

       Итоговая статистика, Confidence Level 95

 

       То же самое, выходной интервал J12, Confidence Level 99

 

       AtteStat -> Описательная статистика

       Интервал переменной B3:B62, выходной интервал M12

       Доверительная вероятность 0.95, допустимая погрешность 0,0003 (важно - нужно в качестве разделителя использовать запятую, а не точку, иначе будет неправильно)

 

       То же самое, выходной интервал P12

       Доверительная вероятность 0.99, допустимая погрешность та же.

 

 

Стоит разъяснить:

       1. среднее знечение (mean) = 0.01345

       2. доверительный интервал на уровне 95%: 0.0128 - 0.0141

       Excel выводит в последней строке полуширину этого интервала: 0.000646

       3. Можно после этого рядом вывести тот же расчет для уровня 99% и объяснить, что произошло (почему интервал стал больше). Величина доверительного интервала является в данном случае количественной оценкой надежности точечного значения. Объяснить, что в данном случае вычисление этого доверительного интервала основано на предположении о нормальности данных.

       4. Стандартная ошибка (Standard Error) = 0.000323 - оценка среднеквадратичного отклонения для среднего арифметического

       5. Стандартное отклонение (Standard Deviation) = 0.0025

       Sample Variance = 6.25E-06 - квадрат станд. отклонения, несмещенная оценка дисперсии.

       6. Асимметрия (Skewness) = -0.19115

       7. Эксцесс (Kurtosis) = -0.00881

       8. Достаточная численность (AtteStat) - сколько нужно данных, чтобы, в предположении что найденные оценки дисперсии верны, получить оценку среднего с заданной погрешностью. В первом случае будет 268, во втором - 463. (Если в этих пунктах стоят нули, то это скорее всего значит, что в пункте "Допустимая погрешность" было введено 0.0003, а не 0,0003).

 

 

Далее можно перейти к построению гистограмм (подбор распределений).

 

В Excel: Tools->Data Analysis -> Histogram

Input Range: B3:B62, New Worksheet, Chart Output

Количество интервалов выбирается автоматически. В данном случае явно слишком много (8). Можно задавать диапазон интервалов, но это не очень удобно.

 

В Attestat можно задавать число карманов явно.

Полезно для наглядности построить гистограммы с разным числом интервалов.

Строим для 3: AtteStat -> Описательная статистика

Отмечаем только гистограмму, интервал переменной B3:B62, выходной G15, число интервалов 3.

 

Аналогично: выходной интервал J15, число интервалов 4

 

Выходной интервал M15, число интервалов 5.

 

Строим гистограммы: выделяем два соответствующих столбца, кликаем по построению графиков, выбираем первый пункт Column. Все строится автоматически.

 

Гистограммы становятся все более четкими. Уже на 4 интервалах видна асимметрия.

 

Для сравнения сделать гистограмму с 10 интервалами. Получается неплохо, кстати.

Но уже с 20 не очень.

 

Переходим к проверке нормальности. Стоит очистить место на листе, удалив все предыдущие расчеты (либо закрыть файл без сохранения результатов и снова открыть). Объяснить, что эта задача проверки гипотез. Объяснить сложность: что параметры нормального закона не фиксируются, а определяются по той же выборке.

 

Можно начать с методов AtteStat. Модуль "проверка нормальности", отметить глазомерный метод, Колмогорова и хи-квадрат. Выбрать число интервалов (5 - нормально). Интервал вывода F13.

Укладка глазомерная есть, но не идеально хорошая. Указать, что решение здесь принимается только качественное, количественной характеристики нет.

 

Объяснить смысл количественных характеристик.

P-значение - вероятность того, что мы ошибемся, отклонив нулевую гипотезу по данному наблюдению. Объяснить смысл хи-квадрата - в данном случае это количественная характеристика глазомерного метода. Для сравнения можно повторить вывод, указав 0 интервалов (при этом автоматически выбирается 8, причем гистограмма получается хуже, и надежность решения хи-квадрат - сильно меньше).

 

 

Теперь можно построить нормальную бумагу. Объяснить теорию: мы сравниваем эмпирическую функцию распределения (дать определение) с теоретической. Фактически это глазомерный вариант критерия Колмогорова. Очистить рабочий лист от предыдущий расчетов.

 

Сервис -> Анализ данных -> Ранг и перцентиль

Input range: B3:B62, output range: N2

 

Отметить, что "ранги" Excel не совсем классические: расположены по убыванию данных и при совпадениях ранг равен минимальному (а не среднему, как должно быть).

 

Делаем правильные ранги и переводим в диапазон от 0 до 1.

Для этого в ячейку S3 вставляем формулу = 1-P3/61

Копируем формулу и вставляем в целый столбец.

Верхнее значение должно быть 0.983607, нижнее - 0.016393.

Далее применяем обратное преобразование. В ячейку V3 (обратить внимание, что пропускаем столбцы, чтобы дальше было проще строить график) вставляем =НОРМСТОБР(S3) (английский вариант NORMSINV, функция в списке статистических).

Копируем и вставляем на весь столбец. В верхней ячейке V3 должно оказаться 2.134682, в нижней V62 то же значение со знаком минус. Часть студентов обязательно делает что-то не так и у них получается неправильно.

 

Далее копируем столбец с отсортированными данными O3:O62 и вставляем перед столбцом V (на U3:U62). Должна получиться пара столбцов, где напротив максимального значения 0.019 расположено 2.134682, а напротив минимального 0.007 - то же со знаком минус.

Строим по данным столбцам точечный график. Объясняем, что хорошая укладка графика на прямую говорит о нормальности распределения. Можно добавить линию тренда.

 



  

© helpiks.su При использовании или копировании материалов прямая ссылка на сайт обязательна.