|
|||
План первого занятия по статистическому практикуму.План первого занятия по статистическому практикуму.
Открыть файл "Содержания". Провести вычисления для описательной статистики аллюминия (B3:B62). Можно параллельно сделать то же в AtteStat. Я предлагаю сразу вывести 4 окна с информацией:
Сервис -> Анализ данных -> Описательная статистика Input Range: B3:B62, выходной G12 Итоговая статистика, Confidence Level 95
То же самое, выходной интервал J12, Confidence Level 99
AtteStat -> Описательная статистика Интервал переменной B3:B62, выходной интервал M12 Доверительная вероятность 0.95, допустимая погрешность 0,0003 (важно - нужно в качестве разделителя использовать запятую, а не точку, иначе будет неправильно)
То же самое, выходной интервал P12 Доверительная вероятность 0.99, допустимая погрешность та же.
Стоит разъяснить: 1. среднее знечение (mean) = 0.01345 2. доверительный интервал на уровне 95%: 0.0128 - 0.0141 Excel выводит в последней строке полуширину этого интервала: 0.000646 3. Можно после этого рядом вывести тот же расчет для уровня 99% и объяснить, что произошло (почему интервал стал больше). Величина доверительного интервала является в данном случае количественной оценкой надежности точечного значения. Объяснить, что в данном случае вычисление этого доверительного интервала основано на предположении о нормальности данных. 4. Стандартная ошибка (Standard Error) = 0.000323 - оценка среднеквадратичного отклонения для среднего арифметического 5. Стандартное отклонение (Standard Deviation) = 0.0025 Sample Variance = 6.25E-06 - квадрат станд. отклонения, несмещенная оценка дисперсии. 6. Асимметрия (Skewness) = -0.19115 7. Эксцесс (Kurtosis) = -0.00881 8. Достаточная численность (AtteStat) - сколько нужно данных, чтобы, в предположении что найденные оценки дисперсии верны, получить оценку среднего с заданной погрешностью. В первом случае будет 268, во втором - 463. (Если в этих пунктах стоят нули, то это скорее всего значит, что в пункте "Допустимая погрешность" было введено 0.0003, а не 0,0003).
Далее можно перейти к построению гистограмм (подбор распределений).
В Excel: Tools->Data Analysis -> Histogram Input Range: B3:B62, New Worksheet, Chart Output Количество интервалов выбирается автоматически. В данном случае явно слишком много (8). Можно задавать диапазон интервалов, но это не очень удобно.
В Attestat можно задавать число карманов явно. Полезно для наглядности построить гистограммы с разным числом интервалов. Строим для 3: AtteStat -> Описательная статистика Отмечаем только гистограмму, интервал переменной B3:B62, выходной G15, число интервалов 3.
Аналогично: выходной интервал J15, число интервалов 4
Выходной интервал M15, число интервалов 5.
Строим гистограммы: выделяем два соответствующих столбца, кликаем по построению графиков, выбираем первый пункт Column. Все строится автоматически.
Гистограммы становятся все более четкими. Уже на 4 интервалах видна асимметрия.
Для сравнения сделать гистограмму с 10 интервалами. Получается неплохо, кстати. Но уже с 20 не очень.
Переходим к проверке нормальности. Стоит очистить место на листе, удалив все предыдущие расчеты (либо закрыть файл без сохранения результатов и снова открыть). Объяснить, что эта задача проверки гипотез. Объяснить сложность: что параметры нормального закона не фиксируются, а определяются по той же выборке.
Можно начать с методов AtteStat. Модуль "проверка нормальности", отметить глазомерный метод, Колмогорова и хи-квадрат. Выбрать число интервалов (5 - нормально). Интервал вывода F13. Укладка глазомерная есть, но не идеально хорошая. Указать, что решение здесь принимается только качественное, количественной характеристики нет.
Объяснить смысл количественных характеристик. P-значение - вероятность того, что мы ошибемся, отклонив нулевую гипотезу по данному наблюдению. Объяснить смысл хи-квадрата - в данном случае это количественная характеристика глазомерного метода. Для сравнения можно повторить вывод, указав 0 интервалов (при этом автоматически выбирается 8, причем гистограмма получается хуже, и надежность решения хи-квадрат - сильно меньше).
Теперь можно построить нормальную бумагу. Объяснить теорию: мы сравниваем эмпирическую функцию распределения (дать определение) с теоретической. Фактически это глазомерный вариант критерия Колмогорова. Очистить рабочий лист от предыдущий расчетов.
Сервис -> Анализ данных -> Ранг и перцентиль Input range: B3:B62, output range: N2
Отметить, что "ранги" Excel не совсем классические: расположены по убыванию данных и при совпадениях ранг равен минимальному (а не среднему, как должно быть).
Делаем правильные ранги и переводим в диапазон от 0 до 1. Для этого в ячейку S3 вставляем формулу = 1-P3/61 Копируем формулу и вставляем в целый столбец. Верхнее значение должно быть 0.983607, нижнее - 0.016393. Далее применяем обратное преобразование. В ячейку V3 (обратить внимание, что пропускаем столбцы, чтобы дальше было проще строить график) вставляем =НОРМСТОБР(S3) (английский вариант NORMSINV, функция в списке статистических). Копируем и вставляем на весь столбец. В верхней ячейке V3 должно оказаться 2.134682, в нижней V62 то же значение со знаком минус. Часть студентов обязательно делает что-то не так и у них получается неправильно.
Далее копируем столбец с отсортированными данными O3:O62 и вставляем перед столбцом V (на U3:U62). Должна получиться пара столбцов, где напротив максимального значения 0.019 расположено 2.134682, а напротив минимального 0.007 - то же со знаком минус. Строим по данным столбцам точечный график. Объясняем, что хорошая укладка графика на прямую говорит о нормальности распределения. Можно добавить линию тренда.
|
|||
|