Контрольная работа

Министерство образования и науки Российской Федерации

ФГАОУ ВО «УрФУ имени первого Президента России Б.Н. Ельцина»

Институт новых материалов и технологий

Кафедра «Металлургия железа и сплавов»

Оценка работы______________

Руководитель от УрФУ_________/Спирин Н.А.

Контрольная работа

1. На тему: «Использование статистических гипотез для проверки гипотез о виде функции распределения»

Студент А.С. Тренин

^{Подпись ФИО}

Группа НМТЗМ-102203

Екатеринбург 2021

Рассмотренные ранее методы оценивания параметров распределения случайной величины и критерии для проверки статистических гипотез предполагали, что известна функция распределения (нормальный закон – распределение Гаусса). Однако в большинстве случаев вид закона распределения является гипотетическим и сам по себе требует статистического подтверждени.

Разработано достаточно много критериев согласия, отличающихся как своей мощностью, так и объемом опытных данных, необходимых для их использования. Рассмотрим некоторые из них, и в первую очередь остановимся на критериях согласия, которые могут быть использованы при относительно больших объемах выборки.

Когда экспериментатор располагает достаточно представительным количеством экспериментальных данных (n > 100), то их предварительная обработка начинается с группировки, которая проводится в следующей последовательности:

1. Находят наибольшее (x max) и наименьшее (x min) выборочные значения случайной величины и вычисляют ее размах R= x max-x min.

2. Размах случайной величины разбивают на k равных интервалов. Количество интервалов k выбирают в зависимости от объема выборки. Например, при n >100 его значение рекомендуется принимать равным k=9¸15 (при n <100 k=7). Число интервалов k можно определить и по формуле Штюргеса k=1+3,32lg(n) с округлением полученного значения до ближайшей целой величины.

3. Определяют ширину интервала h=R/k, для упрощения расчетов полученные значения округляют в любую сторону, несколько увеличивая или уменьшая при этом размах варьирования R.

4. Устанавливают границы интервалов и подсчитывают число попаданий случайной величины в каждый из выбранных интервалов

5. Определяют частоту попаданий для каждого интервала как Pi=/n. Результаты подобных вычислений могут быть сведены в таблицу

Графической формой представления непрерывной случайной величины является гистограмма (рис.). Последовательность построения гистограмм следующая:

1. Определяется величина кординаты , где P_i – вероятность появления случайной величины в i-м интервале.

2. В системе координат f_i=f(x) на ширине интервала h откладывают величины f_i как высоты и строятся прямоугольники.

Очевидно, что площадь элементарного прямоугольника

равна отношению числа опытов m_i, при которых случайная величина оказалась внутри этого интервала, к общему числу опытов n.

Площадь всей гистограммы . Следовательно, площадь, ограниченная гистограммой, равна единице.

3. Построение гистограммы интегральной функции распределения осуществляется суммированием вероятностей: .

В дальнейшем осуществляется сравнение экспериментально полученного распределения случайной величины с некоторым видом теоретического распределения. Для этой цели используются различные критерии согласия: c² (хи-квадрат) Пирсона, Колмогорова–Смирнова

Критерий Пирсона

Рассмотрим методику проверки гипотезы нормального распределения по критерию c² Пирсона. Этот критерий кроме определения доверительного интервала для дисперсии нередко используется для проверки согласованности

распределений, полученных по данным выборки с некоторой теоретической плотностью распределения.

В данном случае применение критерия c² предполагает использование свойств нормированного (стандартного) нормального распределения. Напомним, что уравнение кривой плотности стандартного нормального распределения имеет вид

Тогда теоретическая вероятность попадания случайной величины в интервал Dz=z_i₊₁ – z_i в случае нормального распределения можно определить по формуле

(3.54)

Отличие оценки закона распределения P от теоретического закона распределения P* можно охарактеризовать величиной

(3.55)

где P_i и P_i* – оценка и теоретическая вероятность случайной величины для i-го интервала; C_i– весовые коэффициенты, которые с большим весом учитывают отклонения для меньших P_i.

Пирсон выбрал весовые коэффициенты следующим образом:

. (3.56)

Пирсон показал, что при таком выборе C_i закон распределения c² слабо зависит от n и P(x), а определяется в основном числом разрядов k.

Следовательно,

(3.57)

Очевидно, что при идеальном соответствии экспериментальных данных нормальному закону распределения экспериментальное значение критерия Пирсона будет равно нулю, т.к. P_i= P_i*.

В выражении (3.55) стоит сумма квадратов k случайных величин, однако они не являются независимыми, так как на них накладывается некоторое число связей. Одной из таких связей является требование, чтобы площадь под кривой оценки закона распределения равнялась единице: Иногда требуют, чтобы среднее значение совпадало с математическим ожиданием M_x, а выборочная дисперсия S_x² – с дисперсией s_x². Поэтому число степеней свободы чаще всего определяется как

m = k - 2. (3.58)

Теоретическое значение критерия Пирсона c²_a_;m определяется по справочным данным (см. табл.П.3) или с использованием пакетов прикладных программ при заданном уровне значимости a и числе степеней свободы m (см. функцию ХИ2.ОБР.ПХ(a;m) из электронных таблиц Microsoft Excel).

Алгоритм использования критерия Пирсона заключается в следующем.

1. Выдвигаются нуль-гипотеза Н₀: "Отличие экспериментальных данных от нормального закона распределения не существенно" и альтернативная ей гипотеза Н₁: "Отличие экспериментальных данных от нормального закона распределения существенно, т.е. экспериментальные данные не подчиняются закону нормального распределения".

2. По результатам экспериментальных измерений и предположению нормального закона их распределения определяется расчетное значение критерия Пирсона c².

3. Определяют число степеней свободы m, задаются уровнем значимости a и определяют теоретическое значение критерия Пирсона c²_µ_;_m.

4. Если c²<c²_µ_;_m_, то нуль-гипотеза Н₀ о нормальном законе распределения экспериментальных данных принимается с доверительной вероятностью P=1-a. В противном случае нуль-гипотеза отвергается и принимается альтернативная гипотеза Н₁.

Отметим важные рекомендации по использованию критерия c².

Если при некотором числе измерений критерий c²>c²_µ_;_m, но сомнения в нормальности распределения отсутствуют, то следует, если имеется возможность, увеличить число измерений в несколько раз и повторить анализ по этому же критерию.

Число степеней свободы m=k-2 относится к такому случаю, когда оба параметра нормального закона распределения определяются по результатам измерений, т.е. когда вместо точных измерений значений M_x и s_x применяют их эмпирические значения (оценки) и S_x. Если же значение M_x точно известно (например, при измерении эталона), то число степеней свободы равно k=n-1; если известны оба параметра M_x и s_x, то число степеней свободы равно k=n. На практике такая ситуация встречается относительно редко, и поэтому для получения числа степеней свободы не менее пяти желательно брать число интервалов не менее семи (иногда девяти).

Критерий Колмогорова–Смирнова

Рассмотрим использование критерия Колмогорова–Смирнова для проверки гипотезы нормальности распределения случайных величин. Данная процедура также предполагает построение таблицы распределения экспериментально полученных значений с группировкой данных в определенное число разрядов k. Дополнительно в таблицу необходимо включить следующие колонки:

колонку с накопительной суммой для каждого i-го интервала сгруппированных данных

Процедура вычисления критерия Колмогорова–Смирнова

Интервал	Число замеров в каждом интервале _i		Теоретичес-кая вероятность P_i*
x₁¸ x₂	₁	₁	P₁*		½ ₁- ½
x₂¸ x₃	₂	₁+ ₂	P₂*	n( + )	½ ( ₁+ ₂)- -n( + )½
...	...	…	…	…	…
x_i¸ x_i+1	_i		P_i*
...	...	…	…	…	…
x_k¸ x_k+1	_k		P_k*

колонку с накопительной суммой где Р* – теоретическ

Далее экспериментальное значение критерия Колмогорова–Смирнова сравнивают с теоретическим D_n;_a, которое определяют из статистических таблиц в соответствии с объемом выборки n и требуемым уровнем значимости a (см. табл. П.10). Если D<D_n;_a , то гипотеза о нормальном распределении результатов замеров принимается с вероятностью P=1-a.

Критерий согласия Колмогорова–Смирнова для проверки нормальности распределения результатов наблюдений входит в пакет статистической обработки данных STATISTICA, с которым мы познакомимся в главе 7.