Хелпикс

Главная

Контакты

Случайная статья





МАТЕМАТИЧЕСКАЯ СТАТИСТИКА. Лекция 3



МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

Лекция 3

§4 Достаточные статистики

 

4.1. Предварительные соображения и определение

Достаточная статистика — понятие фундаментальное. Часто возникает следующий вопрос. Имеется большая совокупность ξ = (ξ1, ξ2 … ξn)  наблюдений случайного характера, по которой нужно делать какие-либо выводы относительно чего-то неизвестного; обозначим это неизвестное через a. можно ли сжать информацию, то есть хранить меньший объем данных, не потеряв при этом информацию об a?

Простейший пример: неизвестная вероятность события, n раз испытываем, получаем n наблюдений. Можно ли оставить только число успехов. Или мы при этом потеряем информацию?

Чтобы раэобраться, сначала ответим на предварительный вопрос: нужны ли нам наблюдения x, если распределение px(x) для x от a не зависит?  меняется, а закон распределения остается одним и тем же. ответ очевиден: наблюдения x не нужны, наблюдения x можем не хранить.

Следующий вопрос: имеется две совокупности наблюдений x и t. Известно, что распределение pt(t,a) для t зависит от a;

также известно, что условное распределение x при условии известного значения t от a не зависит.

Нужны ли нам в этом случае наблюдения x? Ответ очевиден: нет, не нужны, мы можем сжать информацию, выбросив x и

оставив только t, поскольку распределение pt(t,a) зависит от a.

Пусть ξ ≡ (ξ1, ξ2 … ξn)  — вектор наблюдений, принимающий значения   x ≡ (x1, x2xn) и распределенный по закону

, где а ≡ (а1, а2аk) есть k-мерный параметр.

Пусть есть функция  (нам интересны значения r < n). Рассмотрим случайную величину .

обозначим через  распределение t.

Теперь имеем пару случайных величин xиt.

При дальнейших рассуждениях полагаем случайную величину xдискретной (следовательно, t - тоже).

Запишем закон распределения для пары; по формуле умножения вероятностей имеем:

.

Однако ясно, что слева написано распределение x,

т.к. из события  следует событие :

.

В результате имеем соотношение

.                     (1)

Т.е. распределение для всей совокупности x есть

произведение распределения статистики  на условное распределение x при условии известного значения t.

Пусть второй сомножитель , т. е. условное распределение x, при условии известного значения t, от a не зависит.

Это означает, что значение x ничего не добавляет к знаниям о параметре a, полученным на основании статистики , всю информацию об a содержит .можно отбросить x, оставив только . В этом случае  называется достаточной статистикой для а.

Если x непрерывна, то рассуждения остаются справедливыми, нужно лишь в (1) вероятности заменить на плотности

.                        (2)

Отсюда для условного распределения имеем

.                             (3)

Если условное распределение x при известном  не зависит от , то x можно не хранить, оставить только .

Определение. Статистика  называется достаточной для параметра a, если условное распределение x при условии известного значения  от параметра  не зависит, т.е. если

                                    .          

Практический смысл достаточной статистики состоит в том, что любые статистические выводы о неизвестном параметре a можно делать без ущерба для качества, основываясь не на всех исходных данных, а только на достаточной статистике.

Верно очевидное утверждение, что

для любого способа  обработки всей информации x существует другой, эквивалентный способ обработки, основанный на достаточной статистике .

Тривиальный эквивалентный способ состоит в следующем:

 по исходным наблюдениям x вычисляем достаточную статистику , условный закон распределения , от параметра не зависит;

мы берем генератор случайных чисел и  генерируем с.в. x’ с этим законом. При этом распределения для x’ и x совпадают.

Применим исходную процедуру d к x’, , получаем результат, основанный на статистике , но он эквивалентен .

 

Пример 1. Пусть для определения параметра l некоторого однородного пуассоновского потока (например, источника радиоактивного излучения) -кратно в течение промежутков времени одинаковой продолжительности  измеряется количество поступающих частиц.

На языке математической статистики это означает, что имеется  независимых наблюденийξ1, ξ2…ξn над случайной величиной ξ, распределенной по закону Пуассона с неизвестным параметром . Возникает вопрос: можно ли не хранить все значения х1, х2хn, которые приняли случайные величиныξ1, ξ2…ξn, а хранить только суммарное значение ? Другими словами, является ли  достаточной статистикой?

Для ответа на этот вопрос нужно определить

условную вероятность (3) получения значений х1, х2хn при условии, что их суммарное значение известно и равно :

.           (4)

В приведенной выкладке учтено, что сумма  независимых пуассоновских случайных величин распределена по закону Пуассона  с параметром, равным сумме na параметров.

Поскольку условная вероятность (4) от  не зависит, то  является достаточной статистикой, и значения , …,  можно не хранить.

Полезно отметить, что распределение (4) является полиномиальным с равными вероятностями , при i = 1, 2…n.

Действительно, на отрезок, состоящий из n промежутков длиной , бросим независимо общее количество равномерно распределенных точек, и определим

вероятность попадания , х2  точек на интервалы ∆Т1, ∆Т2…∆Тn одинаковой длины .

Вставить напоминание о полиномиальном распр-нии

Эта полиномиальная вероятность равна правой части равенства (4). Мы получили важный результат для теории вероятностей:

Утверждение. Для простейшего потока при известном числе точек на отрезке, положения точек независимы и равномерно распределены.

Это утверждение можно использовать при генерации (при моделировании) простейшего потока событий.

Итак, на числовой оси (удобно, но не обязательно, воспринимать ее как временнУю ось) нужно разбросать точки пуассоновского потока. Это можно сделать, по меньшей мере, двумя путями.

Первый. Известно, что если l- параметр потока, то расстояние между соседними точками – случайная величина, распределенная по показательному закону с параметром l, и нужно последовательно генерировать эти случайные величины.

Второй. пусть Т – длина отрезка, на котором нужно сгенерировать поток. Общее число n точек на Т - случайная величина, распределенная по закону Пуассона с параметром а = l Т. Сгенерируем n, получим некоторое целое n, а затем раскидаем независимо n точек на отрезке [0,T] с равномерным законом распределения

 



  

© helpiks.su При использовании или копировании материалов прямая ссылка на сайт обязательна.