План пятого занятия по статистическому практикуму.

1. Регрессионный анализ. Пусть у нас есть набор парных наблюдений (x_i, y_i). Обычно предполагается, что переменные x_i являются неслучайными (и в некоторых ситуациях экспериментатор может даже сам задавать их значения), а переменные y_i - случайные, но их закон распределения зависит от переменных x_i. Предположим, что x_i определяет математическое ожидание величины y_i. Выберем некоторое параметрическое семейство функций f(x, T), где T - набор параметров. Например, для линейных функций будет T=(a, b) и f(x, y) = ax + b.

Мы будем искать математическое ожидание в виде M(y_i)=f(x_i, T). Другими словами, мы представляем y_i = f(x_i, T) + e_i, где e_i - случайная величина с нулевым математическим ожиданием, распределение которой уже не зависит от x_i. Эта случайная величина отвечает за случайные изменения наблюдаемой величины y, а функция f определяет неслучайные изменения, которые мы хотим объяснить.

Довольно часто принимается нормальная модель, в которой отклонения e_i принимаются распределенными по нормальному закону с нулевыми средними. Но бывают и другие модели.

Выбор семейства функций f относится к этапу постановки задачи. Иногда он может быть сделан эвристически, на основе визуального анализа графика зависимости y_i от x_i. Но для этого следует иметь достаточно много наблюдений. Иногда выбор семейства можно обосновать (например, есть теоретический закон, который задает вид зависимости одной величины от другой с точностью до некоторых параметров, и мы наблюдаем примеры такой зависимости, усложненные случайными погрешностями).

Собственно задача заключается в определении параметров T (точечным оценкам и доверительным интервалам), а также проверке различных гипотез относительно этих параметров.

Один из наиболее распространенных методов решения этой задачи - метод наименьших квадратов. Суть метода заключается в том, что отклонение " предстказанного" значения f(x_i, T) от " наблюдаемого" значения y_i измеряется квадратом разности (f(x_i, T)-y_i)². Это отклонение в одной точке. Отклонение во всех точках сразу меряется суммой этих квадратов. Эта сумма представляет собой функционал F(T), который показывает, насколько хорошо данный набор параметров T приближает наблюдаемые данные. Мы минимизируем этот функционал по переменным T и таким образом находим " наилучший" набор.

Если находится такой набор T, при котором F(T)=0, значит, наблюдаемые точки в точности легли на график функции f(x, T) и мы точно объяснили зависимость. Но этого не бывает, поскольку всегда есть случайные отклонения. И более того, не нужно этого бояться (равно как и к этому слишком стремиться). Если угадывается некоторый " линейный" рост, но при этом точки в точности не укладываются на линию тренда (и даже могут достаточно сильно отклоняться от нее), то это не значит, что регрессии тут не наблюдается. Просто случайный разброс (слагаемые e_i) тоже есть и они достаточно сильные.

С одной стороны, можно воспринимать задачу следующим образом: мы ищем неизвестную зависимость наблюдаемых точек от известных факторов, допуская при этом и некоторый случайные отклонения, которые объяснены не будут. С другой стороны можно сказать (это практически то же самое), что мы наблюдаем некоторый разброс (дисперсию) данных y_i (можно нарисовать точки, примерно укладывающиеся на прямую, и спроектировать их на ось ординат). Но при этом мы считаем, что только частично этот разброс вызван случайными факторами, а частично - известным фактором x_i. Подбирая регрессионную зависимость, мы объясняем существенную часть разброса (если это возможно).

Выделяют одномерную регрессию (как было рассказано) и многомерную (когда имеется несколько факторов, переменная x_i - вектор). Также выделяют линейную регрессию (когда функция f линейна, параметры T - коэфициенты при факторах и свободный член) и нелинейную (более сложные виды зависимости). На этом занятии мы занимаемся линейной регрессией. В некоторых случаях можно применить определенное преобразование, переводящее нелинейную регрессию в линейную. Иногда также в том случае, когда наблюдается нелинейная зависимость, ее делят на участки, на каждом из которых аппроксимируют линейной (математики этого не любят, но прикладники так иногда делают, в частности, в химии это делается). Причина этого в том, что линейная регрессия популярна, проста и хорошо изучена, а нелинейная иногда воспринимается как некоторая специфика.

Стоит напомнить про прошлое задание, где исследовалась зависимость точности измерения (среднеквадратичного отклонения) от самого измеряемого значения. Возможно, имеет смысл привести несколько примеров, в которых можно предположить линейную зависимость, хотя точки не очень ложатся на прямую. Это можно объяснить наличием случайных отклонений. Однако для надежных выводов, конечно, следует иметь больше данных.

2. Наглядное (визуальное) решение задачи регрессии (первая часть задания). Файл " Линейные". Одна из типичных областей применения (линейной) регрессии в химии - построение градуировочных графиков. При этом имеется некоторый физический метод измерения чего-либо, на выходе которого мы измеряем некоторый сигнал. Мы хотим вывести формулу, как по этому сигналу получить значение того, что мы измеряем. Для этого можно взять несколько проб, для которых точное значение измеряемой величины известно, и изобразить на графике зависимость. Решая задачу регрессии, мы получаем искомую формулу. Если наблюдаются существенные отклонения наблюдаемых величин от предсказанных, то этом может говорить либо о значительных случайных отклонениях (невысокой точности метода), либо о наличии других влияющих факторов, которые мы не учли.

Изобразить в виде диаграммы зависимость пика от алкина (столбцы А-В). Не соединять точки линией. Видна хорошая (хотя и не совсем идеальная) линейная зависимость. Добавить линию тренда (правой клавишей мыши по любой точке графика). Тип - линейная (обратить внимание на наличие других типов). Перед добавлением зайти в " Параметры". Там можно ввести название для линии, а также поручить продлить ее вперед или назад (сделать прогноз, экстраполяция). Если поставить галочку на " пересечение кривой с осью Y" и задать некоторое значение, то это означает принудительное задание свободного члена (возможно, мы из каких-то внешних соображений понимаем, что зависимость должна проходить через начало координат). Мы этого не делаем, но отмечаем галочками два других пункта: вывод на диаграмме уравнения и величины R²

Получаем уравнение y=28. 336x+0. 6966. Это зависимость пика от алкина, разрешая его при необходимости относительно y, можем получить уравнение, выражающее зависимость алкина от пика.

Коэффициент R² изменяется в диапазоне от 0 до 1 и выражает то, какую часть разброса данных (дисперсии) объясняет проведенная регрессия. В данном случае точки очень хорошо укладываются на прямую, отклонения маленькие, поэтому значение R² очень близко к 1.

Я бы рекомендовал заметить студентам, что не следует считать, что если R² существенно отличается от 1, то построенная регрессия " плохая" и следует поискать зависимость получше. Это может быть объективная реальность, вызванная наличием других влияющих факторов, случайных отклонений с большим разбросом и т. д. Скорее я бы считал, что эта величина - объективный показатель того, насколько данный фактор и данное семейство регрессионных функций могут объяснить поведение данных. В частности, значительно близкое к нулю значение может говорить о том, что данный фактор вообще не объясняет ничего и проводить по нему регрессию бессмысленно.

Другое применение регрессии - изучение ошибок измерения для некоторого метода. Пусть x - истинное значение, y - измеренное. Идеальная ситуация, свободная от ошибок - зависимость y=x. Если появляется свободный член (y = x +b ), то это систематическое отклонение, присутствующее в каждом измерении, но не зависящее от измеряемой величины. Если появляется коэффициент (y = ax + b, обычно a будет близок к 1), то наблюдается линейная составляющая отклонения: отклонение растет с ростом наблюдаемой величины. Если a< 1, то измерение дает заниженное значение величины, если a> 1 - то завышенное.

Построить график столбцов E и F (дано-результат). Получаем уравнение y = 0. 9749x+1. 0197. Здесь можно наблюдать и линейно растущее отклонение (результат занижен) и некоторую постоянную систематическую ошибку. Правда, величина этой ошибки на порядок-другой меньше, чем измеряемая величина. Данная зависимость почти полностью объясняет разброс данных (R²=0. 9999), поэтому объяснить этот результат случайностью сложно. Однако, данный метод не дает нам количественной степени уверенности в сделанном выводе.

Для определения этой уверенности воспользуемся возможностями пакетов анализа данных. Запускаем Сервис -> Анализ данных -> Регрессия. Вводим интервалы данных. Обратить внимание, что первым вводится переменная Y, а вторым - X. Интервалы данных: F2: F11 (для Y), E2: E11 (для X), метки в первой строке, выходной интервал L2, отметить галочками пункты " Остатки", " График остатков", " График подбора". Ставим галочку на " Уровень надежности" и устанавливаем 94.

Появляется набор таблиц, а справа от них - два графика. Один график представляет собой те же точки плюс другим цветом - предсказанные значения (в данном случае укладка настолько хорошая, что они практически сливаются). Другой график изображает остатки - разности между наблюдаемыми значениями и предсказанными.

Теперь таблицы. Первая таблица " Регрессионная статистика" представляет собой некоторые технические параметры, в целом описывающие результаты регрессии. Среди них - значение " R-квадрат", то же, что выводится на графике.

Вторая таблица " Дисперсионный анализ". В нем строится F-отношение для двух дисперсий: исходной выборки и остатков. Смысл заключается в том, что если значение R-квадрат будет близко к нулю, т. е. рассмотрение регрессии практически не уменьшает дисперсию выборки (при этом регрессионная прямая будет практически горизонтальна), то можно поставить вопрос (гипотезу), что среднее на самом деле вообще не зависит от параметра X, т. е. регрессия просто отсутствует. Тогда F-значение будет близко к единице, а Р-значение велико. В данном случае наличие регрессии не вызывает сомнений, F-значение пятизначно, а Р-значение практически равно нулю.

Следующая таблица содержит коэффициенты построенной линейной регрессии. Во втором столбце - стандартное (среднеквадратичное) отклонение для этого коэффициента. Далее t-значение (некоторая статистика Стьюдента) и Р-значения, проверяющие нулевую гипотезу о том, что данный коэффициент может быть равен нулю. Далее доверительные интервалы для соответствующего коэффициента: всегда приводится 95%-ный интервал, а также тот, который мы закажем (мы заказали 94%-ный).

Мы видим, что коэффициент 0. 97 при переменной X имеет очень маленькую величину среднеквадратичного отклонения. Доверительные интервалы для него очень малы: 0. 96 - 0. 98 для уровня 95%. Статистика Стьюдента очень большая, а Р-значение очень близко к нулю, что говорит о том, что этот коэффициент действительно отличен от нуля с очень высокой надежностью. Это и так достаточно очевидно.

Заметим, что доверительный интервал не содержит 1, т. е. линейно растущая погрешность действительно с высокой вероятностью имеет место.

Что же касается свободного члена 1. 0197, то с ним ситуация иная. Статистика Стьюдента t имеет достаточно разумное значение 2. 24, а Р-значение равно 0. 059. Это означает, что на уровне значимости 5% мы не можем отвергнуть гипотезу о том, что свободный член равен нулю (и этому соответствует факт, что 95%-ный доверительный интервал содержит точку 0). Мы можем отвергнуть эту гипотезу на уровне значимости 6% (и мы видим, что действительно доверительный интервал для уровня 94% уже стал у же и не захватывает ноль). Таким образом, постоянной систематической погрешности между этими методами действительно может и не быть.

Следующая таблица содержит остатки - разность между предсказанными значениями и наблюдаемыми, она же выведена в виде графика.

3. Рассмотрим многомерную линейную регрессию. Она обрабатывается так же, как одномерная, только в качестве переменной Х указывается не один столбец, а несколько (Excel допускает до 16 переменных). Сложность многомерной регрессии, в частности, в том, что нельзя визуально наблюдать наличие линейной зависимости, приходится действовать " наугад".

Открываем файл " Пламя-2". Строим регрессию столбца " Стрелки" от остальных столбцов. Запускаем Сервис -> Анализ данных -> Регрессия. Интервал переменной Y D2: D10, интервал переменной X A2: C10. Метки в первой строке, выходной интервал K2, лучше обойтись без остатков и графиков.

Из анализа таблиц делаем следующий вывод. Значение R-квадрат снова почти равно 1, т. е. данная регрессия объясняет практически весь разброс данных. Это подтверждает также и очень малое Р-значение в таблице дисперсионного анализа.

Третья таблица содержит коэффициенты линейной зависимости. Видно, что во всех случаях t-статистика достаточно велика, а Р-значение, соответственно, мало, так что все переменные действительно значимы. Единственная переменная, для которой еще могут возникнуть какая-то тень сомнения, это хлориды (Cl, t=4. 33, P=0. 012), но такое Р-значение все равно слишком мало, так что можно достаточно надежно утверждать наличие зависимости.

4. Рассмотрим пример нелинейной зависимости, которая сводится к линейной. Открываем файл " Скорость". Изучаем зависимость скорости реакции в зависимости от концентрации веществ. Примем модель, при которой скорость пропорциональна содержаниям веществ в некоторых степенях:

V = C x^a y^b, причем степени а и b - целые

Данная зависимость легко сводится к линейной путем логарифмирования:

ln(V) = ln(C) + a ln(x) + b ln(y)

Поэтому необходимо взять логарифм от всех трех столбцов и провести регрессию. В ячейку M3 ввести формулу =LN(A3) и распространить на три столбца. Затем провести регрессию третьего по первым двум.

Значение R-квадрат получается равным 0. 9996, т. е. данная регрессия объясняет почти полностью разброс данных. Оба коэффициента при переменных очень близки к 1 (один чуть меньше, другой чуть больше), доверительные интервалы в обоих случаях захватывают 1, так что с учетом того, что мы хотим целочисленные коэффициенты, можно принять a=b=1. Свободный член 2. 1248 равен логарифму от C, чтобы получить необходимый коэффициент C, нужно взять экспоненту (получается 8. 37195).