|
|||
Нахождение коэффициентов линейной
Нахождение коэффициентов линейной регрессии Наша задача состоит в том, чтобы простроить наилучшую линию. Каким образом мы ее найдем? Уравнение гипотетической линии: y = ax + b Задача состоит в вычислении неизвестных коэффициентов a и b.
Рисунок 13-6. Каждому значению x соответствует два значения y Наши данные представляют собой пары (xi, yi). Для каждого значения xi в выборке имеется значение yi (наблюдаемое значение). Кроме того, для каждого x существует еще одно значение y (предсказываемое значение), которое может быть получено из уравнения y = axi + b, если подставить в это уравнение xi. Линия будет наилучшей, если сумма квадратов разностей между yi и y = axi + b будет минимальна.
Из курса математического анализа известно, что функция от двух переменных имеет экстремум, если обе ее частные производные равны нулю.
Решение этой системы двух уравнений с двумя неизвестными приводит к следующему ответу: Это и есть коэффициенты линейной регрессии. Коэффициент a есть наклон прямой, а коэффициент b – ее смещение вдоль оси Y. Для вычислений ручным способом с использованием вспомогательных расчетных таблиц более просты и пригодны две другие формулы, которые эквиваленты предыдущим: Решим задачу про экзамен и время подготовки. Таблица 13-1 содержит все необходимые данные и вычисления, поэтому, не повторяя таблицу, мы используем результаты расчетов и подставляем их в формулы для нахождения коэффициентов линейной регрессии:
Получили уравнение «наилучшей прямой»: y = 5,6 x + 54,5 Что дает нам такое уравнение? Какие выводы мы можем сделать? Вывод 1.Увеличение времени подготовки на 1 час приводит к улучшению результата на 5,6 балла. Вывод 2.Чтобы улучшить результат на 10 баллов, нужно заниматься на 1,8 часа больше. Вывод 3.Если не заниматься вообще (x = 0) – получишь 54,5 балла. Рисунок 13-7. Три значения y, соответствующие одному x Вывод 4.Чтобы получить 100 баллов (y = 100), нужно заниматься 8,1 часов. Стоп! Два последних вывода некорректны! В третьем и четвертом случае мы вышли за границу анализируемой области. Все наши выводы имеют силу, если мы находимся в области исследуемых данных. Часы изменяются от 1 до 6 и оценки от 57 до 88. Интерполяция на внешнюю область опасна и может приводить к необоснованным заключениям. Будьте бдительны!__
|
|||
|