Хелпикс

Главная

Контакты

Случайная статья





Нахождение коэффициентов линейной



 

 

Нахождение коэффициентов линейной

регрессии

Наша задача состоит в том, чтобы простроить наилучшую линию.

Каким образом мы ее найдем? Уравнение гипотетической линии:

y = ax + b

Задача состоит в вычислении неизвестных коэффициентов a и b.

Рисунок 13-6. Каждому значению x соответствует два значения y

Наши данные представляют собой пары (xi, yi). Для каждого

значения xi в выборке имеется значение yi (наблюдаемое значение).

Кроме того, для каждого x существует еще одно значение y

(предсказываемое значение), которое может быть получено из уравнения

y = axi + b, если подставить в это уравнение xi.

Линия будет наилучшей, если сумма квадратов разностей между yi

и y = axi + b будет минимальна.

Из курса математического анализа известно, что функция от двух

переменных имеет экстремум, если обе ее частные производные равны

нулю.

Решение этой системы двух уравнений с двумя неизвестными

приводит к следующему ответу:

Это и есть коэффициенты линейной регрессии. Коэффициент

a есть наклон прямой, а коэффициент b – ее смещение вдоль оси Y.

Для вычислений ручным способом с использованием

вспомогательных расчетных таблиц более просты и пригодны две другие

формулы, которые эквиваленты предыдущим:

Решим задачу про экзамен и время подготовки.

Таблица 13-1

содержит все необходимые данные и вычисления, поэтому, не повторяя

таблицу, мы используем результаты расчетов и подставляем их в

формулы для нахождения коэффициентов линейной регрессии:

Получили уравнение «наилучшей прямой»:

y = 5,6 x + 54,5

Что дает нам такое уравнение? Какие выводы мы можем сделать?

Вывод 1.Увеличение времени подготовки на 1 час приводит к

улучшению результата на 5,6 балла.

Вывод 2.Чтобы улучшить результат на 10 баллов, нужно заниматься на

1,8 часа больше.

Вывод 3.Если не заниматься вообще (x = 0) – получишь 54,5 балла.

Рисунок 13-7. Три значения y, соответствующие одному x

Вывод 4.Чтобы получить 100 баллов (y = 100), нужно заниматься 8,1

часов.

Стоп! Два последних вывода некорректны!

В третьем и четвертом случае мы вышли за границу

анализируемой области. Все наши выводы имеют силу, если мы

находимся в области исследуемых данных. Часы изменяются от 1 до 6 и

оценки от 57 до 88. Интерполяция на внешнюю область опасна и может

приводить к необоснованным заключениям. Будьте бдительны!__



  

© helpiks.su При использовании или копировании материалов прямая ссылка на сайт обязательна.