|
||||||||||||||||||||||||
ОТЧЕТ О ЛАБОРАТОРНОЙ РАБОТЕ. Модель парной линейной регрессии.. Решение
Федеральное государственное автономное образовательное учреждение высшего профессионального образования «СИБИРСКИЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ» Институт цветных металлов и материаловедения Кафедра АППТМ
ОТЧЕТ О ЛАБОРАТОРНОЙ РАБОТЕ Модель парной линейной регрессии
Преподаватель ________ Т.В. Пискажова Студент МЦ15-15 ________ А.А. Потапчик
Красноярск 2015 Модель парной линейной регрессии. Задания: 1. Рассчитать линейный коэффициент парной корреляции, оценить его статистическую значимость. Сопоставить в отчете коэффициенты, рассчитанные по формулам 1.1-1.6 и функциями Microsoft Excel. Рассчитать также для одного столбца дисперсию по формуле 2. Построить линейное уравнение парной регрессии y(x), рассчитав коэффициенты регрессии. Сделать рисунок с помощью точечной диаграммы с выводом уравнения тренда и коэффициента R2. Оценить статистическую значимость параметров регрессии. 3. Оценить качество уравнения регрессии при помощи коэффициента детерминации. Проверить качество уравнения регрессии при помощи F-критерия Фишера. Сверить полученные коэффициенты и оценки с результатами «Анализ Данных. Регрессия» Microsoft Excel! 4. Выполнить прогноз показателя y при прогнозном значении x, составляющем 101-105% от среднего уровня. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал для уровня значимости a=0,05. Решение 1. Для определения степени тесноты связи обычно используют линейный коэффициент корреляции: , где , – выборочные дисперсии переменных x и y, – ковариация признаков. Соответствующие средние определяются по формулам:
Для расчета коэффициента корреляции (1.1) строим расчетную таблицу (табл. 1.2): Таблица 1.1
256,1 | 246,6244 | 9,5 | 89,78673 | |||||||||||||||||||||
41,2 |
319,4 | 210,5458 | 108,9 | 11849,25 | ||||||||||||||||||||
40,6 |
302,6 | 231,2694 | 71,3 | 5088,053 | ||||||||||||||||||||
40,3 |
206,1 | 242,7706 | -36,7 | 1344,735 | ||||||||||||||||||||
41,6 |
246,0 | 192,4812 | 53,5 | 2864,259 | ||||||||||||||||||||
42,0 |
226,8 | 180,6266 | 46,2 | 2131,979 | ||||||||||||||||||||
42,1 |
182,3 | 174,5525 | 7,7 | 60,02413 | ||||||||||||||||||||
43,3 |
135,1 | 131,4345 | 3,7 | 13,43606 | ||||||||||||||||||||
43,3 |
99,6 | 130,5234 | -30,9 | 956,2575 | ||||||||||||||||||||
43,3 |
98,1 | 131,8827 | -33,8 | 1141,27 | ||||||||||||||||||||
43,0 |
117,5 | 141,5529 | -24,1 | 578,542 | ||||||||||||||||||||
41,3 |
115,9 | 206,2504 | -90,4 | 8163,203 | ||||||||||||||||||||
43,0 |
178,7 | 142,0382 | 36,7 | 1344,085 | ||||||||||||||||||||
41,1 |
212,3 | 213,736 | -1,4 | 2,062164 | ||||||||||||||||||||
41,1 |
210,4 | 212,7167 | -2,3 | 5,367292 | ||||||||||||||||||||
41,6 |
198,7 | 192,4781 | 6,2 | 38,71253 | ||||||||||||||||||||
42,3 |
249,3 | 168,8605 | 80,4 | 6470,518 | ||||||||||||||||||||
40,9 |
139,9 | 222,3359 | -82,4 | 6795,686 | ||||||||||||||||||||
40,3 |
217,2 | 241,8416 | -24,6 | 607,2106 | ||||||||||||||||||||
39,7 |
132,1 | 264,2668 | -132,2 | 17468,07 | ||||||||||||||||||||
41,6 |
149,1 | 194,9818 | -45,9 | 2105,142 | ||||||||||||||||||||
39,6 |
159,7 | 270,1377 | -110,4 | 12196,48 | ||||||||||||||||||||
39,5 |
160,8 | 274,8277 | -114,0 | 13002,33 | ||||||||||||||||||||
40,5 |
159,0 | 233,7235 | -74,7 | 5583,599 | ||||||||||||||||||||
39,8 |
202,9 | 262,2417 | -59,3 | 3521,434 | ||||||||||||||||||||
41,2 |
212,1 | 210,7983 | 1,3 | 1,694374 | ||||||||||||||||||||
40,4 |
229,2 | 237,7367 | -8,5 | 72,87549 | ||||||||||||||||||||
40,4 |
221,6 | 240,0218 | -18,4 | 339,3611 | ||||||||||||||||||||
41,4 |
170,8 | 200,6348 | -29,8 | 890,1135 | ||||||||||||||||||||
40,7 |
266,8 | 226,1749 | 40,6 | 1650,395 | ||||||||||||||||||||
38,8 |
251,3 | 301,0287 | -49,7 | 2472,945 | ||||||||||||||||||||
37,5 |
191,1 | 348,447 | -157,3 | 24758,08 | ||||||||||||||||||||
38,4 |
256,8 | 314,0912 | -57,3 | 3282,284 | ||||||||||||||||||||
37,7 |
253,9 | 341,0598 | -87,2 | 7596,831 | ||||||||||||||||||||
37,2 |
322,8 | 358,5914 | -35,8 | 1281,028 | ||||||||||||||||||||
39,3 |
363,3 | 282,2777 | 81,0 | 6564,608 | ||||||||||||||||||||
36,1 |
489,1 | 401,2122 | 87,9 | 7724,266 | ||||||||||||||||||||
37,5 |
531,0 | 346,9797 | 184,0 | 33863,47 | ||||||||||||||||||||
39,8 |
375,5 | 262,0971 | 113,4 | 12860,22 | ||||||||||||||||||||
40,4 |
336,0 | 239,8252 | 96,2 | 9249,59 | ||||||||||||||||||||
39,7 |
339,1 | 267,1454 | 72,0 | 5177,462 | ||||||||||||||||||||
37,6 |
381,2 | 343,9532 | 37,2 | 1387,327 | ||||||||||||||||||||
35,6 |
375,9 | 420,1442 | -44,2 | 1957,547 | ||||||||||||||||||||
35,1 |
444,1 | 440,2919 | 3,8 | 14,50187 | ||||||||||||||||||||
35,1 |
401,9 | 438,7847 | -36,9 | 1360,479 | ||||||||||||||||||||
38,8 |
366,7 | 299,4286 | 67,3 | 4525,437 | ||||||||||||||||||||
38,3 |
443,6 | 318,9663 | 124,6 | 15533,57 | ||||||||||||||||||||
37,4 |
382,8 | 353,6541 | 29,1 | 849,4824 | ||||||||||||||||||||
34,7 |
391,2 | 454,8213 | -63,6 | 4047,672 | ||||||||||||||||||||
34,9 |
487,3 | 445,2511 | 42,0 | 1768,109 | ||||||||||||||||||||
35,6 |
469,3 | 421,8818 | 47,4 | 2248,487 | ||||||||||||||||||||
итого | ||||||||||||||||||||||||
среднее |
По данным таблицы находим:
Дисперсии и СКО по генеральной совокупности.
, ,
, ,
Дисперсии и СКО по выборке.
, ,
, ,
=СТЬЮДРАСПОБР(0,05;49)=2,01
, .
=КОРРЕЛ(B3:B53;C3:C53) = -0,78
Таким образом, между кусками (y) и высотой настыля (x) существует обратная достаточно сильная корреляционная зависимость.
Для оценки статистической значимости коэффициента корреляции рассчитывают двухсторонний t-критерий Стьюдента:
,
который имеет распределение Стьюдента с k=n–2 и уровнем значимости a.
В нашем случае
и .
Т крит - это табличное значение, найденное в Excel с помощью функции
СТЬЮДРАСПРОБР. У нас n=51 - число измерений.
Поскольку по модулю , то коэффициент корреляции существенно отличается от нуля и значит наш коэффициент корреляции является статистически значимым.
2. Таким образом, между переменными x и y имеет существенная корреляционная зависимость. Будем считать, что эта зависимость является линейной.
По выборке ограниченного объема можно построить эмпирическое уравнение регрессии:
, (1.7)
где b0 и b1 – эмпирические коэффициенты регрессии.
Для оценки параметров регрессии обычно используют метод наименьших квадратов (МНК). В соответствие с МНК, сумма квадратов отклонений фактических значений зависимой переменной y от теоретических была минимальной:
, (1.8)
где – отклонения yi от оцененной линии регрессии. Необходимым условием существования минимума функции двух переменных (1.8) является равенство нулю ее частных производных по неизвестным параметрам b0 и b1. В результате получаем систему нормальных уравнений:
Решая систему, найдем
, (1.9)
. (1.10)
По формулам 1.9-1.10 находим
;
.
Получено уравнение регрессии:
(1,11)
Параметр b1 называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу. В рассматриваемом случае, с увеличением высоты настыля на 1 сантиметр количество кусков уменьшается в среднем на 37,66 шт.
Рис. 1.1
Проверка адекватности моделей, построенных на основе уравнений регрессии, начинается с проверки статистической значимости каждого коэффициента регрессии. Для этого вычислим сначала стандартную ошибку регрессии
. (1.12)
В нашем случае
.
Значимость коэффициентов регрессии осуществляется с помощью t-критерия Стьюдента:
, = (1.13)
где – дисперсия коэффициента регрессии.
Для коэффициента b1 оценку дисперсии можно получить по формуле:
. (1.14)
В нашем случае
Следовательно,
.
Отметим, что для парной линейной регрессии t-критерий для коэффициента корреляции rxy и коэффициента регрессии b1 совпадают.
Для коэффициента b0 оценку дисперсии можно получить по формуле:
. (1.15)
Тогда
Критическое значение критерия было уже найдено . Поскольку по модулю и , то коэффициенты регрессии значимо отличаются от нуля.
Сравнить стандартную ошибку регрессии и Т-статистики коэффициентов с полученными ниже в таблице 1.3!
Результаты регрессионного анализа представлены в таблице 1.3.
Таблица 1.3
ВЫВОД ИТОГОВ | ||||||||
Регрессионная статистика | ||||||||
Множественный R | 0,7810 | |||||||
R-квадрат | 0,6100 | |||||||
Нормированный R-квадрат | 0,6020 | |||||||
Стандартная ошибка | 72,1251 | |||||||
Наблюдения | 51,0000 | |||||||
Дисперсионный анализ | ||||||||
df | SS | MS | F | Значимость F | ||||
Регрессия | 76,6 | 1,38E-11 | ||||||
Остаток | ||||||||
Итого |
|
|
| |||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | Нижние 95,0% | Верхние 95,0% | |
Y-пересечение | 1760,736 | 170,906 | 10,302 | 7,42E-14 | 1417,287 | 2104,185 | 1417,287 | 2104,185 |
Переменная X 1 | -37,658 | 4,302 | -8,754 | 1,38E-11 | -46,303 | -29,013 | -46,303 | -29,013 |
3. Оценку качества построенной модели дает коэффициент детерминации.
Коэффициент детерминации для линейной модели равен квадрата коэффициента корреляции
Это означает, что 61% вариации количество кусков (y) объясняется вариацией фактора x – высотой настыля.
Значимость уравнения регрессии проверяется при помощи F-критерия Фишера, для линейной парной регрессии он будет иметь вид
, (1.16)
где F подчиняется распределению Фишера с уровнем значимости a и степенями свободы k1=n–2 и k2=1.
В нашем случае
.
Поскольку критическое значение критерия равно
и , то признается статистическая значимость построенного уравнения регрессии.
Fкрит это табличное значение и было найдено с помощью функции FРАСПРОБР.
4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Прогнозное значение yp определяется путем подстановки в уравнение регрессии (1.11) соответствующего (прогнозного) значения xp. В нашем случае прогнозное значение высоты настыля составит: , тогда прогнозное значение количества кусков:
Средняя стандартная ошибка прогноза вычисляется по формуле:
. (1.17)
В нашем случае
Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит:
.
Доверительный интервал прогноза
,
или
.
Выполненный прогноз количества кусков оказался надежным (g=0,95) и точным, т.к. относительная точность прогноза составила 147,41/161,2×100%=82,35%.
|
© helpiks.su При использовании или копировании материалов прямая ссылка на сайт обязательна.
|
|