|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1. Модели с фиктивными переменными
Тема 1. Модели с фиктивными переменными 2. Модели бинарного выбора (логит и пробит модели) – y (0 и 1 )
Фиктивная переменная – это обязательно x (т. е. фактор) Бинарные (0 и 1) и с большим количеством значений Star 2, 3, 4, 5 (4 значения) Hot 0 и 1 (горящая или негорящая) Price = b0+b1*time+b2*star+b3*hot При переходе в кол-ве звёзд на 1 цена увеличивается в среднем на b2 (b2> 0) при фиксированных других факторах Из переменной star делают 4 бинарных переменных Добавить фиктивные переменные для дискр. Переменной (в основном окне) Star2 (1, если 2 звезды и 0 в ост. Случаях) Star 3(1, если 3 звезды и 0 в ост. Случаях) Star 4(1, если 4 звезды и 0 в ост. Случаях) Star5 (1, если 5 звезд и 0 в ост. Случаях) Любые три переменные можно включить в модель (а 4 будет базовой) Иногда за базовую выбирают самую многочисленную, либо самую отличающуюся категорию За базу взяла отели 5 звезд Price = b0+b1*time+b2*star2+b3*star3+b4*star4+ b4*hot Интерпретации Если изначально бинарная переменная, то 1 мы интерпретируем по отношению к 0 (горящая путёвка в среднем дешевле негорящей на b2) Star2, star3 и star4 интерпретируем по отношению к базовой, а базовая это star5 Если коэф. Отриц. говорим меньше Если коэф. Положит. Говорим больше
Модель 2: МНК, использованы наблюдения 1-160 Зависимая переменная: PRICE Робастные оценки стандартных ошибок (с поправкой на гетероскедастичность), вариант HC0
Мы смотрим значимость по группе (группа выделена красным)- группа значима, когда хотя бы один коэф. Значим – незначимую нельзя просто убрать из группы, а можно только заменить базовой График – переменная/коробчатая диаграмма/факторизованная Ящики с усами (боксплоты) Нижняя граница– 25% Верхняя граница – 75% + - это среднее Черточка это медиана (50%) Если будут отдельные звёздочки – это выбросы От выбросов модель надо чистить Однородность определяется близостью медианы и среднего Модели с фиктивными переменными позволяют учесть специфику и не потерять кол-во наблюдений (очень мелкое разбиение по всем признакам не позволяет строить модели)
Если y бинарный, то речь идёт о логит и пробит моделях Y – выжил – не выжил Указывают некоторый порог 300 наблюдений (160 нулей, 140 злок) Y-0-доброкач. 1 –злакочаст. Таблица классификации 0 предсказать 1 – плохо (20) - допроверить 1 предсказать 0 – плохо (20) 0 предсказать 0 –хорошо (140) 1 предсказать 1 хорошо (120) Посмотреть презентацию
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|