Хелпикс

Главная

Контакты

Случайная статья





Как оно в питоне?. Обобщающая способность.. Работа с фичами.



Как оно в питоне?

Обобщающая способность.

Как сделать так, чтобы модель корректно прогнозировала?

Предположим, у насть есть куча данных. Не надо отдавать сразу все модели на обучение. Делим мы их минимум на 2 части:

Обучающая (train set) выборка и валидационная (valid set) выборка.

Валидировать модель – убеждаться, что она даёт качественные и правильные прогнозы.

Обучаем – на обучающей (~70-80%)

Проверяем – на валидационной. (~20-30%)

В Питоне для такого есть train_test_split()

 

Можно ещё дополнительно выделить кусок данных на test.

 

Работа с фичами.

Окей, поделили данные. Но сразу на обучение отдавать нельзя.

Предварительно нужно шкалировать.

 

Алгоритмы используют только евклидово расстояние, а потому может ошибиться с размахом величины (условно, километры и метры). Для этого у нас есть 2 вариант:

 

МинМакс:

x’ = (x - min(x)) / (max(x) - min(x))

 

Таким образом. все величины измеряются в интервале от 0 до 1.

 

И ещё стандартизация:

 x’ = (x - x. mean) / se

Итого, среднее значение признака равно 0, а стандартное отклонение 1.

 

Какой способ выбрать?

А никто не знает. Тут просто case by case.



  

© helpiks.su При использовании или копировании материалов прямая ссылка на сайт обязательна.