|
|||
Как оно в питоне?. Обобщающая способность.. Работа с фичами. ⇐ ПредыдущаяСтр 2 из 2 Как оно в питоне?
Обобщающая способность. Как сделать так, чтобы модель корректно прогнозировала? Предположим, у насть есть куча данных. Не надо отдавать сразу все модели на обучение. Делим мы их минимум на 2 части: Обучающая (train set) выборка и валидационная (valid set) выборка. Валидировать модель – убеждаться, что она даёт качественные и правильные прогнозы. Обучаем – на обучающей (~70-80%) Проверяем – на валидационной. (~20-30%) В Питоне для такого есть train_test_split()
Можно ещё дополнительно выделить кусок данных на test.
Работа с фичами. Окей, поделили данные. Но сразу на обучение отдавать нельзя. Предварительно нужно шкалировать.
Алгоритмы используют только евклидово расстояние, а потому может ошибиться с размахом величины (условно, километры и метры). Для этого у нас есть 2 вариант:
МинМакс: x’ = (x - min(x)) / (max(x) - min(x))
Таким образом. все величины измеряются в интервале от 0 до 1.
И ещё стандартизация: x’ = (x - x. mean) / se Итого, среднее значение признака равно 0, а стандартное отклонение 1.
Какой способ выбрать? А никто не знает. Тут просто case by case.
|
|||
|