Как оно в питоне?. Обобщающая способность.. Работа с фичами.

⇐ ПредыдущаяСтр 2 из 2

Как оно в питоне?

Обобщающая способность.

Как сделать так, чтобы модель корректно прогнозировала?

Предположим, у насть есть куча данных. Не надо отдавать сразу все модели на обучение. Делим мы их минимум на 2 части:

Обучающая (train set) выборка и валидационная (valid set) выборка.

Валидировать модель – убеждаться, что она даёт качественные и правильные прогнозы.

Обучаем – на обучающей (~70-80%)

Проверяем – на валидационной. (~20-30%)

В Питоне для такого есть train_test_split()

Можно ещё дополнительно выделить кусок данных на test.

Работа с фичами.

Окей, поделили данные. Но сразу на обучение отдавать нельзя.

Предварительно нужно шкалировать.

Алгоритмы используют только евклидово расстояние, а потому может ошибиться с размахом величины (условно, километры и метры). Для этого у нас есть 2 вариант:

МинМакс:

x’ = (x - min(x)) / (max(x) - min(x))

Таким образом. все величины измеряются в интервале от 0 до 1.

И ещё стандартизация:

x’ = (x - x. mean) / se

Итого, среднее значение признака равно 0, а стандартное отклонение 1.

Какой способ выбрать?

А никто не знает. Тут просто case by case.

⇐ Предыдущая 12