|
|||||||||||||||||||||||
Консультация Дата. Семинар 9. Алгоритмы классификации
Консультация Дата. Семинар 9. Алгоритмы классификации
Типы моделей: 1) Линейные(линейные функции): · Линейный классификатор
· Логистическая регрессия
2) Метрические (опираются на расстояние между объектами) · KNN – МЕТОД K-БЛИЖАЙШИХ СОСЕДЕЙ
3) Логические (В них зашито логическое условие «если а, то делай б») ·
Параметр К в методе «К ближайших соседей», а также глубина дерева –гиперпараметры, то есть задаются заранее. Их не перебирают во время обучения, а надо найти прежде. Как?
ФУНКЦИЯ ПОТЕРЬ VS МЕТРИКИ КАЧЕСТВА
• Функция потерь – мера корректности алгоритма. Ее оптимизация, то есть сведение к минимуму – для обучения модели. • Метрика качества – оценка работоспособности алгоритма. Ее значение – понимание качества прогноза. Никак не связано с оптимизацией модели. • Но! Иногда одни и те же сущности выступают функцией потерь и метрикой качества (MSE).
Упражнение 4 На плоскости расположены колонии рыжих и чёрных муравьёв. Рыжих колоний три, и они имеют координаты (− 1, 1), (1, − 1) и (1, 1). Чёрных колоний одна, и она имеет координаты (0, 0). А) Применяем метод К ближайших соседей
Б) Используем кросс-валидацию
Таким образом, при К 1 не совпало ничего. А при К 3 лишь 1 несовпадение из 4, поэтому оптимальным будет К, равное 3.
Упражнение 6
А) Решающее дерево для всей выборки 1 шаг: условие по всей выборке 2 шаг: продолжаем разбиение по левое ветви
Б) Дерево по первым четырем наблюдениям
! Заметим, что на тестовой выборке ошибка при x = 3, но при x = 1 все верно
В) Строим случайный лес Первое дерево строим на наблюдениях с первого по третье, второе -на наблюдениях со второго по четвёртое. Третье дерево -на наблюдениях 1, 2, 4.
Упражнение 7
Построить решающее дерево для переменной y (зависит от x)
|
|||||||||||||||||||||||
|