Консультация Дата. Семинар 9. Алгоритмы классификации

Консультация Дата. Семинар 9. Алгоритмы классификации

Типы моделей:

1) Линейные(линейные функции):

· Линейный классификатор

!! Нужно что-то, что превратит интервал (− ∞; ∞ ) в [0; 1]

· Логистическая регрессия

2) Метрические

(опираются на расстояние между объектами)

· KNN – МЕТОД K-БЛИЖАЙШИХ СОСЕДЕЙ

3) Логические

(В них зашито логическое условие «если а, то делай б»)

Состоит из узлов (начальный узел илистья, на которых метки класса)и веток. В узлах условия: либо x≤ t, либо x = t, где t – некий параметр (числовой или категориальный). Глубина дерева – количество уровней (тут 3). Понятие ЭНТРОПИИ– мера неопределенности. В реальности, считая энтропию, определяют критерий того, как же делить нашу выборку, какие условия ставить. Выбирают тот критерий, при котором мера неопределенности наименьшая.

Решающее дерево

Параметр К в методе «К ближайших соседей», а также глубина дерева –гиперпараметры, то есть задаются заранее. Их не перебирают во время обучения, а надо найти прежде. Как?

Суть в том, что каждый раз на одних и тех данных мы варьируем тестовую выборку. Например, при методе «К ближайших соседей» мы можем тестировать К, равные 3, 5, 7. Запускаем кросс-валидацию столько раз, сколько необходимо (в примере на картинке 5 раз).

Кросс-валидация

ФУНКЦИЯ ПОТЕРЬ VS МЕТРИКИ КАЧЕСТВА

• Функция потерь – мера корректности алгоритма.

Ее оптимизация, то есть сведение к минимуму – для обучения модели.

• Метрика качества – оценка работоспособности алгоритма.

Ее значение – понимание качества прогноза. Никак не связано с оптимизацией модели.

• Но! Иногда одни и те же сущности выступают функцией потерь и метрикой качества (MSE).

Упражнение 4

На плоскости расположены колонии рыжих и чёрных муравьёв. Рыжих колоний три, и они имеют координаты (− 1, 1), (1, − 1) и (1, 1). Чёрных колоний одна, и она имеет координаты (0, 0).

А) Применяем метод К ближайших соседей

При К = 3 все поле будет в зоне влияния рыжих, так как из-за численности любые 2 из 3 соседей всегда будут рыжими.

Б) Используем кросс-валидацию

CV	K = 1	K = 3
(− 1, 1)	-	+
(1, − 1)	-	+
(1, 1)	-	+
(0, 0)	-	-

Таким образом, при К 1 не совпало ничего. А при К 3 лишь 1 несовпадение из 4, поэтому оптимальным будет К, равное 3.

Упражнение 6

Пятачок собрал данные о визитах Винни-Пуха в гости к Кролику. Здесь xi — количество съеденного мёда в горшках, а yi — бинарная переменная, отражающая застревание Винни-Пуха при входе.

А) Решающее дерево для всей выборки

1 шаг: условие по всей выборке

2 шаг: продолжаем разбиение по левое ветви

3 шаг: третий уровень 3 ǀ 4 1, 0 1

Б) Дерево по первым четырем наблюдениям

! Заметим, что на тестовой выборке ошибка при x = 3, но при x = 1 все верно

В) Строим случайный лес

Первое дерево строим на наблюдениях с первого по третье, второе -на наблюдениях со второго по четвёртое. Третье дерево -на наблюдениях 1, 2, 4.

Упражнение 7

Построить решающее дерево для переменной y (зависит от x)