Хелпикс

Главная

Контакты

Случайная статья





Консультация Дата. Семинар 9. Алгоритмы классификации



 

 

Консультация Дата. Семинар 9. Алгоритмы классификации

 

Типы моделей:

1) Линейные(линейные функции):

· Линейный классификатор

!! Нужно что-то, что превратит интервал (− ∞; ∞ ) в [0; 1]

· Логистическая регрессия

 

 

2) Метрические

(опираются на расстояние между объектами)

· KNN – МЕТОД K-БЛИЖАЙШИХ СОСЕДЕЙ

 

 

 


3) Логические

(В них зашито логическое условие «если а, то делай б»)

·

Состоит из узлов (начальный узел илистья, на которых метки класса)и веток. В узлах условия: либо x≤ t, либо x = t, где t – некий параметр (числовой или категориальный). Глубина дерева – количество уровней (тут 3). Понятие ЭНТРОПИИ– мера неопределенности. В реальности, считая энтропию, определяют критерий того, как же делить нашу выборку, какие условия ставить. Выбирают тот критерий, при котором мера неопределенности наименьшая.
Решающее дерево

 

Параметр К в методе «К ближайших соседей», а также глубина дерева –гиперпараметры, то есть задаются заранее. Их не перебирают во время обучения, а надо найти прежде. Как?

Суть в том, что каждый раз на одних и тех данных мы варьируем тестовую выборку. Например, при методе «К ближайших соседей» мы можем тестировать К, равные 3, 5, 7. Запускаем кросс-валидацию столько раз, сколько необходимо (в примере на картинке 5 раз).  
Кросс-валидация

 

ФУНКЦИЯ ПОТЕРЬ VS МЕТРИКИ КАЧЕСТВА

 

Функция потерь – мера корректности алгоритма.  

Ее оптимизация, то есть сведение к минимуму – для обучения модели.

Метрика качества – оценка работоспособности алгоритма.

Ее значение – понимание качества прогноза. Никак не связано с оптимизацией модели.

Но! Иногда одни и те же сущности выступают функцией потерь и метрикой качества (MSE).

 

Упражнение 4

На плоскости расположены колонии рыжих и чёрных муравьёв. Рыжих колоний три, и они имеют координаты (− 1, 1), (1, − 1) и (1, 1). Чёрных колоний одна, и она имеет координаты (0, 0).

А) Применяем метод К ближайших соседей

При К = 3 все поле будет в зоне влияния рыжих, так как из-за численности любые 2 из 3 соседей всегда будут рыжими.

Б) Используем кросс-валидацию

CV K = 1 K = 3
(− 1, 1) - +
(1, − 1) - +
(1, 1) - +
(0, 0) - -

                      

 

Таким образом, при К 1 не совпало ничего. А при К 3 лишь 1 несовпадение из 4, поэтому оптимальным будет К, равное 3.

 

Упражнение 6

Пятачок собрал данные о визитах Винни-Пуха в гости к Кролику. Здесь xi — количество съеденного мёда в горшках, а yi — бинарная переменная, отражающая застревание Винни-Пуха при входе.

А) Решающее дерево для всей выборки

1 шаг: условие по всей выборке

2 шаг: продолжаем разбиение по левое ветви

 


3 шаг: третий уровень 3 ǀ 4 1, 0 1    

Б) Дерево по первым четырем наблюдениям

                     

! Заметим, что на тестовой выборке ошибка при x = 3, но при x = 1 все верно

 

В) Строим случайный лес

Первое дерево строим на наблюдениях с первого по третье, второе -на наблюдениях со второго по четвёртое. Третье дерево -на наблюдениях 1, 2, 4.



 

Упражнение 7

 

Построить решающее дерево для переменной y (зависит от x)


 

 



  

© helpiks.su При использовании или копировании материалов прямая ссылка на сайт обязательна.