Методы последовательных разбиений

Методы последовательных разбиений

Указанная группа методов позволяет формализовать и автоматизировать поиск значимых сочетаний характеристик одних признаков для “объяснения” значений других. В основе методов последовательных разбиений лежит та или иная процедура последовательной классификации (разбиения) исследуемой совокупности объектов по заданному набору признаков. На каждом шаге процедуры группы, образовавшиеся на предыдущем этапе классификации, разбиваются по одному или нескольким наиболее значимым признакам на группы меньшего размера. В результате применения метода получают набор групп, однородных по значению зависимого признака, каждая из которых соответствует определенной комбинации значений признаков классификации (независимых признаков). Эти комбинации рассматриваются как комплексные характеристики, детерминирующие типы объектов по значению зависимых признаков.

Алгоритм THAID

При рассмотрении отдельного индивида характеристикой его “поведения” является значение некоторого признака Y₁(курит в настоящее время). Для обозначения “поведения” группы используется понятие тип. Группу респондентов называют типом, если для этой группы удовлетворяется определенный критерий, в качестве которого в рассматриваемом алгоритме принято использовать долю респондентов, обладающих интересующим поведением. Чем больше эта доля, тем более высокое качество группы, рассматриваемой в качестве типа.

Реализация алгоритма происходит в несколько шагов, при этом совокупность объектов последовательно разбивается на каждом шаге на две группы по одному из независимых признаков. Выбор признака и разбиение по нему осуществляется на основе критериев двух типов: первый – максимальное повышение частоты модального значения зависимого признака Y; второй – разбиение проводится так, чтобы получившиеся в результате группы были максимально отличны между собой по Y в целом с учетом всех значений зависимого признака. Пример.

Алгоритм CHAID

Также как и в предыдущем случае, реализация алгоритма происходит в несколько шагов, на каждом из которых происходит склеивание определенных градаций и выделение той переменной, в соответствии со значениями которой совокупность респондентов делится на части. Однако рассматриваемый метод имеет принципиально иные критерии выбора признака и способа разбиения совокупности объектов. В алгоритме CHAID объединяются градации, имеющие наименьшие значения Х² при сопряжении их с Y. Для разбиения отбираются признаки, для которых Х² имеет наибольшее значение.

Определение склеиваемых градаций:

В ходе реализации алгоритма для каждого независимого признака Х последовательно перебираются все пары альтернатив, для каждой из них вычисляется Х²в гипотетической таблице сопряженности с зависимым признаком Y. Отбираются те пары, для которых значение Х²не превышает соответствующего критического значения. Альтернативы пары, имеющей наименьший Х² склеиваются. Пример.