Агломеративная иерархическая кластеризация

Начинаем с точек, которые представляют собой отдельные кластеры.

На каждом шаге алгоритма объединяем два ближайших кластера, пока не получим один кластер.

Таким образом, получаем дерево кластеров (дендрограмму).

Для каждого нового кластера нам нужно будет считать расстояние до всех остальных кластеров. Это расcтояние считается по формуле Ланса-Уильямса.

Визуализация дендрограмм

- расстояние между слившимися кластерами, при котором произошло слияние

  1. Расстояние ближнего соседа

1731621773.png

  1. Расстояние дальнего соседа

1731622035.png

  1. Расстояние между центрами

1731622056.png

  1. Расстояние Уорда

1731622072.png

Нам интересно, чтобы большие расстояния оказались вверху дендрограммы, а маленькие - внизу, чтобы можно было разделить кластеры на группы.

Свойства сжатия и растяжения

Определение

Кластеризация сжимающая, если R_t <= \ro(\) нужно дописать…

- сжимающая

и - растягивающая

Для нас желательньо растягивающее свойство.