Разница между иерархической и частичной кластеризацией

Разница между иерархической и частичной кластеризацией
Разница между иерархической и частичной кластеризацией

Видео: Разница между иерархической и частичной кластеризацией

Видео: Разница между иерархической и частичной кластеризацией
Видео: Агломеративная кластеризация 2024, Ноябрь
Anonim

Иерархическая и раздельная кластеризация

Кластеризация - это метод машинного обучения для анализа данных и разделения на группы похожих данных. Эти группы или наборы похожих данных известны как кластеры. Кластерный анализ рассматривает алгоритмы кластеризации, которые могут автоматически идентифицировать кластеры. Hierarchical и Partitional - два таких класса алгоритмов кластеризации. Алгоритмы иерархической кластеризации разбивают данные на иерархию кластеров. Парциальные алгоритмы делят набор данных на взаимно непересекающиеся разделы.

Что такое иерархическая кластеризация?

Алгоритмы иерархической кластеризации повторяют цикл объединения меньших кластеров в более крупные или разделения более крупных кластеров на более мелкие. В любом случае он создает иерархию кластеров, называемую дендрограммой. Стратегия агломерационной кластеризации использует восходящий подход объединения кластеров в более крупные, в то время как разделительная стратегия кластеризации использует нисходящий подход разделения на более мелкие. Как правило, жадный подход используется при принятии решения о том, какие большие/меньшие кластеры используются для слияния/разделения. Евклидово расстояние, манхэттенское расстояние и косинусное сходство являются одними из наиболее часто используемых показателей подобия для числовых данных. Для нечисловых данных используются такие показатели, как расстояние Хэмминга. Важно отметить, что для иерархической кластеризации не нужны сами наблюдения (экземпляры), потому что достаточно только матрицы расстояний. Дендограмма - это визуальное представление кластеров, которое очень четко отображает иерархию. Пользователь может получить различную кластеризацию в зависимости от уровня, на котором разрезана дендограмма.

Что такое раздельная кластеризация?

Алгоритмы частичной кластеризации генерируют различные разделы, а затем оценивают их по некоторому критерию. Их также называют неиерархическими, поскольку каждый экземпляр помещается ровно в один из k взаимоисключающих кластеров. Поскольку только один набор кластеров является результатом типичного алгоритма секционной кластеризации, пользователь должен ввести желаемое количество кластеров (обычно называемое k). Одним из наиболее часто используемых алгоритмов секционной кластеризации является алгоритм кластеризации k-средних. Пользователь должен указать количество кластеров (k) перед запуском, и алгоритм сначала инициирует центры (или центроиды) k разделов. В двух словах, алгоритм кластеризации k-средних затем назначает элементы на основе текущих центров и повторно оценивает центры на основе текущих элементов. Эти два шага повторяются до тех пор, пока определенная целевая функция внутрикластерного сходства и целевая функция межкластерного различия не будут оптимизированы. Следовательно, разумная инициализация центров является очень важным фактором в получении качественных результатов от алгоритмов раздельной кластеризации.

В чем разница между иерархической и раздельной кластеризацией?

Иерархическая и секциональная кластеризация имеют ключевые различия во времени выполнения, допущениях, входных параметрах и результирующих кластерах. Как правило, групповая кластеризация выполняется быстрее, чем иерархическая кластеризация. Иерархическая кластеризация требует только меры сходства, в то время как групповая кластеризация требует более сильных предположений, таких как количество кластеров и начальные центры. Иерархическая кластеризация не требует каких-либо входных параметров, в то время как алгоритмы секционной кластеризации требуют количества кластеров для начала работы. Иерархическая кластеризация возвращает гораздо более значимое и субъективное разделение кластеров, но групповая кластеризация дает ровно k кластеров. Алгоритмы иерархической кластеризации больше подходят для категориальных данных, если можно соответствующим образом определить меру подобия.

Рекомендуемые: