Classification hiérarchique
La création d'une chaîne de partitions est une approche utilisée en clustering pour représenter différents niveaux de granularité dans la structure des clusters. Cette chaîne de partitions est généralement visualisée sous la forme d'un dendrogramme. Au sommet de cette structure, il y a une seule classe regroupant tous les points de données. En bas, chaque point de données est considéré comme une classe individuelle. Entre les deux, chaque partition successivement décompose l'autre, révélant différentes subdivisions des données à des niveaux de granularité croissants.
Pour construire cette chaîne de partitions, on utilise généralement deux approches principales : les méthodes d'agglomération et les méthodes de division. Les méthodes d'agglomération, telles que la méthode du lien unique ou du lien complet, fusionnent progressivement des paires de clusters similaires pour créer une hiérarchie. À l'inverse, les méthodes de division, comme la division binaire récursive, partitionnent initialement les données en plusieurs sous-groupes, puis divisent chaque sous-groupe de manière récursive pour former une hiérarchie de clusters.
Cette représentation hiérarchique sur un dendrogramme offre plusieurs avantages. Elle permet de visualiser la structure des clusters à différents niveaux de détail, ce qui facilite l'interprétation des résultats du clustering. De plus, elle offre la possibilité de choisir le niveau de découpage optimal en fonction des besoins spécifiques de l'analyse, offrant ainsi une flexibilité dans l'exploration des données et des relations entre les clusters.
Algorithmes par agglomération : CHA – Classification hiérarchique ascendante :

Dendrogramme final :
