Clustering par apprentissage de distance guidé par des préférences sur les attributs
Résumé
Ces dernières années de nombreuses méthodes semi-supervisées de
clustering ont intégré des contraintes entre paires d'objets ou d'étiquettes de
classe, afin que le partitionnement final soit en accord avec les besoins de l'utilisateur.
Pourtant dans certains cas où les dimensions d'études sont clairement
définies, il semble opportun de pouvoir directement exprimer des contraintes
sur les attributs pour explorer des données. De plus, une telle formulation permettrait
d'éviter les écueils classiques de la malédiction de la dimensionnalité
et de l'interprétation des clusters. Cet article propose de prendre en compte les
préférences de l'utilisateur sur les attributs afin de guider l'apprentissage de la
distance pendant le clustering. Plus précisément, nous montrons comment paramétrer
la distance euclidienne par une matrice diagonale dont les coefficients
doivent être au plus proche des poids fixés par l'utilisateur. Cette approche permet
d'ajuster le clustering pour obtenir un compromis entre les approches guidées
par les données et par l'utilisateur. Nous observons que l'ajout des préférences
est parfois essentiel pour atteindre un clustering de meilleure qualité.