Comparaison de bornes théoriques pour l'accélération du clustering incrémental en une passe
Résumé
Le clustering incrémental en une passe repose sur l'affectation efficace
de chaque nouveau point aux clusters existants. Dans le cas général, où les
clusters ne peuvent être représentés par une moyenne, la détermination exhaustive
du cluster le plus proche possède une complexité quadratique avec le nombre
de données. Nous proposons dans ce papier une nouvelle méthode d'affectation
stochastique à chaque cluster qui minimise le nombre de comparaisons à effectuer
entre la donnée et chaque cluster pour garantir, étant donné un taux d'erreur
acceptable, l'affectation au cluster le plus proche. Plusieurs bornes théoriques
(Bernstein, Hoeffding et Student) sont comparées dans ce papier. Les résultats
sur des données artificielles et réelles montrent que la borne de Bernstein donne
globalement les meilleurs résultats (notamment lorsqu'elle est réduite) car elle
permet une accélération forte du processus de clustering, tout en conservant un
nombre très faible d'erreurs.