Modelling of the chemical recognition system of ants for the unsupervised classification problem : application to web usage mining
Modélisation du système de reconnaissance chimique des fourmis pour le problème de la classification non-supervisée : application à la mesure d'audience sur Internet
Résumé
In this thesis, we develop a new clustering approach inspired from the chemical recognition system of ants and applied to the Web usage mining problem. The principles extracted from our biological model allow us, first, to conceive an artificial life simulator that can reproduce real ants experiments and second, to develop two new clustering algorithms. These algorithms associate one object of the data set to the odour of an artificial ant, and aim at gathering in the same colonies, the artificial ants that share a similar odour. The algorithms organise meetings between ants according to individual behavioural rules to converge. The first algorithm, AntClust, models the odour as a label with an integer value, whereas the second algorithm, Visual AntClust, manipulates continuous odours as real values vectors, which enables to visualise the dynamic building of the final partition. These algorithms are tested on artificial and real data sets against the $k$-Means approach and the AntClass algorithm. AntClust is associated to a weighted multi-modalities representation of the Web users sessions to solve the Web usage mining problem. This method allow us to find and to describe the extracted navigation patterns more accurately than the statistics given by a lot of classical Web usage mining tools. Visual AntClust is applied to the clustering of chemical profiles extracted from the post-pharyngeal gland of leaf-cutting ants and show that the chemical recognition system of these ants relie more heavily on their diet.
Dans ce travail de thèse, nous proposons de modéliser le système de reconnaissance chimique des fourmis pour concevoir une méthode de classification non-supervisée appliquée au problème de la mesure d'audience sur Internet. Les principes extraits notre modèle biologique ont permis le développement d'un simulateur de vie artificielle apte à reproduire des expériences conduites sur les fourmis réelles et de concevoir deux algorithmes de classification non-supervisée. Ceux-ci associent un objet du jeu de données à l'odeur d'une fourmi artificielle et visent à regrouper au sein des mêmes colonies, les fourmis ayant une odeur similaire. La convergence est obtenue par le biais de rencontres répétées entre les fourmis artificielles et dont l'issue est dictée par un ensemble de règles comportementales individuelles. Le premier algorithme nommé AntClust modélise les odeurs de manière discrète, sous la forme d'une étiquette à valeur entière, alors que le second, nommé Visual AntClust, manipule des odeurs continues exprimées par un vecteur de réels à deux dimensions qui autorise le suivi visuel de la création de la partition finale. Ces algorithmes sont testés sur des jeux de données artificielles et réelles et comparés à d'autres approches comme les k-Means ou AntClass. AntClust est appliqué au problème de la mesure d'audience sur Internet et utilise pour ce faire une description multi-modalités pondérée des sessions de navigation des internautes. Cette approche permet d'extraire des statistiques de fréquentation plus fines que celles fournies par les outils classiques de mesure d'audience sur les sites Web. Visual AntClust est appliqué à la classification de profils chimiques issus de fourmis champignonnistes et corrobore l'hypothèse selon laquelle le régime alimentaire joue un rôle fondamental dans le processus de discrimination des fourmis de cette espèce.