RICSH : Recherche d'information contextuelle par segmentation thématique de documents
Résumé
Le but principal des systèmes de recherche d'informations (SRI) classiques
est de retrouver dans un corpus de documents l'information considérée
comme pertinente pour une requête utilisateur. Cette pertinence est souvent liée
à la fréquence d'apparition des termes dans le texte par rapport au corpus sans
tenir compte du contexte de la recherche. Partant de ce constat, nous proposons
dans cet article une approche pour la recherche d'information contextuelle par
segmentation thématique de documents (RICSH). Cette approche s'appuie sur
la méthode de pondération tf-idf que nous avons adaptée dans notre cas pour
indexer le corpus. Cette adaptation se situe au niveau de l'importance du terme
et de son pouvoir de discrimination par rapport aux fragments de textes et non
au corpus. Ces fragments sont obtenus grâce à un processus d'identification des
unités thématiques les plus pertinentes pour chaque document.