pdf
bib
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
Patrice Bellot
|
Marie-Laure Guénot
pdf
bib
abs
Méthode de réordonnancement de réponses par transformation d’arbres : présentation et analyse des résultats
Guillaume Bernard
Dans cet article nous présentons une évaluation et une analyse des résultats d’une méthode de réordonnancement de réponses pour un système de questions-réponses. Cette méthode propose une sélection des réponses candidates à une question en calculant un coût par transformation d’arbres. Nous présentons une analyse des résultats obtenus sur le corpus Clef 2004-2005 et nos conclusions sur les voies d’amélioration possibles pour notre système.
pdf
bib
abs
Annotation des informations temporelles dans des textes en français
André Bittar
Le traitement des informations temporelles est crucial pour la compréhension de textes en langue naturelle. Le langage de spécification TimeML a été conçu afin de permettre le repérage et la normalisation des expressions temporelles et des événements dans des textes écrits en anglais. L’objectif des divers projets TimeML a été de formuler un schéma d’annotation pouvant s’appliquer à du texte libre, comme ce que l’on trouve sur le Web, par exemple. Des efforts ont été faits pour l’application de TimeML à d’autres langues que l’anglais, notamment le chinois, le coréen, l’italien, l’espagnol et l’allemand. Pour le français, il y a eu des efforts allant dans ce sens, mais ils sont encore un peu éparpillés. Dans cet article, nous détaillons nos travaux actuels qui visent à élaborer des ressources complètes pour l’annotation de textes en français selon TimeML - notamment un guide d’annotation, un corpus de référence (Gold Standard) et des modules d’annotation automatique.
pdf
bib
abs
Morphosyntaxe de l’interrogation pour le système de question-réponse RITEL
Anne Garcia-Fernandez
|
Carole Lailler
Nous proposons d’étudier le cas de l’interrogation en Dialogue Homme-Machine au sein d’un système de Question-Réponse à travers le prisme de la Grammaire Interactive. Celle-ci établit un rapport direct entre question et réponse et présuppose que la morphosyntaxe d’une interrogation dépend d’une « réponse escomptée »; l’interlocuteur humain ou machine ayant la possibilité de produire une réponse effective divergente. Nous proposons d’observer la présence des différentes formes de questions dans un corpus issu de l’utilisation du système RITEL. Et nous présentons une expérience menée sur des locuteurs natifs qui nous a permis de mettre en valeur la différence entre réponses effectives produites par nos sujets et réponses présupposées par le contenu intentionnel des questions. Les formalismes ainsi dégagés ont pour but de donner aux systèmes de DHM des fonctionnalités nouvelles comme la capacité à interpréter et à générer de la variabilité dans les énoncés produits.
pdf
bib
abs
Un système d’annotation des entités nommées du type personne pour la résolution de la référence
Elzbieta Gryglicka
Dans cet article nous présentons notre démarche pour l’annotation des expressions référentielles désignant les personnes et son utilisation pour la résolution partielle de la référence. Les choix effectués dans notre implémentation s’inspirent des travaux récents dans le domaine de l’extraction d’information et plus particulièrement de la reconnaissance des entités nommées. Nous utilisons les grammaires locales dans le but d’annoter les entités nommées du type Personne et pour construire, à partir des annotations produites, une base de connaissances extra-linguistiques. Les informations acquises par ce procédé sont ensuite utilisées pour implémenter une méthode de la résolution de la référence pour les syntagmes nominaux coréférentiels.
pdf
bib
abs
Description de la structure de la phrase japonaise en vue d’une analyse syntaxique
Alexis Kauffmann
Nous décrivons la façon dont est formée la phrase japonaise, avec son contenu minimal, la structure des composants d’une phrase simple et l’ordre des mots dans ses composants, les différentes phrases complexes et les possibilités de changements modaux. Le but de cette description est de permettre l’analyse de la phrase japonaise selon des principes universels tout en restant fidèles aux particularités de la langue. L’analyseur syntaxique multilingue FIPS est en cours d’adaptation pour le japonais selon les règles de grammaire qui ont été définies. Bien qu’il fonctionnait alors uniquement pour des langues occidentales, les premiers résultats sont très positifs pour l’analyse des phrases simples, ce qui montre la capacité de Fips à s’adapter à des langues très différentes.
pdf
bib
abs
Adaptation d’un système de compréhension pour un robot compagnon
Marc Le Tallec
Le projet EmotiRob, financé par l’ANR, a pour but de réaliser un robot compagnon pour des enfants fragilisés. Le projet se décompose en deux sous parties que sont le module de compréhension pour comprendre ce que dit l’enfant et un module d’interaction émotionnelle pour apporter une réponse en simulant des émotions par les mouvements du corps, les traits du visage et par l’émission de petits sons simples. Le module de compréhension dont il est question ici réutilise les travaux du système Logus. La principale difficulté est de faire évoluer le système existant d’un dialogue homme-machine finalisé vers un domaine plus large et de détecter l’état émotionnel de l’enfant. Dans un premier temps, nous présentons le projet EmotiRob et ses spécificités. Ensuite, le système de compréhension de la parole Logus, sur lequel se base ce travail, est présenté en détail. Enfin, nous présentons les adaptations du système à la nouvelle tâche EmotiRob.
pdf
bib
abs
Identification automatique de marques d’opinion dans des textes
Aiala Rosá
Nous présentons un modèle conceptuel pour la représentation d’opinions, en analysant les éléments qui les composent et quelques propriétés. Ce modèle conceptuel est implémenté et nous en décrivons le jeu d’annotations. Le processus automatique d’annotation de textes en espagnol est effectué par application de règles contextuelles. Un premier sous-ensemble de règles a été écrit pour l’identification de quelques éléments du modèle. Nous analysons les premiers résultats de leur application.
pdf
bib
abs
Transducteurs à fenêtre glissante pour l’induction lexicale
Yves Scherrer
Nous appliquons différents modèles de similarité graphique à la tâche de l’induction de lexiques bilingues entre un dialecte de Suisse allemande et l’allemand standard. Nous comparons des transducteurs stochastiques utilisant des fenêtres glissantes de 1 à 3 caractères, entraînés à l’aide de l’algorithme de maximisation de l’espérance avec des corpus d’entraînement de tailles différentes. Si les transducteurs à unigrammes donnent des résultats satisfaisants avec des corpus très petits, nous montrons que les transducteurs à bigrammes les dépassent à partir de 750 paires de mots d’entraînement. En général, les modèles entraînés nous ont permis d’améliorer la F-mesure de 7% à 15% par rapport à la distance de Levenshtein.
pdf
bib
abs
Génération intégrée localisée pour la production de documents
Pierre Hankach
Dans cet article, nous proposons une approche intégrée localisée pour la génération. Dans cette approche, le traitement intégré des décisions linguistiques est limité à la production des propositions dont les décisions qui concernent leurs générations sont dépendantes. La génération se fait par groupes de propositions de tailles limitées avec traitement intégré des décisions linguistiques qui concernent la production des propositions qui appartiennent au même groupe. Notre approche apporte une solution pour le problème de complexité computationnelle de la génération intégrée classique. Elle fournit ainsi une alternative à la génération séparée (séquentielle ou interactive) qui présente plusieurs défauts mais qui est implémentée de manière répandue dans les systèmes de générations existants.
pdf
bib
abs
Un système de génération et étiquetage automatique de dictionnaires linguistiques de l’arabe
Mohamed Bouallegue
|
Mohsen Maraoui
|
Mourad Mars
|
Mounir Zrigui
L’objectif de cet article est la présentation d’un système de génération automatique de dictionnaires électroniques de la langue arabe classique, développé au sein de laboratoire UTIC (unité de Monastir). Dans cet article, nous présenterons, les différentes étapes de réalisation, et notamment la génération automatique de ces dictionnaires se basant sur une théorie originale : les Conditions de Structures Morphomatiques (CSM), et les matrices lexicales. Ce système rentre dans le cadre des deux projets MIRTO et OREILLODULE réalisés dans les deux laboratoires LIDILEM de Grenoble et UTIC Monastir de Tunisie
pdf
bib
abs
Analyse quantitative et qualitative de citations extraites d’un corpus journalistique
Fabien Poulard
Dans le contexte de la détection de plagiats, le repérage de citations et de ses constituants est primordial puisqu’il peut aider à évaluer le caractère licite ou illicite d’une reprise (source citée ou non). Nous proposons ici une étude quantitative et qualitative des citations extraites d’un corpus que nous avons auparavant construit. Cette étude a pour but de tracer des axes de recherche vers une méthode de repérage automatique des citations.
pdf
bib
abs
Une structure pour les questions enchainées
Kévin Séjourné
Nous présentons des travaux réalisés dans le domaine des systèmes de questions réponses (SQR) utilisant des questions enchainées. La recherche des documents dans un SQR est perturbée par l’absence d’informations sur la valeur à accorder aux éléments de texte éventuellement utiles à la recherche d’informations qui figurent dans les questions liées. Les récentes campagnes d’évaluation montrent que ce problème est sous-estimé, et n’a pas fait l’oeuvre de technique dédiée. Afin d’améliorer la recherche des documents dans un SQR nous étudions une nouvelle méthode pour organiser les informations liées aux interactions entre questions. Celle-ci se base sur l’exploitation d’une structure de données adaptée à la transmission des informations des questions liées jusqu’au moteur d’interrogation.
pdf
bib
abs
Vers une nouvelle approche de la correction grammaticale automatique
Agnès Souque
La correction grammaticale automatique du français est une fonctionnalité qui fait cruellement défaut à la communauté des utilisateurs de logiciels libres. Dans le but de combler cette lacune, nous avons travaillé à l’adaptation au français d’un outil initialement développé pour une langue étrangère. Ce travail nous a permis de montrer que les approches classiques du traitement automatique des langues utilisées dans le domaine ne sont pas appropriées. Pour y remédier, nous proposons de faire évoluer les formalismes des correcteurs en intégrant les principes linguistiques de la segmentation en chunks et de l’unification. Bien qu’efficace, cette évolution n’est pas suffisante pour obtenir un bon correcteur grammatical du français. Nous envisageons alors une nouvelle approche de la problématique.
pdf
bib
abs
Informations spatio-temporelles et objets touristiques dans des pages Web : repérage et annotation
Stéphanie Weiser
Cet article présente un projet de repérage, d’extraction et d’annotation d’informations temporelles, d’informations spatiales et d’objets touristiques dans des pages Web afin d’alimenter la base de connaissance d’un portail touristique. Nous portons une attention particulière aux différences qui distinguent le repérage d’information dans des pages Web du repérage d’informations dans des documents structurés. Après avoir introduit et classifié les différentes informations à extraire, nous nous intéressons à la façon de lier ces informations entre elles (par exemple apparier une information d’ouverture et un restaurant) et de les annoter. Nous présentons également le logiciel que nous avons réalisé afin d’effectuer cette opération d’annotation ainsi que les premiers résultats obtenus. Enfin, nous nous intéressons aux autres types de marques que l’on trouve dans les pages Web, les marques sémiotiques en particulier, dont l’analyse peut être utile à l’interprétation des pages.