Programme détaillé – Posters

Posters 1

Vendredi 4 juillet, de 9h30 à 11h30, Patio


P-T.1 : Traduction automatisée d’une oeuvre littéraire: une étude pilote

Laurent Besacier

Posters 1, Traduction

Résumé : Les techniques actuelles de traduction automatique (TA) permettent de produire des traductions dont la qualité ne cesse de croitre. Dans des domaines spécifiques, la post-édition (PE) de traductions automatiques permet, par ailleurs, d’obtenir des traductions de qualité relativement rapidement. Mais un tel pipeline (TA+PE) est il envisageable pour traduire une oeuvre littéraire ? Cet article propose une ébauche de réponse à cette question. Une nouvelle de l’auteur américain Richard Powers, encore non disponible en français, est traduite automatiquement puis post-éditée et révisée par des traducteurs non-professionnels. La plateforme de post-édition du LabZZZ utilisée permet de lire et éditer la nou- velle traduite en français continuellement, suggérant une communauté de lecteurs-réviseurs qui améliorent en continu les traductions de leur auteur favori. En plus de la présentation des résultats d’évaluation expérimentale du pipeline TA+PE (système de TA utilisé, scores automatiques), nous discutons également la qualité de la traduction produite du point de vue d’un panel de lecteurs (ayant lu la nouvelle traduite en français, puis répondu à une enquête). Enfin, quelques remarques du traducteur français de R. Powers, sollicité à cette occasion, sont présentées à la fin de cet article.

P-T.2 : Vers un développement plus efficace des systèmes de traduction statistique : un peu de vert dans un monde de BLEU

Li Gong, Aurélien Max et François Yvon

Posters 1, Traduction

Résumé : Dans cet article, nous montrons comment l’utilisation conjointe d’une technique d’alignement de phrases parallèles à la demande et d’estimation de modèles de traduction à la volée permet une réduction en temps très notable (jusqu’à 93% dans nos expériences) par rapport à un système à l’état de l’art, tout en offrant un compromis en termes de qualité très intéressant dans certaines configurations. En particulier, l’exploitation immédiate de documents traduits permet de compenser très rapidement l’absence d’un corpus de développement.

P-T.3 : On-going Cooperative Research towards Developing Economy-Oriented Chinese-French SMT Systems with a New SMT Framework

Yidong Chen, Lingxiao Wang, Christian Boitet et Xiaodong Shi

Posters 1, Traduction

Résumé : We present an on-going collaborative project pursued by Grenoble University and Xiamen University and aiming at creating instances of a new kind of SMT system using semantics and discourse-related resources. The concrete goal is to develop Chinese-French systems specialized to stock option and economic websites. Since very few Chinese-French bilingual corpora and dictionaries are freely available on Internet, English is used as a “pivot” for constructing the Chinese-French translation equivalents by transitivity. For this, we use a method, proposed by XMU, of probability induction based on topic similarity, which produces C-F translation tables from C-E and E-F translation tables. For getting good C-F parallel corpora, we use a web-based collaborative post-editing system that can trigger the incremental improvement of the MT system by using MT evaluation metrics and extracting the “best part” of the current translation memory.

P-T.4 : Interaction homme-machine en domaine large à l’aide du LN : une amorce par le mapping

Vincent Letard

Posters 1, Traduction

Résumé : Cet article présente le problème de l’association entre énoncés en langage naturel exprimant des instructions opérationnelles et leurs expressions équivalentes et langage formel. Nous l’appliquons au cas du français et du langage R. Développer un assistant opérationnel apprenant, qui constitue notre objectif à long terme, requiert des moyens pour l’entraîner et l’évaluer, c’est-à-dire un système initial capable d’interagir avec l’utilisateur. Après avoir introduit la ligne directrice de ce travail, nous proposons un modèle pour représenter le problème et discutons de l’adéquation des méthodes par mise en correspondance, ou mapping, à notre tâche. Pour finir, nous montrons que, malgré des scores modestes, une approche simple semble suffisante pour amorcer un tel système interactif apprenant.

P-L1.1 : Extraction automatique de termes combinant différentes informations: linguistique, statistique et Web

Juan Antonio Lossio Ventura, Clement Jonquet, Mathieu Roche et Maguelonne Teisseire

Posters 1, Lexique 1

Résumé : Dans une communauté, la terminologie est essentielle car elle permet de décrire, échanger et récupérer les données. Dans de nombreux domaines, l’explosion du volume des données textuelles nécessite de recourir à une automatisation du processus d’extraction ou d’enrichissement de la terminologie. L’extraction automatique de termes se base sur le traitement du langage naturel. Des méthodes, proposées dans la littérature, qui prennent en compte les aspects linguistiques et statistiques résolvent plusieurs problèmes liés à l’extraction de termes tels que la faible fréquence, la complexité d’extraction de termes de plusieurs mots, ou l’effort humain pour valider les termes candidats. Dans ce contexte, nous proposons deux nouvelles mesures pour l’extraction et le classement des termes de plusieurs mots à partir des corpus spécifiques d’un domaine. En outre, nous montrons comment l’utilisation du Web pour évaluer l’importance d’un terme candidat permet d’améliorer les résultats en terme de précision. Ces expérimentations sont réalisées sur le corpus biomédical GENIA en utilisant des mesures de la littérature telles que C-value.

P-L1.2 : Analyse automatique d’espaces thématiques

Gilles Boyé et Anna Kupsc

Posters 1, Lexique 1

Résumé : Basé sur les calculs d’entropie conditionnelle de (Bonami & Boyé, à paraître), nous proposons un analyseur automatique de la flexion dans le cadre de la morphologie thématique qui produit le graphe de régularités du paradigme. Le traitement se base sur un lexique de 6440 verbes extraits du BDLex (de Calmès & Pérennou, 1998) associés à leurs fréquences dans Lexique3 (Boris et al., 2001). L’algorithme se compose de trois éléments : calcul de l’entropie conditionnelle entre paires de formes fléchies, distillation des paradigmes, construction du graphe de régularités. Pour l’entropie, nous utilisons deux modes de calcul différents, l’un se base sur la distribution de l’effectif des verbes entre leurs différentes options, l’autre sur la distribution des lexèmes verbaux en fonction de leurs fréquences pour contrebalancer l’influence des verbes ultra-fréquents sur les calculs.

P-L1.3 : Extraction et représentation des constructions à verbe support en espagnol

Sandra Castellanos

Posters 1, Lexique 1

Résumé : Le traitement informatique de constructions à verbe support (prendre une photo, faire une présentation) est une tâche difficile en TAL. Cela est également vrai en espagnol, où ces constructions sont fréquentes dans les textes, mais ne font pas souvent partie des lexiques exploitables par une machine. Notre objectif est d’extraire des constructions à verbe support à partir d’un très grand corpus de l’espagnol. Nous peaufinons un ensemble de motifs morpho-syntaxiques fondés sur un grand nombre de verbe support possibles. Ensuite, nous filtrons cette liste en utilisant des seuils et des mesures d’association. Bien que tout à fait classique, cette méthode permet l’extraction de nombreuses expressions de bonne qualité. À l’avenir, nous souhaitons étudier les représentations sémantiques de ces constructions dans des lexiques multilingues.

P-L1.4 : Sous-catégorisation en “pour” et syntaxe lexicale

Benoît Sagot, Laurence Danlos et Margot Colinet

Posters 1, Lexique 1

Résumé : La sous-catégorisation d’arguments introduits par la préposition “pour” a été sous-étudiée par le passé, comme en témoigne l’incomplétude des ressources lexico-syntaxiques existantes sur ce point. Dans cet article, nous présentons rapidement les différents types de sous-catégorisation en “pour”, qui contrastent avec les emplois de “pour” comme connecteur de discours. Nous décrivons l’intégration des arguments en “pour” au lexique Lefff, enrichissant ainsi les informations de sous-catégorisation de nombreuses entrées verbales, nominales, adjectivales et adverbiales.

P-L1.5 : Regroupement de structures de dérivations lexicales par raisonnement analogique

Sandrine Ollinger

Posters 1, Lexique 1

Résumé : Cet article propose une méthode de regroupement de structures de dérivations lexicales par raisonnement analogique. Nous présentons les caractéristiques générales d’un graphe lexical issu du Réseau Lexical du Français, dont nous exploitons par la suite les composantes faiblement connexes. Ces composantes sont regroupées en trois étapes : par isomorphisme, par similarité de relations, puis par similarité d’attributs. Les résultats du dernier regroupement sont analysés en détail.

P-Et1.1 : Étiquetage morpho-syntaxique pour des mots nouveaux

Ingrid Falk, Delphine Bernhard, Christophe Gérard et Romain Potier-Ferry

Posters 1, Étiquetage 1

Résumé : Les outils d’étiquetage automatique sont plus ou moins robustes en ce qui concerne l’étiquetage de mots inconnus, non rencontrés dans le corpus d’apprentissage. Il est important de connaître de manière précise la performance de ces outils lorsqu’on cible plus particulièrement l’étiquetage de néologismes formels. En effet, la catégorie grammaticale constitue un critère important à la fois pour leur identification et leur documentation. Nous présentons une évaluation et une comparaison de 7 étiqueteurs morphosyntaxiques du français, à partir d’un corpus issu du Wiktionnaire. Les résultats montrent que l’utilisation de traits de forme ou morphologiques est favorable à l’étiquetage correct des mots nouveaux. Part-of-speech (POS) taggers are more or less robust with respect to the labeling of unknown words not found in the training corpus. It is important to know precisely how these tools perfom when we target part-of-speech tagging for formal neologisms. Indeed, grammatical category is an important criterion for both their identification and documentation. We present an evaluation and comparison of 7 POS taggers for French, based on a corpus built from Wiktionary. The results show that the use of form-related or morphological features supports the accurate tagging of new words.

P-Et1.2 : Méthodes de lissage d’une approche morpho-statistique pour la voyellation automatique des textes arabes

Amine Chennoufi et Azzeddine Mazroui

Posters 1, Étiquetage 1

Résumé : We present in this work a new approach for the Automatic diacritization for Arabic texts using three stages. During the first phase, we integrated a lexical database containing the most frequent words of Arabic with morphological analysis by Alkhalil Morpho Sys which provided possible diacritization for each word. The objective of the second module is to eliminate the ambiguity using a statistical approach in which the learning phase was performed on a corpus composed by several Arabic books. This approach uses the hidden Markov models (HMM) with Arabic unvowelized words taken as observed states and vowelized words are considered as hidden states. The system uses smoothing techniques to circumvent the problem of unseen word transitions in the corpus and the Viterbi algorithm to select the optimal solution. The third step uses a HMM model based on the characters to deal with the case of unanalyzed words.

P-Et1.3 : De la quenelle culinaire à la quenelle politique : identification de changements sémantiques à l’aide des Topic Models.

Ingrid Falk, Delphine Bernhard et Christophe Gérard

Posters 1, Étiquetage 1

Résumé : Dans cet article nous employons le topic modeling pour explorer des chemins vers la détection automatique d’apparition de nouveaux sens pour des mots connus. Nous appliquons les méthodes introduites dans Lau et al. 2012 et Lau et al. 2014 à un cas de néologie sémantique récent, l’apparition du nouveau sens de geste pour le mot “quenelle”. Nos expériences mettent en évidence le potentiel de cette approche par exemple pour l’apprentissage des sens du mot, l’alignement des topics à des sens de dictionnaire et en fin la détection de nouveaux sens. In this study we explore topic modeling for the automatic detection of new senses of known words. We apply methods developed in previous work for English (Lau et al. 2012, Lau et al. 2014) on a recent case of new word sens induction in French, namely the appearence of the new meaning of gesture for the word “quenelle”. Our experiments illustrate the potential of this approach at learning word senses, aligning the topics with dictionary senses and finally at detecting the new sens.

P-Et1.4 : Détection et correction automatique d’entités nommées dans des corpus OCRisés

Benoît Sagot et Kata Gábor

Posters 1, Étiquetage 1

Résumé : La correction de données textuelles obtenues par reconnaissance optique de caractères (OCR) pour atteindre une qualité éditoriale reste aujourd’hui une tâche coûteuse, car elle implique toujours une intervention humaine. Si la détection et la correction automatique d’erreurs à l’aide de modèles statistiques (modèles de langage et modèles d’erreurs) est de plus en plus utilisée, elle ne permet de traiter de façon utile à une telle tâche que les erreurs relevant de la langue générale. C’est pourtant dans certains types d’entités nommées que résident les erreurs les plus nombreuses, surtout dans des données telles que des corpus de brevets (formules chimiques) ou des textes juridiques (identifiants de jurisprudence). Dans cet article, nous proposons une architecture d’identification et de correction par règles d’un large éventail d’entités nommées (non compris les noms propres). Nous l’évaluons grâce à des corpus d’écarts qui contiennent des sorties d’OCR et le résultat de leur correction par des opérateurs humains, alignés au niveau des phrases. Nous montrons que notre architecture permet d’atteindre un bon rappel et une excellente précision en correction, ce qui permet de traiter des fautes difficiles à traiter par les approches statistiques usuelles.

P-S1.1 : Identification automatique de zones dans des documents pour la constitution d’un corpus médical en français

Louise Deleger et Aurélie Névéol

Posters 1, Traitement de corpus 1

Résumé : De nombreuses informations cliniques sont contenues dans le texte des dossiers électroniques de patients et ne sont pas directement accessibles à des fins de traitement automatique. Pour pallier cela, nous préparons un large corpus annoté de documents cliniques. Une première étape de ce travail consiste à séparer le contenu médical des documents et les informations administratives contenues dans les en-têtes et pieds de page. Nous présentons un système d’identification automatique de zones dans les documents cliniques qui offre une F-mesure de 0,97, équivalente à l’accord inter-annoteur de 0,98. Notre étude montre que le contenu médical ne représente que 60% du contenu total de notre corpus, ce qui justifie la nécessité d’une segmentation en zones. Le travail d’annotation en cours porte sur les sections médicales identifiées.

P-S1.2 : Analyse argumentative du corpus de l’ACL (ACL Anthology)

Elisa Omodei, Yufan Guo, Jean-Philippe Cointet et Thierry Poibeau

Posters 1, Traitement de corpus 1

Résumé : Cet article présente un essai d’application de l’analyse argumentative (text zoning) à l’ACL Anthology. Il s’agit ainsi de mieux caractériser le contenu des articles du domaine de la linguistique informatique afin de pouvoir en faire une analyse fine par la suite. Nous montrons que des technique récentes d’analyse argumentative fondées sur l’apprentissage faiblement supervisé permettent d’obtenir de bons résultats.

P-S1.3 : Détection de périodes musicales d’une collection de musique par apprentissage

Rémy Kessler, Nicolas Béchet, Audrey Laplante et Dominic Forest

Posters 1, Traitement de corpus 1

Résumé : Dans ces travaux, nous présentons une approche afin d’étiqueter une large collection de chansons francophones. Nous avons développé par la suite, une interface utilisant les paroles comme point d’entrée afin d’explorer cette collection de musique avec des filtres en fonction de chaque période musicales. Dans un premier temps, nous avons collecté paroles et métadonnées de sources sur le Web. Nous présentons dans cet article une méthode originale permettant d’attribuer de manière automatique une décennie musicale à une partie de notre collection. Basée sur un système évalué au cours d’une des campagnes DEFT, l’approche combine fouille de textes et apprentissage supervisé. Nous avons par la suite enrichi le modèle d’un certain nombre de traits supplémentaires tels que les tags sociaux afin d’observer leur influence sur les résultats.

P-S1.4 : AMesure: une plateforme de lisibilité pour les textes administratifs

Thomas Francois, Laetitia Brouwers, Hubert Naets et Cédrick Fairon

Posters 1, Traitement de corpus 1

Résumé : Cet article présente une plateforme dédiée à l’évaluation de la difficulté des textes administratifs, dans un but d’aide à la rédaction. La plateforme propose d’une part une formule de lisibilité spécialisée pour les textes administratifs, dont la conception repose sur une nouvelle méthode d’annotation. Le modèle classe correctement 58% des textes sur une échelle à 5 niveaux et ne commet d’erreurs graves que dans 9% des cas. La plateforme propose d’autre part un diagnostic plus précis des difficultés spécifiques d’un texte, sous la forme d’indicateurs numériques, mais aussi d’une localisation de ces difficultés directement dans le document.

P-Se.1 : Décomposition des « hash tags » pour l’amélioration de la classification en polarité des « tweets »

Caroline Brun et Claude Roux

Posters 1, Sentiments

Résumé : Les « hash tags » ou « hash tags » sont le moyen naturel de lier entre eux différents tweets. Certains « hash tags » sont en fait de petites phrases dont la décomposition peut se révéler particulièrement utile lors d’une analyse d’opinion des tweets. Nous allons montrer dans cet article comment l’on peut automatiser cette décomposition et cette analyse de façon à améliorer la détection de la polarité des tweets.

P-Se.2 : Modélisation des questions de l’agent pour l’analyse des affects, jugements et appréciations de l’utilisateur dans les interactions humain-agent

Caroline Langlet et Chloé Clavel

Posters 1, Sentiments

Résumé : Cet article aborde la question des expressions d’attitudes (affects, jugements, appréciations) chez l’utilisateur dans le cadre d’échanges avec un agent virtuel. Il propose une méthode pour l’analyse des réponses à des questions fermées destinées à interroger les attitudes de l’utilisateur. Cette méthode s’appuie sur une formalisation des questions de l’agent – sous la forme d’une fiche linguistique – et sur une analyse de la réponse de l’utilisateur, pour créer un modèle utilisateur. La fiche linguistique de l’agent est structurée par un ensemble d’attributs relatifs, d’une part, à l’attitude à laquelle réfère la question, d’autre part, à sa forme morphosyntaxique. L’analyse de la réponse, quant à elle, repose sur un ensemble de règles sémantiques et syntaxiques définies par une grammaire formelle. A partir des résultats fournis par cette analyse et des informations contenues dans la fiche linguistique de l’agent, des calculs sémantiques sont effectués pour définir la valeur de la réponse et construire le modèle utilisateur.

P-Ou.1 : KNG: un outil pour l’écriture facile de cascades de transducteurs

Francois Barthelemy

Posters 1, Outils

Résumé : Cet article présente une bibliothèque python appelée KNG permettant d’écrire facilement des automates et transducteurs finis. Grâce à une gestion soigneuse des codages et des entrées-sorties, cette bibliothèque permet de réaliser une cascade de transducteurs au moyen de tubes unix reliant des scripts python.

P-Ou.2 : Comparaison de deux outils d’analyse de corpus japonais pour l’aide au linguiste, Sagace et Mecab

Blin Raoul

Posters 1, Outils

Résumé : L’objectif est de comparer deux outils d’analyse de corpus de textes bruts pour l’aide à la recherche en linguistique japonaise. Les deux outils représentent chacun une approche spécifique. Le premier, Sagace, recherche un patron sans prise en compte de son environnement. Le second, un dispositif à base de Mecab, recherche les patrons après analyse morphologique complète des phrases. Nous comparons les performances en temps et en précision. Il ressort de cette analyse que les performances de Sagace sont globalement un peu inférieures à celles des dispositifs à base de Mecab, mais qu’elles restent tout à fait honorables voire meilleures pour certaines tâches.

P-Ou.3 : Un concordancier multi-niveaux et multimédia pour des corpus oraux

Giulia Barreca et George Christodoulides

Posters 1, Outils

Résumé : Les concordanciers jouent depuis longtemps un rôle important dans l’analyse des corpus linguistiques, tout comme dans les domaines de la philologie, de la littérature, de la traduction et de l’enseignement des langues. Toutefois, il existe peu de concordanciers qui soient capables d’associer des annotations à plusieurs niveaux et synchronisées avec le signal sonore. L’essor des grands corpus de français parlé introduit une augmentation des exigences au niveau de la performance. Dans ce travail à caractère préliminaire, nous avons développé un prototype de concordancier multi-niveaux et multimédia, que nous avons testé sur le corpus de français parlé du projet Phonologie du Français Contemporain (PFC, 1,5 million de tokens de transcription alignée au niveau de l’énoncé). L’outil permet non seulement d’enrichir les résultats des concordances grâce aux données relevant de plusieurs couches d’annotation du corpus (annotation morphosyntaxique, lemme, codage de la liaison, codage du schwa etc.), mais aussi d’élargir les modalités d’accès au corpus.


Posters 2

Vendredi 4 juillet, de 14h00 à 16h00, Patio


P-Et2.1 : Simulation de l’apprentissage des contextes nominaux/verbaux par n-grammes

Perrine Brusini, Pascal Amsili, Emmanuel Chemla et Anne Christophe

Posters 2, Étiquetage 2

Résumé : On présente une étude d’apprentissage visant à montrer que les contextes locaux dans un corpus de parole adressée aux enfants peuvent être exploités, avec des méthodes statistiques simples, pour prédire la catégorie (nominale vs. verbale) d’un mot inconnu. Le modèle présenté, basé sur la mémorisation de n-grammes et sur une « graine sémantique » (un petit nombre de noms et verbes supposés connus et catégorisés) exhibe une excellente précision à toutes les tailles de graine sémantique, et un rappel plus faible, qui croît avec la taille de la graine sémantique. Les résultats montrent que les contextes les plus utilisés sont ceux qui contiennent des mots fonctionnels. Cette étude de faisabilité démontre que les très jeunes enfants pourraient exploiter les contextes de mots inconnus pour prédire leur catégorie syntaxique.

P-Et2.2 : Impact de la nature et de la taille des corpus d’apprentissage sur les performances dans la détection automatique des entités nommées

Anaïs Ollagnier, Sébastien Fournier, Patrice Bellot et Frédéric Béchet

Posters 2, Étiquetage 2

Résumé : Nous présentons une ́etude comparative sur l’impact de la nature et de la taille des corpus d’apprentissage sur les performances dans la détection automatique des entités nommées. Cette ́evaluation se présente sous la forme de multiples modulations de trois corpus français. Deux des corpus sont issus du catalogue des ressources linguistiques d’ELRA et le troisième est composé de documents extraits de la plateforme OpenEdition.org.

P-Et2.3 : RENAM: Système de Reconnaissance des Entités Nommées Amazighes

Meryem Talha, Siham Boulaknadel et Driss Aboutajdine

Posters 2, Étiquetage 2

Résumé : La reconnaissance des Entités Nommées (REN) en langue amazighe est un prétraitement potentiellement utile pour de nombreuses applications du traitement de la langue amazighe. Cette tâche représente toutefois un sévère challenge, compte tenu des particularités de cette langue. Dans cet article, nous présentons le premier système d’extraction d’entités nommées amazighes (RENAM) fondé sur une approche symbolique qui utilise le principe de transducteur à états finis disponible sous la plateforme GATE.

P-LS.1 : Grammaire récursive non linéaire pour les langues des signes

Michael Filhol

Posters 2, Langue des signes

Résumé : Cet article propose une approche pour la formalisation de grammaires pour les langues des signes, rendant compte de leurs particularités linguistiques. Comparable aux grammaires génératives en termes de récursivité productive, le système présente des propriétés nouvelles comme la multi-linéarité permettant la spécification simultanée des articulateurs. Basé sur l’analyse des liens entre formes produites/observées et fonctions linguistiques au sens large, on observe un décloisonnement des niveaux traditionnels de construction de la langue, inhérent à la méthodologie employée. Nous présentons un ensemble de règles trouvées suivant la démarche présentée et concluons avec une perspective intéressante en traduction automatique vers la langue des signes.

P-LS.2 : Vers un traitement automatique en soutien d’une linguistique exploratoire des LS

Rémi Dubot, Arturo Curiel et Christophe Collet

Posters 2, Langue des signes

Résumé : Les langues des signes sont les langues naturelles utilisées dans les communautés sourdes. Elles ont suscitées, ces dernières années, de l’intérêt dans le domaine du traitement automatique des langues naturelles. Néanmoins, il y a un manque général de données de terrain homogènes. Notre réflexion porte sur les moyens de soutenir la maturation des modèles linguistiques avant d’entamer un large effort d’annotation. Cet article présente des pré-requis pour la réalisation d’outils s’inscrivant dans cette démarche. L’exposé est illustré avec deux outils développés pour les langues des signes : le premier utilise une logique adaptée pour la représentation de modèles phonologique et le second utilise des grammaires formelles pour la représentation de modèles syntaxiques.

P-LS.3 : Une description des structures de la durée en LSF à partir d’une grammaire formelle

Hadajdj Mohamed

Posters 2, Langue des signes

Résumé : Dans cet article, nous abordons la problématique du fonctionnement de la temporalité en langue des signes française (LSF). Nous allons étudier plus particulièrement quelques structures portant sur la durée. Nous présenterons dans un premier temps les descriptions existantes du système aspecto-temporel de la LSF et les difficultés que nous trouvons pour modéliser ces travaux. Le but de cet article est de proposer une grammaire formelle qui prend en compte le fonctionnement de la LSF et qui peut faire l’objet d’un traitement de modélisation. Notre démarche consiste à étudier un corpus LSF pour établir des liens de fonction à forme afin d’obtenir des règles de grammaire qu’on peut générer dans un projet de synthèse à l’aide d’un signeur avatar.

P-R.1 : Méthodes par extraction pour le résumé automatique de conversations parlées provenant de centres d’appel

Jérémy Trione

Posters 2, Résumé automatique

Résumé : Dans ce papier nous traitons des résumés automatiques de conversations parlées spontanées. Pour cela nous utilisons des conversations provenant de cas réels d’appels téléphoniques de centre d’appel issu du corpus DECODA. Nous testons des méthodes extractives classiques utilisées en résumé de texte (MMR) ainsi que des méthodes basées sur des heuristiques du dialogue dans le cadre des centres d’appels. Il s’agit de la sélection du tour de parole le plus long dans le premier quart de la conversation, dans l’ensemble de la conversation et dans le dernier quart de la conversation. L’ensemble est évalué avec le logiciel ROUGE. Les résultats montrent que les méthodes heuristiques basées sur la structure de la conversation donnent les meilleurs résultats. Cependant des méthodes abstractives doivent être mises en place pour compléter cette étude.

P-R.2 : Résumé Automatique Multilingue Expérimentations sur l’Anglais, l’Arabe et le Français

Houda Oufaida, Omar Nouali et Philippe Blache

Posters 2, Résumé automatique

Résumé : La tâche du résumé multilingue vise à concevoir des systèmes de résumé très peu dépendants de la langue. L’approche par extraction est au cœur de ces systèmes, elle permet à l’aide de méthodes statistiques de sélectionner les phrases les plus pertinentes dans la limite de la taille du résumé. Dans cet article, nous proposons une approche de résumé multilingue, elle extrait les phrases dont les termes sont des plus discriminants. De plus, nous étudions l’impact des différents traitements linguistiques de base : le découpage en phrases, l’analyse lexicale, le filtrage des mots vides et la racinisation sur la couverture ainsi que la notation des phrases. Nous évaluons les performances de notre approche dans un contexte multilingue : l’Anglais, l’Arabe et le Français en utilisant le jeu de données TAC MultiLing 2011.

P-R.3 : Porting a Summarizer to the French Language

Rémi Bois, Johannes Leveling, Lorraine Goeuriot, Gareth Jones et Liadh Kelly

Posters 2, Résumé automatique

Résumé : We describe the porting of the English language REZIME text summarizer to the French language. REZIME is a single-document summarizer particularly focused on summarization of medical documents. Summaries are created by extracing key sentences from the original document. The sentence selection employs machine learning techniques, using statistical, syntactic and lexical features which are computed based on specialized language resources. The REZIME system was initially developed for English documents. In this paper we present the summarizer architecture, and describe the steps required to adapt it to the French language. The summarizer performance is evaluated for English and French datasets. Results show that the adaptation to French results in a system performance comparable to English.

P-C.1 : Extraction de données orales multi-annotées

Brigitte Bigi et Tatsuya Watanabe

Posters 2, Corpus

Résumé : Cet article aborde le problème de l’extraction de données orales multi-annotées : nous proposons une solution intermédiaire, entre d’une part les systèmes de requêtages très évolués mais qui nécessitent des données structurées, d’autre part les données (multi-)annotées des utilisateurs qui sont hétérogènes. Notre proposition s’appuie sur 2 fonctions principales : une fonction booléenne pour filtrer sur le contenu, et une fonction de relation qui implémente l’algèbre de Allen. Le principal avantage de cette approche réside dans sa généricité : le fonctionnement sera identique que les annotations proviennent de Praat, Transcriber, Elan ou tout autre logiciel d’annotation. De plus, deux niveaux d’utilisation ont été développés : une interface graphique qui ne nécessite aucune compétence ou connaissance spécifique de la part de l’utilisateur, et un interrogation par scripts en langage Python. L’approche a été implémentée dans le logiciel SPPAS, distribué sous licence GPL.

P-C.2 : Annotation de la temporalité en corpus : contribution à l’amélioration de la norme TimeML

Anaïs Lefeuvre, Jean-Yves Antoine, Agata Savary, Emmanuel Schang, Lotfi Abouda, Denis Maurel et Iris Eshkol

Posters 2, Corpus

Résumé : Cet article propose une analyse critique de la norme TimeML à la lumière de l’expérience d’annotation temporelle d’un corpus de français parlé. Il montre que certaines adaptations de la norme seraient conseillées pour répondre aux besoins du TAL et des sciences du langage. Sont étudiées ici les questions de séparation des niveaux d’annotation, de délimitation des éventualités dans le texte et de l’ajout d’une relation temporelle de type associative.

P-C.3 : Évaluation d’un système d’extraction de réponses multiples sur le Web par comparaison à des humains

Mathieu-Henri Falco, Véronique Moriceau et Anne Vilnat

Posters 2, Corpus

Résumé : Dans cet article, nous proposons une évaluation dans un cadre utilisateur de Pomme, un système de question-réponse en français capable d’extraire des réponses à des questions à réponses multiples (questions possédant plusieurs réponses correctes différentes) en domaine ouvert à partir de documents provenant du Web. Nous présentons ici le protocole expérimental et les résultats pour nos deux expériences utilisateurs qui visent à (1) comparer les performances de Pomme par rapport à celles d’un être humain pour la tâche d’extraction de réponses multiples et (2) connaître la satisfaction d’un utilisateur devant différents formats de présentation de réponses.

P-C.4 : Un schéma d’annotation en dépendances syntaxiques profondes pour le français

Guy Perrier, Marie Candito, Bruno Guillaume, Corentin Ribeyre, Karën Fort et Djamé Seddah

Posters 2, Corpus

Résumé : À partir du schéma d’annotation en dépendances syntaxiques de surface du corpus Sequoia, nous proposons un schéma en dépendances syntaxiques profondes qui en est une abstraction exprimant les relations grammaticales entre mots sémantiquement pleins. Quand ces relations grammaticales sont partie prenante de diathèses verbales, ces diathèses sont vues comme le résultat de redistributions à partir d’une diathèse canonique et c’est cette dernière qui est retenue dans notre schéma d’annotation syntaxique profonde.

P-S2.1 : Centrality Measures for Non-Contextual Graph-Based Unsupervised Single Document Keyword Extraction

Natalie Schluter

Posters 2, Traitement de corpus 2

Résumé : The manner in which keywords fulfill the role of being central to a document is frustratingly still an open question. In this paper, we hope to shed some light on the essence of keywords in scientific articles and thereby motivate the graph-based approach to keyword extraction. We identify the document model captured by the text graph generated as input to a number of centrality metrics, and overview what these metrics say about keywords. In doing so, we achieve state-of-the-art results in unsupervised non-contextual single document keyword extraction.

P-S2.2 : Identification des exemples définitoires en corpus comparable

Hmida Firas

Posters 2, Traitement de corpus 2

Résumé : Dans les études s’intéressant à la traduction assistée par ordinateur (TAO), l’un des objectifs consiste à repérer les passages qui focalisent l’attention des traducteurs humains. Ces passages sont considérés comme étant des contextes “riches en connaissances”, car ils aident à la traduction. Certains contextes textuels ne donnent qu’une simple attestation d’un terme recherché, même s’ils le renferment. Ils ne fournissent pas d’informations qui permettent de saisir sa signification. D’autres, en revanche, contiennent des fragments de définitions, mentionnent une variante terminologique ou utilisent d’autres notions facilitant la compréhension du terme. Ce travail s’intéresse aux « contextes définitoires » qui sont utiles à l’acquisition de connaissances à partir de textes, en particulier dans la perspective de traduction terminologique assistée par ordinateur à partir de corpus comparables. En effet, l’association d’un exemple à un terme permet d’en appréhender le sens exact. Nous proposons, tout d’abord, trois hypothèses définissant la notion d’exemple définitoire. Ensuite nous évaluons sa validité grâce une méthode s’appuyant sur les Contextes Riches en Connaissances (CRC) ainsi que les relations hiérarchiques reliant les termes entre eux.

P-S2.3 : Induction d’une grammaire de propriétés à granularité variable à partir du treebank arabe ATB

Raja Bensalem & Marwa Elkarwi

Posters 2, Traitement de corpus 2

Résumé : Dans cet article, nous présentons une démarche pour l’induction d’une grammaire de propriétés (GP) arabe en utilisant le treebank ATB. Cette démarche se base sur deux principales étapes : (1) l’induction d’une grammaire hors contexte et (2) l’induction d’une GP par la génération automatique des relations qui peuvent exister entre les unités grammaticales décrites dans la CFG. Le produit obtenu constitue une ressource ouvrant de nouvelles perspectives pour la description et le traitement de la langue arabe.

P-L2.1 : Intégration relationnelle des exemples lexicographiques dans un réseau lexical

Veronika Lux-Pogodalla

Posters 2, Lexique 2

Résumé : Nous présentons un ensemble d’exemples lexicographiques intégré dans le Réseau Lexical du Français et explorons son intérêt potentiel en tant que corpus annoté pour la recherche en désambiguisation sémantique automatique.

P-L2.2 : Les couleurs des gens

Mathieu Lafourcade, Nathalie Le Brun et Virginie Zampa

Posters 2, Lexique 2

Résumé : En TAL et plus particulièrement en analyse sémantique, les informations sur la couleur peuvent être importantes pour traiter correctement des informations textuelles (sens des mots, désambiguïsation et indexation). Plus généralement, connaître la ou les couleurs habituellement associée(s) à un terme est une information cruciale. Dans cet article, nous montrons comment le crowdsourcing, à travers un jeu, peut être une bonne stratégie pour collecter ces données lexico-sémantiques.

P-L2.3 : Induction de sens pour enrichir des ressources lexicales

Mohammad Nasiruddin, Didier Schwab, Andon Tchechmedjiev, Gilles Serasset et Hervé Blanchon

Posters 2, Lexique 2

Résumé : En traitement automatique des langues, les ressources lexico-sémantiques ont été incluses dans un grand nombre d’applications. La création manuelle de telles ressources est consommatrice de temps humain et leur couverture limitée ne permet pas toujours de couvrir les besoins des applications. Ce problème est encore plus important pour les langues moins dotées que le français ou l’anglais. L’induction de sens présente dans ce cadre une piste intéressante. À partir d’un corpus de texte, il s’agit d’inférer les sens possibles pour chacun des mots qui le composent. Nous étudions dans cet article une approche basée sur une représentation vectorielle pour chaque occurrence d’un mot correspondant à ses voisins. À partir de cette représentation, construite sur un corpus en bengali, nous comparons plusieurs approches de clustering (k-moyennes, clustering hiérarchique et espérance-maximisation) des occurrences d’un mot pour déterminer les différents sens qu’il peut prendre. Nous comparons nos résultats au bangla WordNet ainsi qu’à une référence établie pour l’occasion et montrons que cette méthode permet de trouver des sens qui ne s’y trouvent pas.

P-L2.4 : Un dictionnaire et une grammaire de composés français

François Trouilleux

Posters 2, Lexique 2

Résumé : L’article présente deux ressources pour le TAL, distribuées sous licence GPL : un dictionnaire de mots composés français et une grammaire NooJ spécifiant un sous-ensemble des schémas de composés.