Programme détaillé – présentations orales

Sessions orales TALN 2014 – Mercredi 2 Juillet
Créneau Session 1 Session 2
Local Amphi Sciences Nat. Amphi Physique
09h00-10h00 Session d’ouverture – Prix de thèse ATALA
Grand Amphi
10h00-10h30 pause café
10h30-12h30 Fouille de données et TAL
Chair : Vincent Claveau
Sémantique
Chair : Philippe Muller
10h30 – 11h00 O-RI.1 : Influence des marqueurs multi-polaires dépendant du domaine pour la fouille d’opinion au niveau du texte
Morgane Marchand, Olivier Mesnard, Romaric Besançon et Anne Vilnat
O-S1.1 : Utilisation de représentations de mots pour l’étiquetage de rôles sémantiques suivant FrameNet
William Léchelle et Philippe Langlais
11h00 – 11h30 O-RI.2 : Expressions différenciées des besoins informationnels en LN : construct de profils utilisateurs en fction tâches RI – ANNULÉ
Maryline Latour
O-S1.2 : Modélisation probabiliste interface syntaxe sémantique à l’aide de grammairess hors contexte probabilistes, expériences avec FrameNet
Olivier Michalon
11h30 – 12h00 O-RI.3 : Influence des domaines de spécialité dans l’extraction de termes-clés
Adrien Bougouin, Florian Boudin et Béatrice Daille
O-S1.3 : Traitement FrameNet des constructions à attribut de l’objet
Marianne Djemaa
12h00 – 12h30 O-RI.4 : Etiquetage en rôles événementiels fondé sur l’utilisation d’un modèle neuronal
Emanuela Boros, Romaric Besançon, Olivier Ferret et Brigitte Grau
O-S1.4 : Cross-lingual Word Sense Disambiguation for Predicate Labelling of French
Lonneke Van Der Plas et Marianna Apidianaki
12h30-14h00 repas
14h00-15h30 Parsing 1
Chair : Benoit Crabbé
Lexique 1
Chair : Nabil Hathout
14h00 – 14h30 O-P1.1 : Améliorer l’étiquetage de “que” par les descripteurs ciblés et les règles
Assaf Urieli
O-L1.1 : Principes de modélisation systémique des réseaux lexicaux
Alain Polguère
14h30 – 15h00 O-P1.2 : Jouer avec des analyseurs syntaxiques
Eric Villemonte De La Clergerie
O-L1.2 : Un modèle pour prédire la complexité lexicale et graduer les mots
Nuria Gala, Thomas François, Delphine Bernhard et Cédrick Fairon
15h00 – 15h30 O-L1.3 : Annotations et inférences de relations dans un réseau lexico-sémantique: Application à la radiologie
Lionel Ramadier, Manel Zarrouk, Mathieu Lafourcade et Antoine Micheau
15h30-16h00 pause café
16h00-17h30 Gestion des erreurs en TAL
Chair : Guillaume Wisniewski
Modèles Linguistiques
Chair : Éric de la Clergerie
16h00 – 16h30 O-E.1 : Correction automatique par résolution d’anaphores pronominales
Maud Pironneau, Éric Brunelle et Simon Charest
O-F.1 : Une évaluation approfondie de différentes méthodes de compositionalité sémantique
Antoine Bride, Tim Van de Cruys et Nicholas Asher
16h30 – 17h00 O-E.2 : Peut-on bien chunker avec de mauvaises étiquettes POS ?
Iris Eshkol, Isabelle Tellier, Yoann Dupont et Ilaine Wang
O-F.2 : Génération de textes : G-TAG revisité avec les Grammaires Catégorielles Abstraites
Laurence Danlos, Aleksandre Maskharashvili et Sylvain Pogodalla
17h00 – 17h30 O-E.3 : Normalisation de textes par analogie: le cas des mots inconnus
Marion Baranes et Benoît Sagot
O-F.3 : Les modèles de description du verbe dans les travaux de linguistique, terminologie et TAL
Wandji Tchami Ornella
18h00 Session en hommage à Jean Véronis
Grand Amphi
Sessions orales TALN 2014 – Jeudi 3 Juillet
Créneau Session 1 Session 2
Local Amphi Sciences Nat. Amphi Physique
10h00-12h00 Méthodes numériques pour le TAL
Chair : Isabelle Tellier
Lexique 2
Chair : Evelyne Jacquey
10h00 – 10h30 O-N1.1 : Apprentissage partiellement supervisé d’un étiqueteur morpho-syntaxique par transfert cross-lingue
Guillaume Wisniewski, Nicolas Pécheux, Elena Knyazeva, Alexandre Allauzen et François Yvon
O-L2.1 : La base lexicale Démonette : entre sémantique constructionnelle et morphologie dérivationnelle
Nabil Hathout et Fiammetta Namer
10h30 – 11h00 O-N1.2 : Réseau de neurones profond pour l’étiquetage morpho-syntaxique
Jérémie Tafforeau
O-L2.2 : Explorer le graphe de voisinage pour améliorer les thésaurus distributionnels
Vincent Claveau, Ewa Kijak et Olivier Ferret
11h00 – 11h30 O-N1.3 : Construire un corpus monolingue annoté comparable
Nicolas Hernandez
O-L2.3 : Réduction de la dispersion des données par généralisation des contextes distributionnels : application aux textes de spécialité
Amandine Périnet et Thierry Hamon
11h30 – 12h00 O-N1.4 : Vers une approche simplifiée pour introduire le caractère incrémental dans les systèmes de dialogue
Hatim Khouzaimi, Romain Laroche et Fabrice Lefevre
O-L2.4 : Extraction non supervisée de relations sémantiques lexicales
Juliette Conrath, Stergos Afantenos, Nicholas Asher et Philippe Muller
12h00-14h00 repas
14h00-15h30 Traduction automatique
Chair : Guy Lapalme
Traitement de corpus
Chair : Cécile Fabre
14h00 – 14h30 O-T.1 : Modèles de langue neuronaux: une comparaison de plusieurs stratégies d’apprentissage
Quoc-Khanh Do, Alexandre Allauzen et François Yvon
O-S2.1 : Étude quantitative des disfluences dans le discours de schizophrènes : automatiser pour limiter les biais
Maxime Amblard et Karën Fort
14h30 – 15h00 O-T.2 : Etude de l’impact de la translittération de noms propres sur la qualité de l’alignement de mots à partir de corpus parallèles français-arabe
Nasredine Semmar et Houda Saadane
O-S2.2 : Repérage et analyse de la reformulation paraphrastique dans les corpus oraux
Iris Eshkol-Taravella et Natalia Grabar
15h00 – 15h30 O-T.3 : Adaptation thématique pour la traduction automatique de dépêches de presse
Souhir Gahbiche-Braham, Hélène Bonneau-Maynard et François Yvon
O-S2.3 : Evaluation d’une approche possibiliste pour la désambiguïsation des textes arabes
Raja Ayed, Brahim Bounhas, Bilel Elayeb, Narjès Bellamine et Fabrice Evrard
15h30-16h00 pause café
16h00-17h30 Parsing 2
Chair : Guy Perrier
Lexique 3
Chair : Alain Polguère
16h00 – 16h30 O-P2.1 : Un analyseur discriminant de la famille LR pour l’analyse en constituants
Benoit Crabbé
O-L3.1 : Annotation sémantique et validation terminologique en texte intégral en SHS
Mokhtar-Boumeyden Billami, José Camacho-Collados, Evelyne Jacquey et Laurence Kister
16h30 – 17h00 O-P2.2 : Détection automatique de la structure organisationnelle de documents à partir de marqueurs visuels et lexicaux
Jean-Philippe Fauconnier, Laurent Sorin, Mouna Kamel, Mustapha Mojahid et Nathalie Aussenac-Gilles
O-L3.2 : Identification des noms sous-spécifiés, signaux de l’organisation discursive
Charlotte Roze, Thierry Charnois, Dominique Legallois, Stéphane Ferrari et Mathilde Salles
17h00 – 17h30 O-P2.3 : Jugement exact de grammaticalité d’arbre syntaxique probable
Jean-Philippe Prost
O-L3.3 : Extraction terminologique : vers la minimisation de ressources
Yuliya Korenchuk
20h00 Banquet maritime

Session Fouille de données et TAL

Mercredi 2 juillet, de 10h30 à 12h30, Amphi Sciences Nat.
Chair : Vincent Claveau

O-RI.1 : Influence des marqueurs multi-polaires dépendant du domaine pour la fouille d’opinion au niveau du texte

Morgane Marchand, Olivier Mesnard, Romaric Besançon et Anne Vilnat

Session  Fouille de données et TAL, 10h30 à 11h00

Résumé : Les méthodes de détection automatique de l’opinion dans des textes s’appuient sur l’association d’une polarité d’opinion aux mots des textes, par lexique ou par apprentissage. Or, Certains mots ont des polarités qui peuvent varier selon le domaine thématique du texte. Nous proposons dans cet article une étude des mots ou groupes de mots marqueurs d’opinion au niveau du texte et qui ont une polarité changeante en fonction du domaine. Les expériences, effectuées à la fois sur des corpus français et anglais, montrent que la prise en compte de ces marqueurs permet d’améliorer de manière significative la classification de l’opinion au niveau du texte lors de l’adaptation d’un domaine source à un domaine cible. Nous montrons également que ces marqueurs peuvent être utiles, de manière limitée, lorsque l’on est en présence d’un mélange de domaines. Si les domaines ne sont pas explicites, utiliser une séparation automatique des documents permet d’obtenir les mêmes améliorations.

O-RI.2 : Expressions différenciées des besoins informationnels en LN : construct de profils utilisateurs en fction tâches RI

Maryline Latour

Session  Fouille de données et TAL, 11h00 à 11h30

Résumé : Devant des collections massives et hétérogènes de données, les systèmes de RI doivent désormais pouvoir appréhender des comportements d’utilisateurs aussi variés qu’imprévisibles. L’objectif de notre approche est d’évaluer la façon dont un utilisateur verbalise un besoin informationnel à travers un énoncé de type « expression libre » ; appelé langage naturel (LN). Pour cela, nous nous situons dans un contexte applicatif, à savoir des demandes de remboursement des utilisateurs d’un moteur de recherche dédié à des études économiques en français. Nous avons recueilli via ce moteur, les demandes en LN sur 5 années consécutives totalisant un corpus de 1398 demandes. Nous avons alors comparé l’expression en tant que tel du besoin informationnel en fonction de la tâche de recherche d’informations (RI) de ’utilisateur.

O-RI.3 : Influence des domaines de spécialité dans l’extraction de termes-clés

Adrien Bougouin, Florian Boudin et Béatrice Daille

Session  Fouille de données et TAL, 11h30 à 12h00

Résumé : Les termes-clés sont les mots ou les expressions polylexicales qui représentent le contenu principal d’un document. Ils sont utiles pour diverses applications telles que l’indexation automatique ou le résumé automatique, mais ne sont pas toujours disponibles. De ce fait, nous nous intéressons à la tâche d’extraction automatique de termes-clés et, plus particulièrement, à la difficulté de cette tâche lors du traitement de documents appartenant à certaines disciplines scientifiques. Au moyen de cinq corpus représentant cinq disciplines différentes (Archéologie, Sciences de l’Information, Linguistique, Psychologie, Chimie), nous déduisons une échelle de difficulté disciplinaire et analysons les facteurs qui influent sur cette difficulté.

O-RI.4 : Etiquetage en rôles événementiels fondé sur l’utilisation d’un modèle neuronal

Emanuela Boros, Romaric Besançon, Olivier Ferret et Brigitte Grau

Session  Fouille de données et TAL, 12h00 à 12h30

Résumé : Les systèmes d’extraction d’information doivent faire face depuis toujours à une double difficulté : d’une part, ils souffrent d’une dépendance forte vis-à-vis du domaine pour lesquels ils ont été développés ; d’autre part, leur coût de développement pour un domaine donné est important. Le travail que nous présentons dans cet article se focalise sur la seconde problématique en proposant néanmoins une solution en relation avec la première. Plus précisément, il aborde la tâche d’étiquetage en rôles événementiels dans le cadre du remplissage de formulaire en proposant pour ce faire de s’appuyer sur un modèle de représentation distribuée de type neuronal. Ce modèle est appris à partir d’un corpus représentatif du domaine considéré sans nécessiter en amont l’utilisation de prétraitements linguistiques élaborés. Il fournit un espace de représentation permettant à un classifieur supervisé traditionnel de se dispenser de l’utilisation de traits complexes et variés (traits morphosyntaxiques, syntaxiques ou sémantiques). Par une série d’expérimentations menées sur le corpus de la campagne d’évaluation MUC-4, nous montrons en particulier que cette approche permet de dépasser les performances de l’état de l’art et que cette différence est d’autant plus importante que la taille du corpus d’entraînement est faible. Nous montrons également l’intérêt de l’adaptation de ce type de modèles pour un domaine donné par rapport à l’utilisation de représentations distribuées à usage générique.


Session Sémantique

Mercredi 2 juillet, de 10h30 à 12h30, Amphi Physique.
Chair : Philippe Muller

O-S1.1 : Utilisation de représentations de mots pour l’étiquetage de rôles sémantiques suivant FrameNet

William Léchelle et Philippe Langlais

Session  Sémantique, 10h30 à 11h00

Résumé : According to Frame Semantics (Fillmore 1976), words’ meaning are best understood considering the semantic frame they play a role in, for the frame is what gives them context. FrameNet defines about 1000 such semantic frames, along with the roles arguments can fill in this frame. Our task is to automatically label arguments’ roles, given their span, the frame, and the predicate, using maximum entropy models. We make use of distributed word representations to improve generalisation over the few training exemples available for each frame.

O-S1.2 : Modélisation probabiliste interface syntaxe sémantique à l’aide de grammairess hors contexte probabilistes, expériences avec FrameNet

Olivier Michalon

Session  Sémantique, 11h00 à 11h30

Résumé : Cet article présente une méthode générative de prédiction de la structure sémantique en cadres d’une phrase à partir de sa structure syntaxique et décrit les grammaires utilisées ainsi que leurs performances. Dès qu’un mot évoque un cadre sémantique selon la théorie FrameNet, un certain nombre de chemins syntaxiques de la phrase sont sélectionnés et le système génératif attribue à cet ensemble un cadre sémantique ainsi que des rôles. Bien que les résultats ne soient pas encore satisfaisants, cet analyseur permet de regrouper les tâches d’analyse sémantique, contrairement aux travaux précédemment publiés. De plus, il offre une nouvelle approche de l’analyse sémantique en cadres en s’attachant aux chemins syntaxiques, plutôt qu’aux mots de la phrase.

O-S1.3 : Traitement FrameNet des constructions à attribut de l’objet

Marianne Djemaa

Session  Sémantique, 11h30 à 12h00

Résumé : Dans le cadre du projet ASFALDA, qui comporte une phase d’annotation sémantique d’un FrameNet français, nous cherchons à fournir un traitement linguistiquement motivé des constructions à attribut de l’objet, un exemple typique de divergence syntaxe-sémantique. Pour ce faire, nous commençons par dresser un panorama des propriétés syntaxiques et sémantiques des constructions à attribut de l’objet. Nous étudions ensuite le traitement FrameNet des verbes anglais typiques de cette construction, avant de nous positionner pour un traitement homogénéisé dans le cas du FrameNet français.

O-S1.4 : Cross-lingual Word Sense Disambiguation for Predicate Labelling of French

Lonneke Van Der Plas et Marianna Apidianaki

Session  Sémantique, 12h00 à 12h30

Résumé : We address the problem of transferring semantic annotations, more specifically predicate labellings, using parallel corpora. Previous work has transferred these annotations directly at the token level, leading to low recall. We present a global approach to transfer that aggregates information across the whole parallel corpus. We show that global methods outperform previous results in terms of recall without sacrificing too much in precision.


Session Parsing 1

Mercredi 2 juillet, de 14h00 à 15h30, Amphi Sciences Nat.
Chair : Benoit Crabbé

O-P1.1 : Améliorer l’étiquetage de “que” par les descripteurs ciblés et les règles

Assaf Urieli

Session  Parsing 1, 14h00 à 14h30

Résumé : Les outils TAL statistiques robustes, et en particulier les étiqueteurs morphosyntaxiques, utilisent souvent des descripteurs “pauvres”, qui peuvent être appliqués facilement à n’importe quelle langue, mais qui ne regarde pas plus loin que 1 ou 2 tokens à droite et à gauche et ne prennent pas en compte des classes d’équivalence syntaxiques. Bien que l’étiquetage morphosyntaxique atteint des niveaux élevés d’exactitude (autour de 97 %), les 3 % d’erreurs qui subsistent induisent systématiquement une baisse de 3 % dans l’exactitude du parseur. Parmi les phénomènes les plus faciles à cibler à l’aide de l’injection de connaissances linguistiques plus riches sont les mots fonctionnels ambigus, tels que le mot “que” en français. Dans cette étude, nous cherchons à améliorer l’étiquetage morphosyntaxique de “que” par l’utilisation de descripteurs ciblés et riches lors de l’entraînement, et par l’utilisation de règles symboliques qui contournent le modèle statistique lors de l’analyse. Nous atteignons une réduction du taux d’erreur de 45 \% par les descripteurs riches, et de 55 \% si on ajoute des règles.

O-P1.2 : Jouer avec des analyseurs syntaxiques

Eric Villemonte De La Clergerie

Session  Parsing 1, 14h30 à 15h00

Résumé : Nous présentons dyalog-sr, un analyseur syntaxique statistique par dépendances développé dans le cadre de la tâche SPRML 2013 portant sur un jeu de 9 langues très différentes. L’analyseur dyalog-sr implémente un algorithme d’analyse par transition (à la MALT), étendu par utilisation de faisceaux et de techniques de programmation dynamique. Une des particularité de dyalog-sr provient de sa capacité à prendre en entrée des treillis de mots, utilisée lors de SPMRL13 pour traiter des treillis en Hébreu et reprise plus récemment sur des treillis produits par SxPipe pour le français. Disposant par ailleurs avec FRMG d’un analyseur alternatif pour le français, nous avons expérimenté un couplage avec dyalog-sr, nous permettant ainsi d’obtenir les meilleurs résultats obtenus à ce jour sur le French TreeBank.


Session Lexique 1

Mercredi 2 juillet, de 14h00 à 15h30, Amphi Physique.
Chair : Nabil Hathout

O-L1.1 : Principes de modélisation systémique des réseaux lexicaux

Alain Polguère

Session  Lexique 1, 14h00 à 14h30

Résumé : Nous présentons une approche de la construction manuelle des ressources lexicales à large couverture fondée sur le recours à un type particulier de réseau lexical appelé « système lexical ». En nous appuyant sur l’expérience acquise dans le cadre de la construction du Réseau Lexical du Français (RL-fr), nous offrons tout d’abord une caractérisation formelle des systèmes lexicaux en tant que graphes d’unités lexicales de type « petits mondes » principalement organisés à partir du système des fonctions lexicales Sens-Texte. Nous apportons ensuite des arguments pour justifier la pertinence du modèle proposé, tant du point de vue théorique qu’applicatif.

O-L1.2 : Un modèle pour prédire la complexité lexicale et graduer les mots

Nuria Gala, Thomas François, Delphine Bernhard et Cédrick Fairon

Session  Lexique 1, 14h30 à 15h00

Résumé : Analyser la complexité lexicale est une tâche qui, depuis toujours, a principalement retenu l’attention de psycholinguistes et enseignants de langues. Plus récemment, la question a fait l’objet d’un intérêt grandissant dans le traitement automatique des langues (TAL) et, en particulier, en simplification automatique de textes. Dans ce domaine, le but est d’identifier des termes et des structures difficiles à comprendre par un public cible et de proposer des outils de simplification automatisée de ces contenus. Dans cet article, nous décrivons un ensemble de variables intralexicales et statistiques que nous avons évaluées lors de différentes analyses corrélationnelles. Les meilleures d’entre elles ont été intégrées dans un modèle capable de prédire la difficulté lexicale, dans le cadre de textes pour apprenants du français.

O-L1.3 : Annotations et inférences de relations dans un réseau lexico-sémantique: Application à la radiologie

Lionel Ramadier, Manel Zarrouk, Mathieu Lafourcade et Antoine Micheau

Session  Lexique 1, 15h00 à 15h30

Résumé : Les ontologies spécifiques à un domaine ont une valeur inestimable malgré les nombreux défis liés à leur développement.Dans la plupart des cas, les bases de connaissances spécifiques à un domaine sont construites avec une portée limitée. En effet, elles ne prennent pas en compte les avantages qu’il pourrait y avoir à combiner une ontologie de spécialité à une ontologie générale. En outre, la plupart des ressources existantes manque de méta-information sur la force d’association (les poids), les annotations(informations fréquentielles : de fréquent à rare ; ou des informations de pertinence : pertinent, non pertinent et inférable)). Nous présentons dans cet article un réseau lexical dédié à la radiologie construit sur un réseau lexical généraliste (JeuxDeMots). Ce réseau combine poids et annotations sur des relations typées entre des termes et des concepts, un mécanisme d’inférence et de réconciliation dans le but d’améliorer la qualité et la couverture du réseau. Nous étendons ce mécanisme afin de prendre en compte non seulement les relations mais aussi les annotations. Nous décrivons comment les annotations améliorent le réseau en imposant de nouvelles contraintes spécialement celles basées sur la connaissance médicale. Nous présentons par la suite des résultats préliminaires.


Session Gestion des erreurs en TAL

Mercredi 2 juillet, de 16h00 à 17h30, Amphi Sciences Nat.
Chair : Guillaume Wisniewski

O-E.1 : Correction automatique par résolution d’anaphores pronominales

Maud Pironneau, Éric Brunelle et Simon Charest

Session  Gestion des erreurs en TAL, 16h00 à 16h30

Résumé : Cet article décrit des travaux réalisés dans le cadre du développement du correcteur automatique d’un logiciel commercial d’aide à la correction du français. Nous voulons corriger des erreurs uniquement détectables lorsque l’antécédent de certains pronoms est identifié. Nous décrivons un algorithme de résolution des anaphores pronominales intra- et interphrastiques s’appuyant peu sur la correspondance de la morphologie, puisque celle-ci est possiblement erronée, mais plutôt sur des informations robustes comme l’analyse syntaxique fine et des cooccurrences fiables. Nous donnons un aperçu de nos résultats sur un vaste corpus de textes réels et, tout en tentant d’identifier des critères décisifs, nous montrons que certains types de corrections anaphoriques sont d’une précision respectable.

O-E.2 : Peut-on bien chunker avec de mauvaises étiquettes POS ?

Iris Eshkol, Isabelle Tellier, Yoann Dupont et Ilaine Wang

Session  Gestion des erreurs en TAL, 16h30 à 17h00

Résumé : Dans cet article, nous testons deux approches distinctes pour chunker un corpus oral transcrit, en cherchant à minimiser l’étape de correction de l’étiquetage en POS. Nous ré-utilisons tout d’abord un chunker appris sur des données écrites, puis nous tentons de ré-apprendre un chunker spécifique de l’oral à partir de données annotées et corrigées manuellement. L’objectif est d’atteindre les meilleurs résultats possibles pour le chunker en se passant autant que possible de la correction manuelle des étiquettes POS, trop couteuse. La méthodologie choisie est donc guidée par un principe d’économie. Notre travail montre qu’il est possible d’apprendre un nouveau chunker performant pour l’oral à partir d’un corpus de référence annoté de petite taille, sans correction manuelle des étiquettes POS.

O-E.3 : Normalisation de textes par analogie: le cas des mots inconnus

Marion Baranes et Benoît Sagot

Session  Gestion des erreurs en TAL, 17h00 à 17h30

Résumé : Dans cet article, nous proposons et évaluons un système permettant d’améliorer la qualité d’un texte bruité notamment par des erreurs orthographiques. Ce système a vocation à être intégré à une architecture complète d’extraction d’information, et a pour objectif d’améliorer les résultats d’une telle tâche. Pour chaque mot qui est inconnu d’un lexique de référence et qui n’est ni une entité nommée ni une création lexicale, notre système cherche à proposer une ou plusieurs normalisations possibles (une normalisation valide étant un mot connu dont le lemme est le même que celui de la forme orthographiquement correcte). Pour ce faire, ce système utilise des techniques de correction automatique lexicale par règle qui reposent sur un système d’induction de règles par analogie.


Session Modèles Linguistiques

Mercredi 2 juillet, de 16h00 à 17h30, Amphi Physique.
Chair : Éric de la Clergerie

O-F.1 : Une évaluation approfondie de différentes méthodes de compositionalité sémantique

Antoine Bride, Tim Van de Cruys et Nicholas Asher

Session  Modèles Linguistiques, 16h00 à 16h30

Résumé : Au cours des deux dernières décennies, de nombreux algorithmes ont été développés pour capturer avec succès la sémantique des mots simples en regardant leur répartition dans un grand corpus, et en comparant ces distributions dans un modèle d’espace vectoriel. En revanche, il n’est pas trivial de combiner les objets algébriques de la sémantique distributionnelle pour arriver à une dérivation d’un contenu pour des expressions complexes, composées de plusieurs mots. Notre contribution a deux buts. Le premier est d’établir une large base de comparaison pour les méthodes de composition pour le cas adjectif-nom. Cette base nous permet d’évaluer en profondeur la performance des différentes méthodes de composition. Notre second but est la proposition d’une nouvelle méthode de composition, qui est une généralisation de la méthode de Baroni et Zamparelli. La performance de notre nouvelle méthode est également évaluée sur notre ensemble de test.

O-F.2 : Génération de textes : G-TAG revisité avec les Grammaires Catégorielles Abstraites

Laurence Danlos, Aleksandre Maskharashvili et Sylvain Pogodalla

Session  Modèles Linguistiques, 16h30 à 17h00

Résumé : G-TAG est un formalisme dédié à la génération de textes. Il s’appuie sur les Grammaires d’Arbres Adjoints (TAG) qu’il étend avec des notions propres permettant de construire une forme de surface à partir d’une représentation conceptuelle. Cette représentation conceptuelle est indépendante de la langue, et le formalisme G-TAG a été conçu pour la mise en œuvre de la synthèse dans une langue cible à partir de cette représentation. L’objectif de cet article est d’étudier G-TAG et les notions propres que ce formalisme introduit par le biais des Grammaires Catégorielles Abstraites (ACG) en exploitant leurs propriétés de réversibilité intrinsèque et leur propriété d’encodage des TAG. Nous montrons que les notions clefs d’arbre de g-dérivation et de lexicalisation en G-TAG s’expriment naturellement en ACG. La construction des formes de surface peut alors utiliser les algorithmes généraux associés aux ACG et certaines constructions absentes de G-TAG peuvent être prises en compte sans modification supplémentaire.

O-F.3 : Les modèles de description du verbe dans les travaux de linguistique, terminologie et TAL

Wandji Tchami Ornella

Session  Modèles Linguistiques, 17h00 à 17h30

Résumé : Dans le cadre de notre projet de recherche, qui a pour but l’implémentation d’un outil de simplification des emplois spécialisés de verbes dans des corpus médicaux à partir de l’analyse syntaxico-sémantique de ces verbes en contexte, nous proposons une analyse de quelques approches et travaux qui ont pour objet principal la description du verbe dans les trois domaines à l’interface desquels se situe notre travail : linguistique, TAL et terminographie. Nous décrivons plus particulièrement les travaux qui peuvent avoir une incidence sur notre étude. Cet état de l’art nous permet de mieux connaître le cadre théorique dans lequel s’intègre notre projet de recherche et d’avoir les repères et références nécéssaires pour sa réalisation


Session Méthodes numériques pour le TAL

Jeudi 3 juillet, de 10h00 à 12h00, Amphi Sciences Nat.
Chair : Isabelle Tellier

O-N1.1 : Apprentissage partiellement supervisé d’un étiqueteur morpho-syntaxique par transfert cross-lingue

Guillaume Wisniewski, Nicolas Pécheux, Elena Knyazeva, Alexandre Allauzen et François Yvon

Session  Méthodes numériques pour le TAL, 10h00 à 10h30

Résumé : Les méthodes de transfert cross-lingue permettent partiellement de pallier l’absence de corpus annotés,en particulier dans le cas de langues peu dotées en ressources linguistiques. Le transfert d’étiquettes morpho-syntaxiques depuis une langue riche en ressources, complété et corrigé par un dictionnaire associant à chaque mot un ensemble d’étiquettes autorisées, ne fournit cependant qu’une information de supervision incomplète. Dans ce travail, nous reformulons ce problème dans le cadre de l’apprentissage ambigu et proposons une nouvelle méthode pour apprendre un analyseur de manière faiblement supervisée à partir d’un modèle à base d’historique. L’évaluation de cette approche montre une amélioration sensible des performances par rapport aux méthodes de l’état de l’art pour trois langues sur quatre considérées, avec des gains jusqu’à 3,9% absolus ou 35.8% relatifs.

O-N1.2 : Réseau de neurones profond pour l’étiquetage morpho-syntaxique

Jérémie Tafforeau

Session  Méthodes numériques pour le TAL, 10h30 à 11h00

Résumé : L’analyse syntaxique et sémantique de langages non-canoniques est principalement limitée par l’absence de corpus annotés. Il est donc primordial de mettre au point des systèmes robustes capables d’allier références canoniques et non-canoniques. Les méthodes exploitant la théorie des réseaux de neurones profonds ont prouvé leur efficacité dans des domaines tels que l’imagerie ou les traitements acoustiques. Nous proposons une architecture de réseau de neurones appliquée au traitement automatique des langages naturels, et plus particulièrement à l’étiquetage morpho-syntaxique. De plus, plutôt que d’extraire des représentations empiriques d’une phrase pour les injecter dans un algorithme de classification, nous nous inspirons de récents travaux portant sur l’extraction automatique de représentations vectorielles des mots à partir de corpus non-annotés. Nous souhaitons ainsi tirer profit des propriétés de linéarité et de compositionnalité de tels plongements afin d’améliorer les performances de notre système.

O-N1.3 : Construire un corpus monolingue annoté comparable

Nicolas Hernandez

Session  Méthodes numériques pour le TAL, 11h00 à 11h30

Résumé : Motivé par la problématique de construction automatique d’un corpus annoté morpho-syntaxiquement distinct d’un corpus source, nous proposons une définition générale et opérationnelle de la relation de la comparabilité entre des corpus monolingues annotés. Cette définition se veut indépendante du domaine applicatif. Nous proposons une mesure de la relation de comparabilité et une procédure de construction d’un corpus comparable. Enfin nous étudions la possibilité d’utiliser la mesure de la perplexité définie dans la théorie de l’information comme moyen de prioriser les phrases à sélectionner pour construire un corpus comparable. Nous montrons que cette mesure joue un rôle mais qu’elle n’est pas suffisante.

O-N1.4 : Vers une approche simplifiée pour introduire le caractère incrémental dans les systèmes de dialogue

Hatim Khouzaimi, Romain Laroche et Fabrice Lefevre

Session  Méthodes numériques pour le TAL, 11h30 à 12h00

Résumé : Le dialogue incrémental est au coeur de la recherche actuelle dans le domaine des systèmes de dialogue. Plusieurs architectures et modèles ont été publiés comme (Allen et al., 2001; Schlangen & Skantze, 2011). Ces approches ont permis de comprendre différentes facettes du dialogue incrémental, cependant, les implémenter nécessite de repartir de zéro car elles sont fondamentalement différentes des architectures qui existent dans les systèmes de dialogue actuels. Notre approche se démarque par sa réutilisation de l’existant pour tendre vers une nouvelle génération de systèmes de dialogue qui ont un comportement incrémental mais dont le fonctionnement interne est basé sur les principes du dialogue traditionnel. Ce papier propose d’intercaler un module, appelé Scheduler, entre le service et le client. Ce Scheduler se charge de la gestion des événements asynchrones, de manière à reproduire le comportement des systèmes incrémentaux vu du client. Le service, de son côté, ne se comporte pas de manière incrémentale.


Session Lexique 2

Jeudi 3 juillet, de 10h00 à 12h00, Amphi Physique.
Chair : Evelyne Jacquey

O-L2.1 : La base lexicale Démonette : entre sémantique constructionnelle et morphologie dérivationnelle

Nabil Hathout et Fiammetta Namer

Session  Lexique 2, 10h00 à 10h30

Résumé : Démonette est une base de données lexicale pour le français dont les sommets (entrées lexicales) et les arcs (relations morphologiques entre les sommets) sont annotés au moyen d’informations morpho-sémantiques. Elle résulte d’une conception originale intégrant deux approches radicalement opposées : Morphonette, une ressource basée sur les analogies dérivationnelles, et DériF, un analyseur à base de règles linguistiques. Pour autant, Démonette n’est pas la simple fusion de deux ressources pré-existantes : cette base possède une architecture compatible avec l’approche lexématique de la morphologie ; son contenu peut être étendu au moyen de données issues de sources diverses. L’article présente le modèle Démonette et le contenu de sa version actuelle : 31 204 verbes, noms de procès, noms d’agent, et adjectifs de propriété dont les liens morphologiques donnent à voir des définitions bi-orientées entre ascendants et entre lexèmes en relation indirecte. Nous proposons enfin une évaluation de Démonette qui comparée à Verbaction obtient un score de 84 % en rappel et de 90% en précision.

O-L2.2 : Explorer le graphe de voisinage pour améliorer les thésaurus distributionnels

Vincent Claveau, Ewa Kijak et Olivier Ferret

Session  Lexique 2, 10h30 à 11h00

Résumé : Dans cet article, nous abordons le problème de construction et d’amélioration de thésaurus distributionnels. Nous montrons d’une part que les outils de recherche d’information peuvent être directement utilisés pour la construction de ces thésaurus, en offrant des performances comparables à l’état de l’art. Nous nous intéressons d’autre part plus spécifiquement à l’amélioration des thésaurus obtenus, vus comme des graphes de plus proches voisins. En tirant parti de certaines des informations de voisinage contenues dans ces graphe nous proposons plusieurs contributions. 1) Nous montrons comment améliorer globalement les listes de voisins en prenant en compte la réciprocité de la relation de voisinage, c’est-à-dire le fait qu’un mot soit un voisin proche d’un autre et vice-versa. 2) Nous proposons également une méthode permettant d’associer à chaque liste de voisins (i.e. à chaque entrées du thésaurus construit) un score de confiance. 3) Enfin, nous montrons comment utiliser ce score de confiance pour réordonner les listes de voisins les plus proches. Ces différentes contributions sont validées expérimentalement et offrent des améliorations significatives sur l’état de l’art.

O-L2.3 : Réduction de la dispersion des données par généralisation des contextes distributionnels : application aux textes de spécialité

Amandine Périnet et Thierry Hamon

Session  Lexique 2, 11h00 à 11h30

Résumé : Les modèles d’espace vectoriels mettant en œuvre l’analyse distributionnelle s’appuient sur la redondance d’informations se trouvant dans le contexte des mots à associer. Cependant, ces modèles souffrent du nombre de dimensions considérable et de la dispersion des données dans la matrice des vecteurs de contexte. Il s’agit d’un enjeu majeur sur les corpus de spécialité pour lesquels la taille est beaucoup plus petite et les informations contextuelles moins redondantes. Nous nous intéressons au problème de la dispersion des données sur des corpus de spécialité et proposons une méthode permettant de densifier la matrice en généralisant les contextes distributionnels. L’évaluation de la méthode sur un corpus médical en français montre qu’avec une petite fenêtre graphique et l’indice de Jaccard, la généralisation des contextes avec les patrons lexico-syntaxiques permet d’améliorer les résultats, alors avec une large fenêtre et le cosinus, il est préférable de généraliser avec l’inclusion lexicale.

O-L2.4 : Extraction non supervisée de relations sémantiques lexicales

Juliette Conrath, Stergos Afantenos, Nicholas Asher et Philippe Muller

Session  Lexique 2, 11h30 à 12h00

Résumé : Nous présentons une base de connaissances comportant des triplets de paires de verbes associés avec une relation sémantique/discursive, extraits du corpus français frWaC par une méthode s’appuyant sur la présence d’un connecteur discursif reliant deux verbes. Nous détaillons plusieurs mesures visant à évaluer la pertinence des triplets et la force d’association entre la relation sémantique/discursive et la paire de verbes. L’évaluation intrinsèque est réalisée par rapport à des annotations manuelles. Une évaluation de la couverture de la ressource est également réalisée par rapport au corpus Annodis annoté discursivement. Cette étude produit des résultats prometteurs démontrant l’utilité potentielle de notre ressource pour les tâches d’analyse discursive mais aussi des tâches de nature sémantique.


Session Traduction automatique

Jeudi 3 juillet, de 14h00 à 15h30, Amphi Sciences Nat.
Chair : Guy Lapalme

O-T.1 : Modèles de langue neuronaux: une comparaison de plusieurs stratégies d’apprentissage

Quoc-Khanh Do, Alexandre Allauzen et François Yvon

Session  Traduction automatique, 14h00 à 14h30

Résumé : Alors que l’importance des modèles neuronaux dans le domaine du traitement automatique des langues ne cesse de croître, les difficultés de leur apprentissage freinent leur diffusion dans la communauté. Cet article étudie plusieurs stratégies, dont deux sont originales, pour estimer des modèles de langue, en se focalisant sur l’ajustement du pas d’apprentissage. Les résultats expérimentaux montrent d’une part l’importance que revêt la conception de cette stratégie, et d’autre part qu’en choisissant une stratégie appropriée, il est possible d’apprendre efficacement des modèles de langue donnant des résultats état de l’art tant en terme de perplexité qu’en terme de score BLEU, lorsque ce modèle est inclus dans un système de traduction automatique statistique.

O-T.2 : Etude de l’impact de la translittération de noms propres sur la qualité de l’alignement de mots à partir de corpus parallèles français-arabe

Nasredine Semmar et Houda Saadane

Session  Traduction automatique, 14h30 à 15h00

Résumé : Les lexiques bilingues jouent un rôle important en recherche d’information interlingue et en traduction automatique. La construction manuelle de ces lexiques est lente et coûteuse. Les techniques d’alignement de mots sont généralement utilisées pour automatiser le processus de construction de ces lexiques à partir de corpus de textes parallèles. L’alignement de formes simples et de syntagmes nominaux à partir de corpus parallèles est une tâche relativement bien maîtrisée pour les langues à écriture latine, mais demeure une opération complexe pour l’appariement de textes n’utilisant pas la même écriture. Dans la perspective d’utiliser la translittération de noms propres de l’arabe vers l’écriture latine en alignement de mots et d’étudier son impact sur la qualité d’un lexique bilingue français-arabe construit automatiquement, cet article présente, d’une part, un système de translittération de noms propres de l’arabe vers l’écriture latine, et d’autre part, un outil d’alignement de mots simples et composés à partir de corpus de textes parallèles français-arabe. Le lexique bilingue produit par l’outil d’alignement de mots intégrant la translittération a été évalué en utilisant deux approches : une évaluation de la qualité d’alignement à l’aide d’un alignement de référence construit manuellement et une évaluation de l’impact de ce lexique bilingue sur la qualité de traduction du système de traduction automatique statistique Moses. Les résultats obtenus montrent que la translittération améliore aussi bien la qualité de l’alignement de mots que celle de la traduction.

O-T.3 : Adaptation thématique pour la traduction automatique de dépêches de presse

Souhir Gahbiche-Braham, Hélène Bonneau-Maynard et François Yvon

Session  Traduction automatique, 15h00 à 15h30

Résumé : L’utilisation de méthodes statistiques en traduction automatique (TA) implique l’exploitation de gros corpus parallèles représentatifs de la tâche de traduction visée. La relative rareté de ces ressources fait que la question de l’adaptation au domaine est une problématique centrale en TA. Dans cet article, une étude portant sur l’adaptation thématique des données journalistiques issues d’une même source est proposée. Dans notre approche, chaque phrase d’un document est traduite avec le système de traduction approprié (c.-à-d. spécifique au thème dominant dans la phrase). Deux scénarios de traduction sont étudiés : (a) une classification manuelle, reposant sur la codification IPTC ; (b) une classification automatique. Nos expériences montrent que le scénario (b) conduit à des meilleures performances (à l’aune des métriques automatiques), que le scénario (a). L’approche la meilleure pour la métrique BLEU semble toutefois consister à ne pas réaliser d’adaptation ; on observe toutefois qu’adapter permet de lever certaines ambiguïtés sémantiques.


Session Traitement de corpus

Jeudi 3 juillet, de 14h00 à 15h30, Amphi Physique.
Chair : Cécile Fabre

O-S2.1 : Étude quantitative des disfluences dans le discours de schizophrènes : automatiser pour limiter les biais

Maxime Amblard et Karën Fort

Session  Traitement de corpus, 14h00 à 14h30

Résumé : Nous présentons dans cet article les résultats d’expériences que nous avons menées concernant les disfluences dans le discours de patients schizophrènes (en remédiation). Ces expériences ont eu lieu dans le cadre d’une étude plus large recouvrant d’autres niveaux d’analyse linguistique, qui devraient aider à l’identification d’indices linguistiques conduisant au diagnostic de schizophrénie. Cette étude fait la part belle aux outils de traitement automatique des langues qui permettent le traitement rapide de grandes masses de données textuelles (ici, plus de 375 000 mots). La première phase de l’étude, que nous présentons ici, a confirmé la corrélation entre l’état schizophrène et le nombre de disfluences présentes dans le discours.

O-S2.2 : Repérage et analyse de la reformulation paraphrastique dans les corpus oraux

Iris Eshkol-Taravella et Natalia Grabar

Session  Traitement de corpus, 14h30 à 15h00

Résumé : Nous proposons d’exploiter les corpus oraux et les marqueurs de reformulation paraphrastique pour la détection de paraphrases. Le travail est basé sur une approche syntagmatique. L’annotation manuelle effectuée par deux annotateurs permet d’obtenir une description fine et multidimensionnelle des données de référence. La méthode automatique est proposée afin de décider si les énoncés comportent ou ne comportent pas des reformulations paraphrastiques. Les résultats obtenus montrent jusqu’à 66,4 % de précision. L’analyse de l’annotation manuelle indique qu’il existe peu de segments paraphrastiques avec des modifications morphologiques (flexion, dérivation ou composition) et que l’équivalence syntaxique entre les segments en relation de paraphrase n’est que rarement respectée.

O-S2.3 : Evaluation d’une approche possibiliste pour la désambiguïsation des textes arabes

Raja Ayed, Brahim Bounhas, Bilel Elayeb, Narjès Bellamine et Fabrice Evrard

Session  Traitement de corpus, 15h00 à 15h30

Résumé : La désambiguïsation morphologique d’un mot arabe consiste à identifier l’analyse morphologique appropriée correspondante à ce mot. Dans cet article, nous présentons trois modèles de désambiguïsation morphologique de textes arabes non voyellés basés sur la classification possibiliste. Cette approche traite les données imprécises dans les phases d’apprentissage et de test, étant donné que notre modèle apprend à partir de données non étiquetés. Nous testons notre approche sur deux corpus, à savoir le corpus du Hadith et le Treebank Arabe. Ces corpus contiennent des données de types différents classiques et modernes. Nous comparons nos modèles avec des classifieurs probabilistes et statistiques. Pour ce faire, nous transformons la structure des ensembles d’apprentissage et de test pour remédier au problème d’imperfection des données.


Session Parsing 2

Jeudi 3 juillet, de 16h00 à 17h30, Amphi Sciences Nat.
Chair : Guy Perrier

O-P2.1 : Un analyseur discriminant de la famille LR pour l’analyse en constituants

Benoit Crabbé

Session  Parsing 2, 16h00 à 16h30

Résumé : On propose un algorithme original d’analyse syntaxique déterministe en constituants pour le langage naturel inspiré de LR (Knuth, 1965). L’algorithme s’appuie sur un modèle d’apprentissage discriminant pour réaliser la désambiguisation (Collins, 2002). On montre que le modèle discriminant permet de capturer plus finement de l’information morphologique présente dans les données, ce qui lui permet d’obtenir des résultats état de l’art en temps comme en exactitude pour l’analyse syntaxique du français.

O-P2.2 : Détection automatique de la structure organisationnelle de documents à partir de marqueurs visuels et lexicaux

Jean-Philippe Fauconnier, Laurent Sorin, Mouna Kamel, Mustapha Mojahid et Nathalie Aussenac-Gilles

Session  Parsing 2, 16h30 à 17h00

Résumé : La compréhension d’un texte s’opère à travers les niveaux d’information visuelle, logique et discursive, et leurs relations d’interdépendance. La majorité des travaux ayant étudié ces relations a été menée dans le cadre de la génération de textes, où les propriétés visuelles sont inférées à partir des éléments logiques et discursifs. Les travaux présentés ici adoptent une démarche inverse en proposant de générer automatiquement la structure organisationnelle du texte (structure logique) à partir de sa forme visuelle. Le principe consiste à (i) labelliser des blocs visuels par apprentissage afin d’obtenir des unités logiques et (ii) relier ces unités par des relations de coordination ou de subordination pour construire un arbre. Pour ces deux tâches, des Champs Aléatoires Conditionnels et un Maximum d’Entropie sont respectivement utilisés. Après apprentissage, les résultats aboutissent à une exactitude de 80,46% pour la labellisation et 97,23% pour la construction de l’arbre.

O-P2.3 : Jugement exact de grammaticalité d’arbre syntaxique probable

Jean-Philippe Prost

Session  Parsing 2, 17h00 à 17h30

Résumé : La robustesse de l’analyse probabiliste s’obtient généralement au détriment du jugement de grammaticalité sur la phrase analysée. Les analyseurs comme le Standford Parser, ou les Reranking Parsers ne sont, en effet, pas capables de dissocier une analyse probable grammaticale d’une analyse probable erronée, et ce qu’elle porte sur une phrase elle-même grammaticale ou non. Dans cet article nous montrons que l’adoption d’une représentation syntaxique basée sur la théorie logique des modèles, accompagnée d’une structure syntaxique classique (par exemple de type syntagmatique), est de nature à permettre la résolution exacte de différents problèmes tels que celui du jugement de grammaticalité. Afin de démontrer la praticité et l’utilité d’une alliance entre symbolique et stochastique, nous nous appuyons sur une représentation de la syntaxe par modèles, ainsi que sur une grammaire de corpus, pour présenter une méthode de résolution exacte pour le jugement de grammaticalité d’un arbre syntagmatique probable. Nous présentons des résultats expérimentaux sur des arbres issus d’un analyseur probabiliste, qui corroborent l’intérêt d’une telle alliance.


Session Lexique 3

Jeudi 3 juillet, de 16h00 à 17h30, Amphi Physique.
Chair : Alain Polguère

O-L3.1 : Annotation sémantique et validation terminologique en texte intégral en SHS

Mokhtar-Boumeyden Billami, José Camacho-Collados, Evelyne Jacquey et Laurence Kister

Session  Lexique 3, 16h00 à 16h30

Résumé : Nos travaux se focalisent sur la validation d’occurrences de candidats termes en contexte. Les contextes d’occurrences proviennent d’articles scientifiques des sciences du langage issus du corpus SCIENTEXT. Les candidats termes sont identifiés par l’extracteur automatique de termes de la plate-forme TTC-TermSuite et leurs occurrences sont ensuite projetées dans les textes. La problématique générale de cet article est d’étudier dans quelle mesure les contextes sont à même de fournir des critères linguistiques pertinents pour valider ou rejeter chaque occurrence de candidat terme selon qu’elle relève d’un usage terminologique en sciences du langage ou non (langue générale, transdisciplinaire, autre domaine scientifique). Pour répondre à cette question, nous comparons deux méthodes d’exploitation (l’une inspirée de la textometrie et l’autre de Lesk) avec des contextes d’occurrences du même corpus annoté manuellement et mesurons si une annotation sémantique des contextes améliore l’exactitude des choix réalisés automatiquement.

O-L3.2 : Identification des noms sous-spécifiés, signaux de l’organisation discursive

Charlotte Roze, Thierry Charnois, Dominique Legallois, Stéphane Ferrari et Mathilde Salles

Session  Lexique 3, 16h30 à 17h00

Résumé : Dans cet article, nous nous intéressons aux noms sous-spécifiés, qui forment une classe d’indices de l’organisation discursive. Ces indices ont été peu étudiés dans le cadre de l’analyse du discours et en traitement automatique des langues. L’objectif est d’effectuer une étude linguistique de leur participation à la structuration discursive, notamment lorsqu’ils interviennent dans des séquences organisationnelles fréquentes (e.g. le patron Problème-Solution). Dans cet article, nous présentons les différentes étapes mises en oeuvre pour identifier automatiquement ces noms en corpus. En premier lieu, nous détaillons la construction d’un lexique de noms sous-spécifiés pour le français à partir d’un corpus constitué de 7 années du journal Le Monde. Puis nous montrons comment utiliser des techniques fondées sur la fouille de données séquentielles pour acquérir de nouvelles constructions syntaxiques caractéristiques des emplois de noms sous-spécifiés. Enfin, nous présentons une méthode d’identification automatique des occurrences de noms sous-spécifiés et son évaluation.

O-L3.3 : Extraction terminologique : vers la minimisation de ressources

Yuliya Korenchuk

Session  Lexique 3, 17h00 à 17h30

Résumé : Cet article présente une méthode ayant pour objectif de minimiser l’apport extérieur nécessaire à la tâche de l’extraction terminologique et de rendre cette tâche moins dépendante à la langue. Pour cela, la méthode prévoit des ressources morphologiques et morphosyntaxiques simplifiées construites directement à partir d’un corpus lemmatisé. Ces ressources endogènes servent à la création d’un système de filtres qui affinent les calculs statistiques et à la génération de patrons pour l’identification de candidats termes poly-lexicaux. La méthode a été testée sur deux corpus comparables en chimie et en télécommunication en français et en anglais. La précision observée sur les premiers 100 candidats termes mono-lexicaux fluctue entre 87% et 71% pour le français et entre 69% et 42% en anglais ; celle des candidats termes poly-lexicaux s’élève à 78-69% en français et 85-69% en anglais en fonction du domaine.