Revue de sociolinguistique
en ligne

GLOTTOPOL

GLOTTOPOL

GLOTTOPOL

GLOTTOPOL

GLOTTOPOL

 

Université de Rouen

Laboratoire Dysola


N°8
Juillet 2006



Sommaire





   glottopol@gmail.com

 

ISSN : 1769-7425

 
  


Traitements automatisés des corpus spécialisés  : contextes et sens


Présentation

Sommaire

Téléchargement des articles
Résumés des articles
Comité de lecture

 


Présentation par Myriam Mortchev-Bouveret

Un numéro intitulé "traitements automatisés des corpus spécialisés : contextes et sens" peut surprendre les lecteurs de la revue Glottopol consacrée habituellement à la sociolinguistique. Il n'est en effet pas question ici de sociolinguistique mais de travaux menés sur corpus par des linguistes et informaticiens. L'Université de Rouen et le laboratoire DYALANG ont hébergé en 2005 la conférence TIA (cf. TIA 2005) et ce numéro souhaitait poursuivre un peu les discussions amorcées de même que celles mises en route par une collaboration pluridisciplinaire menée lors de l'action CNRS ASTICCOT au sein des STIC (Aussenac-Gilles N. et Condamines A. 2003). Ce numéro traite de T.A.L et de terminologie, il est consacré aux traitements des langues spécialisées et présente des recherches menées sur corpus pour des visées telles que la traduction, l'acquisition lexicale, la recherche d'informations, la veille documentaire. Ce numéro ancré dans une université, l'Université de Rouen, où les travaux de sociolinguistique ont donné naissance à une approche socioterminologique (Gaudin 2003), a voulu présenter également un travail en cours recourant à une démarche socioterminologique en traduction informatisée multilingue (T.D. Tran). D'autres travaux rouennais sont en préparation dans cette perspective (cf. Baudouin et al. 2003). Cette démarche socioterminologique et informatique en est à ses débuts et intégrer la variation linguistique, les variétés de communautés selon une approche informatisée des corpus est une voie récente.

Les travaux présentés ici sont la rencontre de doubles, voire triples compétences et formations universitaires pour leurs auteurs : informatique, linguistique, domaines spécialisés, traduction.
Voilà donc l'esprit de ce numéro illustrant un champ de recherche largement pluridisciplinaire. Nous regrettons quelques articles perdus en cours de chemin, cités ici entre les lignes. Néanmoins, voici la livraison. Que les auteurs soient remerciés de leur collaboration.

Le numéro regroupe les articles suivants : Terminologie médicale bilingue anglais/français : usages clinique et législatif (Aurélie Névéol, Sylwia Ozdowska), Prendre en compte la dimension globale d'un corpus dans la contextualisation du sens : expérimentations en informatique linguistique (Pierre Beust, Thibault Roy), La conceptualisation métaphorique en biomédecine : indice de conceptualisation et réseaux lexicaux (Sylvie Vandaele, Sylvie Boudreau, Leslie Lubin, Elizabeth Marshman), Faire se rencontrer les parallèles : regards croisés sur l'acquisition unilingue et multilingue (Pierre Zweigenbaum et Benoit Habert), Système de recherche d'information médicale par croisement de langues : vietnamien-français-anglais (Tran Duc Tuan). La traduction informatisée est un premier axe de travail. Elle est présente dans trois articles : le premier expose des recherches sur corpus parallèles en vue de traductions automatiques multilingues : langage biomédical et langage du droit pour traduction bilingue anglais-français (A. Névéol et S. Ozdowska), le second propose un travail en cours traitant de la recherche d'information médicale par croisement de langues français-anglais-vietnamien (T.D. Tran) ayant recours à la traduction alignée ; le troisième est un travail en construction, d'une chercheuse de Montréal et son équipe qui présentent ici une autre visée de la traduction informatisée : une base de données reposant sur le repérage de métaphores et la conceptualisatoin des indices pour une base de données biomédiale destinée aux traducteurs français-anglais.

Qu'il s'agisse de traduction ou d'une autre application, la constitution de corpus alignés, comparables, parallèles est une méthode à laquelle trois auteurs ont recours ici, A. Névéol et S. Ozdowska ainsi que T. D. Tuan ci-dessus. C'est aussi le procédé utilisé par P. Zweigenbaum et B.Habert dans un travail multilingue réalisé au sein de l'Inalco, concernant l'acquisition sémantique lexicale (semi-) automatique en contexte multilingue pour la constitution de dictionnaires sémantiques utilisant des corpus comparables.

Une autre dimension, celle de la variation, est présente dans trois articles. La variation prise en compte chez les communautés de locuteurs est explorée dans l'article de T. D. Tuan, c'est également la préoccupation de deux chercheurs informaticiens, spécialistes de T.A.L (P. Beust et T. Roy), qui développent une approche centrée autour des besoins d'un utilisateur ou d'un petit groupe d'utilisateurs. L'article se situe dans une visée différente qui n'est pas celle de la traduction comme c'est le cas dans l'article de T. D. Tuan, mais ils mettent en œuvre des traitements sémantiques adaptés à certaines tâches informatisées, interfaces de lecture rapide d'ensembles documentaires en particulier. L'article de Zweigenbaum et Habert quant à lui repose sur la notion de types de ressources, essentielle à la constitution de corpus comparables et nécessitant de situer les corpus selon leur genre textuel.

Le thème autour duquel est centré le numéro est nommé "Contextes et sens". Quelles sont les difficultés posées par la constitution de ressources ou de modélisations linguistiques qui intègrent le contexte linguistique et extra-linguistique comme une dimension essentielle du fonctionnement linguistique des termes ? Comme le souligne Rastier dans un chapitre intitulé "La lexie en contexte : de la signification au sens" (Rastier, 1994 : 68) :
"En passant de la lexie comme contexte à la lexie en contexte, nous ne quittons pas la syntagmatique. On retrouve entre les mots les mêmes types de relations contextuelles que l'on discerne entre les morphèmes, ce qui montre tout à la fois combien est arbitraire la frontière du mot et combien utile une typologie des relations contextuelles. Il est en outre douteux que le mot soit perçu isolément autant pour son contenu que pour son expression. Nous formulons l'hypothèse qu'il en va de même, corrélativement, pour le signifié des mots, qui serait perçu par des activations contextuelles"

Cette position théorique a donné naissance au courant de la terminologie textuelle (Slodzian, 2000) se penchant précisément sur une typologie des relations contextuelles en vue du traitement informatisé des données terminologiques. Comment donc définir le contexte concerné dans les articles présentés ici ? La définition suivante s'y applique en partie mais ne suffit pas :

"Par rapport à un élément quelconque d'une suite linguistique, le contexte est l'ensemble des unités qui le précèdent et le suivent. Le contexte pris en considération reçoit des limitations proportionnelles au statut et à la dimension de l'unité concernée : le contexte d'un phonème sera la syllabe (éventuellement le morphème), le contexte du morphème, le syntagme, celui du syntagme, la phrase. Pour la phrase, le contexte est constitué par des unités discursives dont la délimitation s'opère selon des procédures qui ne relèvent plus exclusivement de la linguistique" (Arrivé M., Gadet F. et Galmiche M., 1986 :185).
Cette autre définition la complète :
"Le contexte est l'ensemble des éléments situationnels extra-linguistiques au sein desquels se situe l'acte d'énonciation de la séquence linguistique. En ce second sens, contexte renvoie à référent" (ib.).

L'extra-linguistique dans les articles recueillis ici concerne la variation mais aussi le contexte de production. Comment prendre en considération les communautés de locuteurs, "la situation de production et d'interprétation" (Condamines, 2005 : 33) ? "Un corpus étant constitué de textes ou d'extraits de textes, il est difficile de faire totalement l'impasse sur le fait que ces textes ont été rédigés dans des situations particulières qui impliquaient des protagonistes ayant des intentions particulières" (ib.). Le contexte peut donc aussi s'envisager comme "construction et interprétation du sens par des sujets", "intertexte" : "La question du sens (sa construction et sa nature) est bien sûr très liée aux rapports entre des documents (majoritairement textuels) et des sujets interprétants" (Beust et Roy : ci-inclus).

D'autres éléments interviennent dans une perspective de construction du sens en contexte concernant le présent propos, "les traitements automatisés de corpus spécialisés" :

- Quels sont les éléments syntaxiques de construction du sens à considérer dans le contexte ? Règles de sous-catégorisation, marqueurs (prépositions, affixes, suffixes, préfixes, syntagmes, etc.), contraintes de sélection ? Mais comme le soulignent Zweigenbaum et Habert (ci-inclus), "ne pas se cantonner aux traits syntaxiques" : "(…) deux extrémités possibles pour la représentation des contextes d'un mot. La première, "pauvre", se contente de repérer de simples cooccurrences entre mots, dans une fenêtre textuelle considérée comme un "sac de mots", c'est-à-dire en perdant l'ordre des mots entre eux. La seconde bénéficie d'une analyse syntaxique, même partielle, et repose sur les dépendances syntaxiques élémentaires entre mots".

- Quelles sont les affinités sémantiques et syntaxiques entre les unités ? Le sens d'une unité linguistique est constituée de ses relations contextuelles également définies ainsi par Cruse dans un chapitre intitulé A contextual approach : "We can figure the meaning of a word as a pattern of affinities and disaffinities with all the other words in the language with which it is capable of contrasting semantic relations in grammatical contexts. Affinities are of two kinds, syntagmatic and paradigmatic" (Cruse, 1986 : 18).

- Lors de l'interprétation de l'énoncé le sens est-il global ou compositionnel ? Comment doit-on ainsi interpréter, consigner, modéliser la phraséologie, les collocations ? C'est l'objet en particulier des travaux de l'équipe OLST (cf. Orliac B. 2006).

- Comment considérer des éléments cognitifs de l'interprétation telles les métaphores et comment les modéliser ? (cf. Beust P. et Roy T., ci-inclus, cf. Vandaele S. ci-inclus)

On se doit donc dans une perspective sémantique d'élargir la notion de contexte linguistique et extra-linguistique à celle de contexte d'interprétation, voire de "calcul du sens et perception sémantique "comme le montre l'article de Zweigenbaum et Habert (ci-inclus).

En conclusion, si les questions concernant la nature des termes et des concepts terminologiques étaient au cœur de la réflexion de la décennie 1990-2000, envisageant le sens du point de vue de sa représentation ; les questions liées au sens, aux contextes et aux corpus émergent dès 2000 (cf. Béjoint et Thoiron (dir.) 2000, Bourigaut, Jacquemin et L'Homme 2001, AUF 2005, Condamines 2005) et soulèvent alors les problèmes liés à son interprétation, à sa modélisation. Dans cette perspective, les corpus et les contextes ne peuvent pas être envisagés comme de simples preuves langagières, mais comme un élément de la construction du sens et constituent en cela un défi à la question du sens en langue. Selon le programme dessiné par la terminologie textuelle, c'est donc bien à une typologie des relations contextuelles que les terminologues-informaticiens doivent s'attacher afin d'approfondir la question de la modélisation du sens dans les langues spécialisées.

Bibliographie
Voir dans la version à télécharger.

Sommaire

Myriam Mortchev-Bouveret : Présentation

1

Aurélie Névéol et Sylwia Ozdowska : Terminologie bilingue anglais-français : usages clinique et législatif

5

Pierre Zweigenbaum et Benoit Habert : Faire se rencontrer les parallèles : regards croisés sur l'acquisition lexicale monolingue et multilingue

22

Tran Duc Tuan : Système de recherche d'information médicale par croisement de langues : vietnamien-français-anglais

45

Pierre Beust et Thibault Roy  : Prendre en compte la dimension globale d'un corpus dans la contextualisation du sens : expérimentations en informatique linguistique

53

Sylvie Vandaele, Sylvie Boudreau, Leslie Lubin et Elizabeth Marshman  : La conceptualisation métaphorique en biomédecine : indices de conceptualisation et réseaux lexicaux

73

Compte rendu
Marie-Madeleine Bertucci, Violaine Houdart-Merot (dirs.), 2005 : Situations de banlieues, Enseignement, langues, cultures, Edition de l'Institut National de Recherche Pédagogique, collection Education, Politiques, Sociétés, Lyon, 290 p., ISBN 2-7342-1013-4, par Véronique Miguel

95

Téléchargement des articles

Aide et conseils pour le téléchargement

Traitements automatisés des corpus spécialisés : contextes et sens

Téléchargement de l'ensemble du numéro

.pdf

(1238 Ko)

.zip

(995 Ko)

Présentation par Myriam Mortchev-Bouveret

.pdf

(38 Ko)

.zip

(30 Ko)

Terminologie bilingue anglais-français : usages clinique et législatif par Aurélie Névéol et Sylwia Ozdowska

résumé

.pdf

(86 Ko)

.zip

(73 Ko)

Faire se rencontrer les parallèles : regards croisés sur l'acquisition lexicale monolingue et multilingue par Pierre Zweigenbaum et Benoit Habert

résumé

.pdf

(541 Ko)

.zip

(399 Ko)

Système de recherche d'information médicale par croisement de langues : vietnamien-français-anglais par Tran Duc Tuan

résumé

.pdf

(60 Ko)

.zip

(49 Ko)

Prendre en compte la dimension globale d'un corpus dans la contextualisation du sens : expérimentations en informatique linguistique par Pierre Beust et Thibault Roy

résumé

.pdf

(492 ko)

.zip

(407 Ko)

La conceptualisation métaphorique en biomédecine : indices de conceptualisation et réseaux lexicaux par Sylvie Vandaele, Sylvie Boudreau , Leslie Lubin et Elizabeth Marshman

résumé

.pdf

(132 Ko)

.zip

(111 Ko)

Compte rendu

Marie-Madeleine Bertucci, Violaine Houdart-Merot (dirs.), 2005 : Situations de banlieues, Enseignement, langues, cultures, Edition de l'Institut National de Recherche Pédagogique, collection Education, Politiques, Sociétés, Lyon, 290 p., ISBN 2-7342-1013-4, par Véronique Miguel

.pdf

(38 Ko)

.zip

(30 Ko)

Résumés

Terminologie bilingue anglais-français : usages clinique et législatif par Aurélie Névéol et Sylwia Ozdowska

Cet article se place dans le cadre de l'enrichissement d'une terminologie multilingue du domaine biomédical, le MeSH. Grâce à deux corpus parallèles anglais-français, l'un issu du domaine biomédical (CESART), l'autre du domaine jurididique (le Hansart), nous étudions l'apport de chaque ressource pour la traduction de termes de l'anglais vers le français. Afin d'illustrer les caractéristiques de chaque corpus, nous proposons une étude contrastée de quelques cas de traductions. L'analyse de la couverture de chaque corpus et des traductions obtenues montre que la prise en compte du spectre complet d'un domaine de spécialité à différents niveaux du spectre permet de compléter une terminologie du domaine. La phase de validation par un expert du domaine est néanmoins essentielle pour assurer la cohésion des apports.

Mots clés : Corpus Parallèle, Domaine Biomédical, Terminologie Multilingue, Traduction Automatique

Télécharger cet article :

format .pdf (86 Ko)

format .zip (73 Ko)

Faire se rencontrer les parallèles : regards croisés sur l'acquisition lexicale monolingue et multilingue par Pierre Zweigenbaum et Benoit Habert

L'acquisition sémantique lexicale (semi-)automatique a pour objectif de constituer ou d'accroître des dictionnaires sémantiques. En contexte monolingue, il s'agit de chercher des relations sémantiques, en particulier de partitionner les mots d'un corpus en classes rassemblant des mots de sens proches. L'une des méthodes principales opère sur la base des proximités de contextes d'emploi des mots, adoptant une optique distributionnelle dans la lignée de Firth et Harris.
En contexte multilingue, l'objectif est essentiellement de repérer des équivalents traductionnels de mots dans des corpus comparables. Il s'agit d'ensembles de textes dans deux langues qui, sans être en rapport de traduction mutuelle, traitent du même domaine. La méthode privilégiée n'est autre qu'une extension des approches distributionnelles employées pour les corpus monolingues.
La plupart des méthodes et enseignements de chacun de ces deux types de travaux devraient donc pouvoir être réinvestis dans l'autre. C'est ce que nous examinons dans cet article.

Mots-clés : Acquisition sémantique lexicale, analyse distributionnelle, recherche d'équivalents traductionnels, corpus comparables, genres textuels

Télécharger cet article :

format .pdf (541 Ko)

format .zip (399 Ko)

Système de recherche d'information médicale par croisement de langues : vietnamien-français-anglais par Tran Duc Tuan

Dans le cadre d'un projet dictionnairique des termes médicaux vietnamien-français-anglais, cet article présente l'interopérabilité des données d'une modélisation des concepts médicaux selon l'approche socioterminologique couplée avec la formalisation du sens selon la sémantique formelle appliquée en linguistique informatique. Cette interopérabilité favoriserait la construction d'un système de recherche d'information médicale par croisement de langues basé sur un dictionnaire médical trilingue de construction de sens. Notre travail se focalise sur la traduction des termes de requête du vietnamien vers le français puis vers l'anglais. Pour chaque terme traduit du vietnamien en français et en anglais, le recours aux contextes sémantiquement alignés serait une preuve de plausibilité de la traduction. Le traitement du corpus vietnamien est effectué avec le logiciel Unitex. Pour le corpus comparable français/anglais, nous avons utilisé le logiciel Xerox Terminology Suite.

Mots clés : socioterminologie, contexte, recherche d'information médicale, croisement de langues, corpus comparable

Télécharger cet article :

format .pdf (60 Ko)

format .zip (49 Ko)

Prendre en compte la dimension globale d'un corpus dans la contextualisation du sens : expérimentations en informatique linguistique par Pierre Beust et Thibault Roy

Cet article s'inscrit dans le cadre de recherches en cours en Traitement Automatiques des Langues. Plus précisément, nous cherchons à mettre en œuvre des traitements sémantiques adaptés à certaines tâches informatisées (interfaces de lecture rapide d'ensembles documentaires par exemple) où les spécificités sociolinguistiques des utilisateurs (par exemple leurs centres d'intérêt, leurs habitudes terminologiques) et leurs interprétations sont au centre de l'interaction homme-machine. C'est souvent le cas le domaine de la veille documentaire ou encore de la recherche de documents sur l'Internet. Nous détaillons les spécificités de notre approche centrée autour des besoins d'un utilisateur ou d'un petit groupe d'utilisateur. Dans cette démarche nous exposons à travers la notion de rapports entre le local et le global notre point de vue sur la nature du sens, du contexte et de l'intertexte. Nous présentons ensuite nos travaux et expériences en cours dans le domaine applicatif de la cartographie thématique personnalisée de corpus.

Mots clés : Sémantique Interprétative, Visualisation de Corpus, Traitement Automatique des Langues, Veille Documentaire, Approche centrée-utilisateur

Télécharger cet article :

format .pdf (492 Ko)

format .zip (407 Ko)

La conceptualisation métaphorique en biomédecine : indices de conceptualisation et réseaux lexicaux par Sylvie Vandaele, Sylvie Boudreau , Leslie Lubin et Elizabeth Marshman

Nos recherches visent à caractériser les modes de conceptualisation métaphorique à l'oeuvre en biomédecine. Avec Lakoff, nous plaçons en effet la métaphore au plan de la pensée, la conceptualisation métaphorique étant sous-jacente à l'expression métaphorique. Afin de caractériser les conceptualisations (plus spécifiquement en biologie cellulaire et en anatomie) grâce à l'étude des expressions linguistiques en témoignant, nous avons mis au point une méthode d'étiquetage sémantique en corpus, en anglais et en français. La méthode consiste à repérer ce que nous avons appelé " indice de conceptualisation " grâce à un effet de dissonnance cognitive et à insérer dans le corpus des éléments de balisage en format XML les caractérisant. Dans le présent article, nous présentons un aperçu de la méthode de balisage, et nous proposons une analyse des phénomènes métaphoriques rencontrés. Nous nous concentrons sur les indices de conceptualisation représentés par des unités lexicales prédicatives que nous caractérisons, linguistiquement, à l'aide d'une analyse actantielle inspirée par les travaux de I. Mel'?uk. Au plan cognitif, nous avons fait appel aux concepts de factivité / fictivité proposés par Talmy. Ces outils d'analyse nous permettent d'approfondir l'hypothèse de travail au coeur de nos travaux, à savoir que les phénomènes métaphoriques faisant intervenir des unités lexicales prédicatives mettent en jeu une projection (pour reprendre la terminologie de Lakoff) des actants d'une unité lexicale source sur les actants de l'unité lexicale cible.

Mots clés : métaphore, biomédecine, traduction bilingue, indices de conceptualisation, théorie Sens-Texte.

Télécharger cet article :

format .pdf (132 Ko)

format .zip (111 Ko)

Comité de lecture du numéro

Nous proposons de consulter les membres du comité de lecture de ce numéro.

Télécharger le comité de lecture du numéro 8 de la revue Glottopol (format pdf)

 

 

 

Dernière mise à jour :

25 janvier 2010

 

GLOTTOPOL

GLOTTOPOL

GLOTTOPOL

 
  
Page suivante