Revue de sociolinguistique en ligne | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
N°8 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sommaire
ISSN : 1769-7425 |
Présentation par Myriam Mortchev-BouveretUn numéro intitulé "traitements automatisés des corpus spécialisés : contextes et sens" peut surprendre les lecteurs de la revue Glottopol consacrée habituellement à la sociolinguistique. Il n'est en effet pas question ici de sociolinguistique mais de travaux menés sur corpus par des linguistes et informaticiens. L'Université de Rouen et le laboratoire DYALANG ont hébergé en 2005 la conférence TIA (cf. TIA 2005) et ce numéro souhaitait poursuivre un peu les discussions amorcées de même que celles mises en route par une collaboration pluridisciplinaire menée lors de l'action CNRS ASTICCOT au sein des STIC (Aussenac-Gilles N. et Condamines A. 2003). Ce numéro traite de T.A.L et de terminologie, il est consacré aux traitements des langues spécialisées et présente des recherches menées sur corpus pour des visées telles que la traduction, l'acquisition lexicale, la recherche d'informations, la veille documentaire. Ce numéro ancré dans une université, l'Université de Rouen, où les travaux de sociolinguistique ont donné naissance à une approche socioterminologique (Gaudin 2003), a voulu présenter également un travail en cours recourant à une démarche socioterminologique en traduction informatisée multilingue (T.D. Tran). D'autres travaux rouennais sont en préparation dans cette perspective (cf. Baudouin et al. 2003). Cette démarche socioterminologique et informatique en est à ses débuts et intégrer la variation linguistique, les variétés de communautés selon une approche informatisée des corpus est une voie récente. Les
travaux présentés ici sont la rencontre de doubles, voire triples
compétences et formations universitaires pour leurs auteurs : informatique,
linguistique, domaines spécialisés, traduction. Le numéro regroupe les articles suivants : Terminologie médicale bilingue anglais/français : usages clinique et législatif (Aurélie Névéol, Sylwia Ozdowska), Prendre en compte la dimension globale d'un corpus dans la contextualisation du sens : expérimentations en informatique linguistique (Pierre Beust, Thibault Roy), La conceptualisation métaphorique en biomédecine : indice de conceptualisation et réseaux lexicaux (Sylvie Vandaele, Sylvie Boudreau, Leslie Lubin, Elizabeth Marshman), Faire se rencontrer les parallèles : regards croisés sur l'acquisition unilingue et multilingue (Pierre Zweigenbaum et Benoit Habert), Système de recherche d'information médicale par croisement de langues : vietnamien-français-anglais (Tran Duc Tuan). La traduction informatisée est un premier axe de travail. Elle est présente dans trois articles : le premier expose des recherches sur corpus parallèles en vue de traductions automatiques multilingues : langage biomédical et langage du droit pour traduction bilingue anglais-français (A. Névéol et S. Ozdowska), le second propose un travail en cours traitant de la recherche d'information médicale par croisement de langues français-anglais-vietnamien (T.D. Tran) ayant recours à la traduction alignée ; le troisième est un travail en construction, d'une chercheuse de Montréal et son équipe qui présentent ici une autre visée de la traduction informatisée : une base de données reposant sur le repérage de métaphores et la conceptualisatoin des indices pour une base de données biomédiale destinée aux traducteurs français-anglais. Qu'il s'agisse de traduction ou d'une autre application, la constitution de corpus alignés, comparables, parallèles est une méthode à laquelle trois auteurs ont recours ici, A. Névéol et S. Ozdowska ainsi que T. D. Tuan ci-dessus. C'est aussi le procédé utilisé par P. Zweigenbaum et B.Habert dans un travail multilingue réalisé au sein de l'Inalco, concernant l'acquisition sémantique lexicale (semi-) automatique en contexte multilingue pour la constitution de dictionnaires sémantiques utilisant des corpus comparables. Une autre dimension, celle de la variation, est présente dans trois articles. La variation prise en compte chez les communautés de locuteurs est explorée dans l'article de T. D. Tuan, c'est également la préoccupation de deux chercheurs informaticiens, spécialistes de T.A.L (P. Beust et T. Roy), qui développent une approche centrée autour des besoins d'un utilisateur ou d'un petit groupe d'utilisateurs. L'article se situe dans une visée différente qui n'est pas celle de la traduction comme c'est le cas dans l'article de T. D. Tuan, mais ils mettent en uvre des traitements sémantiques adaptés à certaines tâches informatisées, interfaces de lecture rapide d'ensembles documentaires en particulier. L'article de Zweigenbaum et Habert quant à lui repose sur la notion de types de ressources, essentielle à la constitution de corpus comparables et nécessitant de situer les corpus selon leur genre textuel. Le
thème autour duquel est centré le numéro est nommé
"Contextes et sens". Quelles sont les difficultés posées
par la constitution de ressources ou de modélisations linguistiques qui
intègrent le contexte linguistique et extra-linguistique comme une dimension
essentielle du fonctionnement linguistique des termes ? Comme le souligne
Rastier dans un chapitre intitulé "La lexie en contexte : de la signification
au sens" (Rastier, 1994 : 68) : Cette position théorique a donné naissance au courant de la terminologie textuelle (Slodzian, 2000) se penchant précisément sur une typologie des relations contextuelles en vue du traitement informatisé des données terminologiques. Comment donc définir le contexte concerné dans les articles présentés ici ? La définition suivante s'y applique en partie mais ne suffit pas : "Par
rapport à un élément quelconque d'une suite linguistique,
le contexte est l'ensemble des unités qui le précèdent et
le suivent. Le contexte pris en considération reçoit des limitations
proportionnelles au statut et à la dimension de l'unité concernée
: le contexte d'un phonème sera la syllabe (éventuellement le morphème),
le contexte du morphème, le syntagme, celui du syntagme, la phrase. Pour
la phrase, le contexte est constitué par des unités discursives
dont la délimitation s'opère selon des procédures qui ne
relèvent plus exclusivement de la linguistique" (Arrivé
M., Gadet F. et Galmiche M., 1986 :185). L'extra-linguistique dans les articles recueillis ici concerne la variation mais aussi le contexte de production. Comment prendre en considération les communautés de locuteurs, "la situation de production et d'interprétation" (Condamines, 2005 : 33) ? "Un corpus étant constitué de textes ou d'extraits de textes, il est difficile de faire totalement l'impasse sur le fait que ces textes ont été rédigés dans des situations particulières qui impliquaient des protagonistes ayant des intentions particulières" (ib.). Le contexte peut donc aussi s'envisager comme "construction et interprétation du sens par des sujets", "intertexte" : "La question du sens (sa construction et sa nature) est bien sûr très liée aux rapports entre des documents (majoritairement textuels) et des sujets interprétants" (Beust et Roy : ci-inclus). D'autres éléments interviennent dans une perspective de construction du sens en contexte concernant le présent propos, "les traitements automatisés de corpus spécialisés" : - Quels sont les éléments
syntaxiques de construction du sens à considérer dans le contexte ?
Règles de sous-catégorisation, marqueurs (prépositions, affixes,
suffixes, préfixes, syntagmes, etc.), contraintes de sélection ?
Mais comme le soulignent Zweigenbaum et Habert (ci-inclus), "ne pas se
cantonner aux traits syntaxiques" : "(
) deux extrémités
possibles pour la représentation des contextes d'un mot. La première,
"pauvre", se contente de repérer de simples cooccurrences entre
mots, dans une fenêtre textuelle considérée comme un "sac
de mots", c'est-à-dire en perdant l'ordre des mots entre eux. La seconde
bénéficie d'une analyse syntaxique, même partielle, et repose
sur les dépendances syntaxiques élémentaires entre mots". - Quelles sont les affinités sémantiques et syntaxiques entre les unités ? Le sens d'une unité linguistique est constituée de ses relations contextuelles également définies ainsi par Cruse dans un chapitre intitulé A contextual approach : "We can figure the meaning of a word as a pattern of affinities and disaffinities with all the other words in the language with which it is capable of contrasting semantic relations in grammatical contexts. Affinities are of two kinds, syntagmatic and paradigmatic" (Cruse, 1986 : 18). - Lors de l'interprétation de l'énoncé le sens est-il global ou compositionnel ? Comment doit-on ainsi interpréter, consigner, modéliser la phraséologie, les collocations ? C'est l'objet en particulier des travaux de l'équipe OLST (cf. Orliac B. 2006). - Comment considérer des éléments cognitifs de l'interprétation telles les métaphores et comment les modéliser ? (cf. Beust P. et Roy T., ci-inclus, cf. Vandaele S. ci-inclus) On se doit donc dans une perspective sémantique d'élargir la notion de contexte linguistique et extra-linguistique à celle de contexte d'interprétation, voire de "calcul du sens et perception sémantique "comme le montre l'article de Zweigenbaum et Habert (ci-inclus). En
conclusion, si les questions concernant la nature des termes et des concepts terminologiques
étaient au cur de la réflexion de la décennie 1990-2000,
envisageant le sens du point de vue de sa représentation ; les questions
liées au sens, aux contextes et aux corpus émergent dès 2000
(cf. Béjoint et Thoiron (dir.) 2000, Bourigaut, Jacquemin et L'Homme 2001,
AUF 2005, Condamines 2005) et soulèvent alors les problèmes liés
à son interprétation, à sa modélisation. Dans cette
perspective, les corpus et les contextes ne peuvent pas être envisagés
comme de simples preuves langagières, mais comme un élément
de la construction du sens et constituent en cela un défi à la question
du sens en langue. Selon le programme dessiné par la terminologie textuelle,
c'est donc bien à une typologie des relations contextuelles que les terminologues-informaticiens
doivent s'attacher afin d'approfondir la question de la modélisation du
sens dans les langues spécialisées. Bibliographie Sommaire
Téléchargement des articlesAide et conseils pour le téléchargement
Résumés
Cet article se place dans le cadre de l'enrichissement d'une terminologie multilingue du domaine biomédical, le MeSH. Grâce à deux corpus parallèles anglais-français, l'un issu du domaine biomédical (CESART), l'autre du domaine jurididique (le Hansart), nous étudions l'apport de chaque ressource pour la traduction de termes de l'anglais vers le français. Afin d'illustrer les caractéristiques de chaque corpus, nous proposons une étude contrastée de quelques cas de traductions. L'analyse de la couverture de chaque corpus et des traductions obtenues montre que la prise en compte du spectre complet d'un domaine de spécialité à différents niveaux du spectre permet de compléter une terminologie du domaine. La phase de validation par un expert du domaine est néanmoins essentielle pour assurer la cohésion des apports. Mots clés
: Corpus Parallèle, Domaine Biomédical, Terminologie Multilingue,
Traduction Automatique
L'acquisition sémantique
lexicale (semi-)automatique a pour objectif de constituer ou d'accroître
des dictionnaires sémantiques. En contexte monolingue, il s'agit de chercher
des relations sémantiques, en particulier de partitionner les mots d'un
corpus en classes rassemblant des mots de sens proches. L'une des méthodes
principales opère sur la base des proximités de contextes d'emploi
des mots, adoptant une optique distributionnelle dans la lignée de Firth
et Harris. Mots-clés : Acquisition sémantique lexicale, analyse distributionnelle, recherche d'équivalents traductionnels, corpus comparables, genres textuels
Dans le cadre d'un projet dictionnairique des termes médicaux vietnamien-français-anglais, cet article présente l'interopérabilité des données d'une modélisation des concepts médicaux selon l'approche socioterminologique couplée avec la formalisation du sens selon la sémantique formelle appliquée en linguistique informatique. Cette interopérabilité favoriserait la construction d'un système de recherche d'information médicale par croisement de langues basé sur un dictionnaire médical trilingue de construction de sens. Notre travail se focalise sur la traduction des termes de requête du vietnamien vers le français puis vers l'anglais. Pour chaque terme traduit du vietnamien en français et en anglais, le recours aux contextes sémantiquement alignés serait une preuve de plausibilité de la traduction. Le traitement du corpus vietnamien est effectué avec le logiciel Unitex. Pour le corpus comparable français/anglais, nous avons utilisé le logiciel Xerox Terminology Suite. Mots
clés : socioterminologie, contexte, recherche d'information médicale,
croisement de langues, corpus comparable
Cet article s'inscrit dans le cadre de recherches en cours en Traitement Automatiques des Langues. Plus précisément, nous cherchons à mettre en uvre des traitements sémantiques adaptés à certaines tâches informatisées (interfaces de lecture rapide d'ensembles documentaires par exemple) où les spécificités sociolinguistiques des utilisateurs (par exemple leurs centres d'intérêt, leurs habitudes terminologiques) et leurs interprétations sont au centre de l'interaction homme-machine. C'est souvent le cas le domaine de la veille documentaire ou encore de la recherche de documents sur l'Internet. Nous détaillons les spécificités de notre approche centrée autour des besoins d'un utilisateur ou d'un petit groupe d'utilisateur. Dans cette démarche nous exposons à travers la notion de rapports entre le local et le global notre point de vue sur la nature du sens, du contexte et de l'intertexte. Nous présentons ensuite nos travaux et expériences en cours dans le domaine applicatif de la cartographie thématique personnalisée de corpus. Mots clés : Sémantique Interprétative, Visualisation de Corpus, Traitement Automatique des Langues, Veille Documentaire, Approche centrée-utilisateur
Nos recherches visent à caractériser les modes de conceptualisation métaphorique à l'oeuvre en biomédecine. Avec Lakoff, nous plaçons en effet la métaphore au plan de la pensée, la conceptualisation métaphorique étant sous-jacente à l'expression métaphorique. Afin de caractériser les conceptualisations (plus spécifiquement en biologie cellulaire et en anatomie) grâce à l'étude des expressions linguistiques en témoignant, nous avons mis au point une méthode d'étiquetage sémantique en corpus, en anglais et en français. La méthode consiste à repérer ce que nous avons appelé " indice de conceptualisation " grâce à un effet de dissonnance cognitive et à insérer dans le corpus des éléments de balisage en format XML les caractérisant. Dans le présent article, nous présentons un aperçu de la méthode de balisage, et nous proposons une analyse des phénomènes métaphoriques rencontrés. Nous nous concentrons sur les indices de conceptualisation représentés par des unités lexicales prédicatives que nous caractérisons, linguistiquement, à l'aide d'une analyse actantielle inspirée par les travaux de I. Mel'?uk. Au plan cognitif, nous avons fait appel aux concepts de factivité / fictivité proposés par Talmy. Ces outils d'analyse nous permettent d'approfondir l'hypothèse de travail au coeur de nos travaux, à savoir que les phénomènes métaphoriques faisant intervenir des unités lexicales prédicatives mettent en jeu une projection (pour reprendre la terminologie de Lakoff) des actants d'une unité lexicale source sur les actants de l'unité lexicale cible. Mots
clés : métaphore, biomédecine, traduction bilingue, indices
de conceptualisation, théorie Sens-Texte.
Comité de lecture du numéroNous proposons de consulter les membres du comité de lecture de ce numéro. Télécharger le comité de lecture du numéro 8 de la revue Glottopol (format pdf)
| | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Dernière mise à jour : |
GLOTTOPOL GLOTTOPOL GLOTTOPOL | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||