Concordancier multilingue

Un concordancier multilingue est un outil informatique permettant de gérer des corpus parallèles. Par métonymie, le concordancier multilingue désigne aussi ces corpus.

Description

Un corpus parallèle est un ensemble de groupes de textes qui, deux à deux, dans chaque groupe, sont des traductions mutuelles. L'Acquis communautaire européen est un exemple où chaque groupe comporte un texte pour chacune des langues officielles de l'Union européenne. L'ensemble des groupes désignent les lois régissant la communauté européenne.

De nombreux corpus sont bilingues. Le corpus anglais↔français de l'Hansard du parlement canadien en est un exemple connu car il fut l'un des premiers à être numérisés et mis à la disposition des chercheurs en linguistique. Dans ces cas, les outils sont des concordanciers bilingues.

Depuis, ces corpus sont plus nombreux et accessibles (voir la liste des liens externes). Leur origine est :

l'obligation de publier dans un certain nombre de langues officielles pour les organisations internationales,
les États ayant plusieurs langues officielles,
les publications de journaux dans plusieurs langues,
la traduction des livres,
la documentation des logiciels.

Les corpus parallèles numérisés sont une source importante pour tous les outils de traductique. À partir de ces corpus,

on peut exploiter directement les documents, en recherchant un mot ou une expression et afficher son occurrence dans le texte source et aligner le texte cible sur le même passage ; l'avantage est de montrer l'expression dans son contexte complet ;
en segmentant les phrases des documents et en alignant les phrases, on peut produire une mémoire de traduction ou des corpus d'entraînement pour la traduction automatique ;
en analysant les co-occurrences des termes dans les documents entre les différentes langues, on peut construire un lexique multilingue.

Voir aussi

Liens internes

Concordance (livre)
Pierre de Rosette

Bibliographie

B. Habert, A. Nazarenko, A. Salem, Les linguistiques de corpus, Armand Colin, 1997
I. Dan Melamed, Empirical Methods for exploiting parallel text, The MIT Press 2001

Liens externes

Corpus parallèles

Le corpus du JRC-Acquis communautaire européen : Acquis communautaire avec 231 pairs de langues
European Parliament Proceedings Parallel Corpus 1996-2011
Opus Le projet Opus regroupe un ensemble de corpus sur l'Union européenne, les médicaments, les sous-titres de films, les documentations de logiciels

Outils

Glosbe: Multilanguage parallel corpora avec une recherche en ligne
Reverso Context : dictionnaire contextuel basé sur des corpus bilingues alignés et un moteur de recherche
InterCorp: A multilingual parallel corpus 20+ languages aligned with Czech, avec une recherche en ligne
Hunalign, un aligneur de phrases
GIZA++, outil d'alignement
Vanilla, une implémentation de l'algorithme d'alignement Gale et Church
myCAT - Olanto, un concordancier multilangue (open source AGPL), avec une démonstration sur l'acquis communautaire
TAUS, ressources et recherche en ligne
WebAlignToolkit, une interface d'alignement bi- et multi-textuel en ligne (avec plusieurs aligneurs)