Centre de recherche en technologies langagières
Accueil Plan du site Faq Liens
 
CRTL en bref
Historique
Mission
Vision
Orientations stratégiques
Nos partenaires
Webzine
 
 
Quoi de neuf

 

 

Bienvenue au CRTL!

Nouvel institut de recherche, le Centre de recherche en technologies langagières (CRTL) se consacre à l’industrie de la langue et aux technologies langagières. Grâce à une collaboration unique entre les secteurs universitaire, public et privé, le CRTL a l’ambition de devenir un pôle d'excellence en matière de technologies langagières tant au Canada que sur la scène internationale.

Pour découvrir le CRTL et ses membres, cliquez sur un des menus autour de la page. Le site est en construction, alors nous vous invitons à le visiter souvent puisque nous le mettons régulièrement à jour.

Haut de la page

Conférence : Comment utiliser et étendre les modèles de langue statistiques pour la recherche d’information?

 

Jian-Yun Nie, Professeur, Département d’informatique et recherche opérationnelle, Université de Montréal
Le 15 décembre 2006

 

Résumé

Les modèles de langue statistiques ont été développés pour capter les caractéristiques linguistiques cachées dans des textes, telles que la probabilité de mots ou de séquences de mots. Durant les dernières années, ces modèles ont été appliqués en recherche d’information (RI) avec grand succès. Dans cette présentation, nous allons d’abord décrire les approches de base pour la RI utilisant des modèles de langue. Nous observons que ces modèles ont une limitation forte due à l'hypothèse d’indépendance de mots. Ainsi, des extensions sont proposées afin d'incorporer des dépendances entre des mots. Deux types de dépendance sont considérés : celles entre les mots de la requête et celles entre un mot du document et un mot de la requête. Nos expérimentations montrent que ces extensions peuvent grandement améliorer la performance de recherche. Finalement, un cas d’application des modèles de langue à la RI translinguistique sera présenté.

 

Biographie

Jian-Yun Nie est professeur titulaire au Département d'informatique et de recherche opérationnelle de l'Université de Montréal. Il a obtenu un doctorat en informatique de l'Université Joseph Fourier de Grenoble en 1990. Sa recherche se situe dans le domaine de la recherche d'information (RI), portant sur les aspects à la fois théoriques et pratiques. Notamment, il tente d'intégrer des techniques de l'intelligence artificielle et les traitements de la langue naturelle dans la RI. Le professeur Nie s'intéresse aussi à la méthodologie adaptée aux systèmes ouverts utilisant les réseaux informatiques afin d'implanter des systèmes facilement accessibles.

Haut de la page

 
 

LISA Forum Europe
Europe's Eastern Frontier
Doing Business in an Expanding Europe
Du 13 au 17 novembre, 2006

The expansion of the European Union has made Central and Eastern Europe increasingly important, both as a market for goods and services and as a low-cost location for globalization outsourcing and production. This year’s annual European meeting of the Localization Industry Standards Association (LISA) will focus on the opportunities and challenges associated with this region’s rapid growth and newfound prominence. As the European Union works through the historical and regulatory challenges associated with economic consolidation and growth, this ground-breaking conference will address localization business issues specific to the region’s legal, banking, life sciences, manufacturing, IT/Telco, government and multimedia industries. Special attention will be given to language and translation technologies in web development, content production, management and distribution.

A three-day exhibition featuring the industry's leading language technology developers of machine translation, content management and workflow system, web-services, internationalization, translation and localization suppliers will take place during the forum.

http://www.lisa.org/events/2006warsaw/

Haut de la page

 

Le Répertoire des terminologues en exercice au Canada arrive enfin!

 

Le 24 octobre prochain, le CRTL accueillera les membres du Comité mixte sur la terminologie au Canada (CMTC).

C’est avec un immense plaisir que ces passionnés de la terminologie dévoileront le prototype du Répertoire des terminologues en exercice au Canada.

Le CMTC – partenariat multisectoriel composé de représentants des universités, du secteur privé et du Bureau de la traduction du gouvernement du Canada – s’est donné pour mission, notamment, de faire valoir la profession de terminologue au Canada. C’est donc dans ce cadre que s’inscrit la création du Répertoire, une ressource unique qui contribuera à accroître la notoriété et le rayonnement de la profession au pays.

Professionnels de la langue, restez aux aguets, le Répertoire arrive enfin...

Haut de la page

 

Inauguration officielle du CRTL

 

Installé à Gatineau, dans un tout nouvel édifice du campus Alexandre-Taché de l’Université du Québec en Outaouais, le CRTL offre dorénavant aux chercheurs, universitaires, entrepreneurs et spécialistes gouvernementaux un environnement stimulant pour travailler en synergie sous un même toit.

Photos de la cérémonie d'ouverture

Haut de la page

 

Conférence : Reconnaissance de schémas syntaxiques théoriques optimaux et de l'information

 

B. John Oommen, Professeur et associé de l'IEEE, School of Computer Science de l'Université Carleton
Le mercredi 8 février 2006

Résumé

Au cours de la causerie, nous montrerons comment nous pouvons effectuer une reconnaissance optimale des schémas syntaxiques du point de vue de la théorie de l'information pour des systèmes arbitraires. Nous y parviendrons en présentant un nouveau modèle de canaux bruités qui permet des erreurs de substitution, de suppression et d'insertion distribuées arbitrairement. Outre ses applications directes en production et en reconnaissance de chaînes, le modèle peut se prêter au traitement des signaux unidimensionnels et de la parole. Le modèle, élaboré comme une technique de production de chaînes bruitées, est entièrement fonctionnel et cohérent sur le plan stochastique.

En plus de présenter le canal, nous décrirons aussi une technique selon laquelle Pr[Y|U], soit la probabilité de recevoir Y lorsque U a été transmis, peut être calculé en temps cubique. Ce processus repose sur la technique de programmation dynamique. Par ailleurs, au meilleur de notre connaissance, il figure au titre des quelques applications non triviales de la programmation dynamique qui évaluent les quantités exigeant des expressions combinatoires assez complexes, et ce tout en maintenant des contraintes rigides en matière de cohérence probabiliste.

Ces travaux ont été menés en collaboration avec le professeur R. L. Kashyap, School of Elec. Engg., Purdue University, W. Lafayette; IN : 47907.

Les résultats présentés ici ont reçu le prix Honourable Mention of the Year Award de la revue Pattern Recognition.
Les résultats ont été dédiés au feu professeur K-S. Fu de la Purdue University.

Biographie

Le Dr John Oommen est professeur à la School of Computer Science de l'Université Carleton. Il a obtenu un baccalauréat ès technologie en génie électrique de l'Indian Institute of Technology (Madras) en 1975, une maîtrise ès génie électrique de l'Indian Institute of Science (Bangalore) en 1977 ainsi qu'une maîtrise ès sciences (1979) et un doctorat ès philosophie (1982) du Department of Engineering, Purdue University, États-Unis. Associé de l'IEEE, le Dr Oommen compte à son actif plus de 240 publications revues par un comité de lecture, et ce comme articles dans des magazines ou utilisés lors de conférences. Ses travaux de recherche couvrent les domaines des systèmes d'apprentissage, de la récupération et du stockage de données, de la reconnaissance des modèles statistiques et des schémas syntaxiques, de la robotique, des structures de données adaptatives, des réseaux neuronaux artificiels, de l'optimisation de requêtes dans des systèmes de bases de données et de la compression de données. Parmi les nombreux autres prix et distinctions qu'il a reçus, citons le prix Honourable Mention of the Year Award en 1998 de la revue Pattern Recognition pour son article « Optimal and Information Theoretic Syntactic Pattern Recognition ». Aussi, son article « Stochastic Generalized Pursuit Learning Algorithms » a été mis en nomination pour le prix Best Paper of the Year Award de l'année 2003 de la revue IEEE Transactions on Systems, Man and Cybernetics. Le Dr Oommen siège également au comité de rédaction de deux revues de prestige.

Haut de la page

 

Des résultats prometteurs pour le projet Barçah
25 janvier 2006

 

La terminométrie est la mesure de l'usage d'un terme ou d'une terminologie dans une population. Par exemple, on constate depuis peu l'émergence du terme dessin intelligent, très peu utilisé il y a un an à peine. La terminométrie peut être comparative (la population préfère-t-elle les termes français dessin intelligent, dessein intelligent ou le terme anglais intelligent design?) et diachronique (quelle est la tendance dans l'utilisation des termes au fil du temps?).

Le projet de recherche CRTL Barçah a créé un environnement qui permet de mener des études terminométriques - ou mesures de l'implantation terminologique - sur des domaines en entier.

Exemple de l'environnement Barçah

Le logiciel Barçah permet une mesure accélérée et efficace de l'usage de la terminologie d'un domaine. Il trie les textes en fonction de leur langue, indexe les corpus, les interroge, présente les contextes dans un environnement convivial pour une désambiguïsation manuelle et facilite la gestion des résultats.

En mars 2005, le prototype Barçah a reçu la mention d'honneur lors des Mérites du français dans les technologies de l'information, catégorie Application logicielle - grandes organisations. Depuis, l'équipe de recherche de Barçah travaille sur la deuxième version de ce logiciel.

Grâce à la version 2 de Barçah, l'étape nécessaire à la désambiguïsation sera semi-automatique. En effet, la principale difficulté de la terminométrie réside dans l'ambiguïté. Par exemple, dans le domaine du golf, les termes aigle, aiglon et moins-deux représentent la notion « inscrire deux coups sous la normale ». Or, ces termes sont ambigus, beaucoup plus qu'on pourrait le croire de prime abord. Aigle, spécialement, peut aussi désigner un rapace, une enseigne militaire ou une raison sociale; c'est même une ville de Suisse! La version 2 de Barçah permet la désambiguïsation semi-automatique des termes à partir du principe d'apprentissage actif (active learning). Le logiciel demande à l'utilisateur de désambiguïser pour lui des occurrences difficiles (p. ex. : « J'ai joué au golf dans la ville d'Aigle. » et « J'ai joué au golf et réussi un aigle! »). Le logiciel évalue alors sa capacité à désambiguïser les termes comme le fait l'utilisateur. Lorsque sa performance atteint un seuil assez élevé, le logiciel complète l'étude du corpus de façon automatique.

Le Bureau de la traduction du Canada s'est montré très intéressé par le prototype Barçah. Depuis septembre 2005, la Direction de la normalisation terminologique étudie la terminologie du Gouvernement en direct (GED), proposée par le Bureau de la traduction, dans diverses organisations publiques fédérales.

Un autre organisme, l'Office québécois de la langue française (OQLF), travaille également à un projet avec l'Université du Québec en Outaouais depuis le printemps 2005, soit la terminométrie du domaine des nanosciences et des nanotechnologies au Québec.

Le projet Barçah du CRTL est une initiative de Jean Quirion, professeur de terminologie au Département d'études langagières de l'Université du Québec en Outaouais, réalisée en partenariat avec Caroline Barrière et David Nadeau, respectivement agente de recherche et programmeur-analyste au Groupe des Technologies langagières interactives du Conseil national de recherches du Canada.

Pour tout renseignement supplémentaire, vous adresser à :

Haut de la page

 

Conférence : La compréhension écrite : du Merlin aux modèles modulaires

 

Patricia M. Raymond, Professeure associée au département d'études langagières à l'Université du Québec en Outaouais
Le mardi 13 décembre 2005

 

Résumé

Aperçu de plusieurs modèles de lecture et de leur impact sur la compréhension écrite en langues maternelle et seconde ; le texte électronique et les recherches d'avenir.

 

Biographie

Patricia M. Raymond possède un doctorat en éducation de l'Université de Montréal. Elle a été professeure titulaire à l'institut des langues secondes de l'Université d'Ottawa. Elle est actuellement affiliée au département d'études langagières à l'UQO. Ses recherches portent sur la compréhension écrite et la production écrite en langues maternelle et seconde, sur les genres textuels et sur la littéracie.

Haut de la page

 

Conférence : Présentation de l'instrument intitulé « Évaluation CAEL » (Canadian Academic English Language)

 

Virginia A. Taylor, directrice adjointe, School of Linguistics and Applied Language Studies, Carleton University

Muhammad Usman Erdosy, directeur des examens d'évaluation CAEL

Le jeudi 8 décembre 2005

 

Résumé

Cet instrument qu'on appelle « évaluation CAEL » (Canadian Academic English Language) fut mis au point à la Carleton University en réaction à la déception exprimée par les étudiants non autochtones qui avaient répondu aux critères de compétence en anglais en rédigeant des tests de compétence reconnus à l'échelle internationale, tel le TOEFL ou le MELAB. On sentait particulièrement que les actuels tests de compétences ne parvenaient pas à répondre aux demandes linguistiques précises imposées aux étudiants des institutions d'enseignement supérieur en Amérique du Nord.

Pour relever un tel défi, une équipe d'élaboration de test a compté sur l'expertise des instructeurs d'anglais langue seconde et sur les membres de la faculté à la Carleton University afin de définir les tâches et les critères d'évaluation des tests reflétant les demandes qui consistent à utiliser la langue anglaise dans les milieux académiques. Dans sa version actuelle, le test permet d'évaluer la capacité des gens à lire et comprendre les textes académiques, à écouter et comprendre les cours académiques, à utiliser l'information de sources auditive et écrite pour répondre à une question à développement et à faire preuve d'une aisance verbale lors de la réalisation de différentes tâches oratoires dans un contexte académique. Une caractéristique particulière du CAEL consiste dans l'intégration thématique des modules d'écoute, de lecture et d'écriture - soit les cours que les gens qui font l'examen écoutent, les textes qu'ils lisent, et la question à développement tournent tous autour d'un même sujet. Il s'agit là d'une caractéristique du CAEL qui simule le contexte académique, de façon à pouvoir extrapoler avec confiance le rendement des gens afin de savoir ce à quoi il ressemblerait dans un contexte académique authentique au-delà du contexte limité d'un test de compétences linguistiques.

Quoique son thème ne soit pas intégré au reste du test, le volet oral du CAEL se démarque également par la simulation d'environnements académiques et par l'échantillonnage d'un vaste éventail de registres académiques. Il est conçu de façon à ce qu'on puisse l'administrer au moyen d'ordinateurs, alors que les gens écoutent les commentaires dans un écouteur pour enregistrer leurs réponses au moyen d'un microphone. Les évaluateurs écoutent ensuite les fichiers sonores enregistrés de façon à pouvoir évaluer les résultats des tests à partir des rubriques touchant la langue et le contenu. Le test oral constitue souvent le point de mire de la recherche dans le cadre du CAEL. En résumé, nous sommes confrontés à deux défis dont la solution permettrait non seulement d'améliorer la capacité du CAEL d'administrer le test, mais elle aiderait également l'industrie linguistique canadienne à faire en sorte que l'évaluation linguistique devienne plus facile. Le premier de ces défis consiste à mettre au point un système fiable afin d'apporter une contribution auditive aux gens qui font les tests et afin d'enregistrer leurs réponses, alors que le deuxième vise à examiner la possibilité de construire des algorithmes qui permettraient une évaluation informatisée des réponses aux tests. Il s'agit là de domaines où, nous croyons, l'équipe d'évaluation CAEL pourrait collaborer favorablement aux consortiums d'experts qu'on a réunis sous l'égide du CRTL.

 

Biographies

Virginia A. Taylor, directrice adjointe, School of Linguistics and Applied Language Studies, Carleton University
Mlle Taylor vit présentement à Ottawa, Canada où elle gère des programmes linguistiques à la Carleton University, en plus d'enseigner dans les domaines de la communication interculturelle et la formation des enseignants. À titre de directrice adjointe, elle est responsable des programmes intensifs d'anglais, langue seconde, des projets spéciaux et de l'évaluation CAEL. Elle détient un baccalauréat en sociologie, un certificat en enseignement de l'anglais et une M.A. en études linguistiques appliquées de la Carleton University. Virginia a enseigné au Canada, dans la République tchèque et au Mexique. Plus récemment, elle gérait des programmes de formation linguistique en milieu de travail dans les secteurs public et privé. Elle siège présentement sur le conseil d'administration du Conseil des langues du Canada.

Muhammad Usman Erdosy détient une maîtrise ès arts et un doctorat dans l'enseignement des langues secondes de l'Institut d'études pédagogiques de l'Ontario. En plus d'une expérience considérable dans l'enseignement de l'anglais en tant que langue seconde à la University of Toronto, il s'adonne à l'évaluation des connaissances linguistiques depuis 1997, premièrement en tant qu'examinateur et ensuite en tant que responsable de l'élaboration de tests et plus récemment, en tant que directeur des examens d'évaluation CAEL (Canadian Academic English Language). Il a pris part à plusieurs projets de recherche et d'élaboration de tests axés tout spécialement sur l'évaluation des compétences linguistiques dans un contexte académique. Ses préoccupations actuelles consistent à mettre à jour les exigences des tests dans le cadre des modules sur la langue écoutée, parlée, lue et écrite pour l'évaluation CAEL, ainsi qu'à élaborer un programme de longue durée de validation des tests basé sur leur contenu, leur formulation et l'étude des critères d'évaluation indigènes dans l'environnement souhaité des étudiants, dont les institutions d'enseignement supérieur (en Amérique du Nord).

Haut de la page

 

Conférence : L'apport de l'informatique à la recherche lexicographique

 

Roda P. Roberts, Directrice du Dictionnaire canadien bilingue, Université d'Ottawa
Le mercredi 30 novembre 2005

 

Résumé

L'informatique joue un rôle central dans toutes les étapes de la production dictionnairique : la consultation et l'analyse de la documentation, la préparation des entrées et leur révision. Dans cette communication, nous montrons le rôle de l'informatique dans la création du Dictionnaire canadien bilingue, qui constitue un des grands objectifs d'un projet de recherche interuniversitaire canadien.

 

Biographie

Mme Roda P. Roberts, titulaire d'un doctorat et traductrice agréée, est professeure titulaire à l'École de traduction et d'interprétation de l'Université d'Ottawa, dont elle a assumé la direction de 1979 à 1989. Elle a enseigné les langues, la traduction et l'interprétation dans des universités au Canada, aux États-Unis et en Inde. De plus, elle a formé des agents de formation de traduction et d'interprétation au Canada, aux États-Unis et au Mexique et elle a occupé le poste de consultante en programme d'études dans plusieurs établissements d'enseignement. Elle a écrit de nombreux articles portant sur la théorie de la traduction, la formation des traducteurs et des interprètes, la terminologie et la lexicographie. Actuellement, elle occupe le poste de directrice du Dictionnaire canadien bilingue, un projet lexicographique interuniversitaire regroupant l'Université d'Ottawa, l'Université de Montréal et l'Université Laval.

Haut de la page

 

Conférence : Utilisation de techniques d'extraction d'information pour la découverte d'opportunités d'affaires

 

François Paradis, chercheur, laboratoire RALI, Université de Montréal
Le jeudi 24 novembre, 2005

Résumé

MBOI (Matching Business Opportunities on the Internet) est un projet conjoint entre le RALI et Nstein Technologies visant une fonction clé du commerce électronique : la découverte d'opportunités d'affaires par l'analyse, l'appariement et la classification d'appels d'offres sur le Web. Plusieurs volets de recherche sont présentement en cours, dont la définition de modèles de langue, l'utilisation de profils d'entreprise, le filtrage par le contenu, l'intelligence d'affaire, etc. Dans cet exposé je mettrai l'emphase sur l'extraction d'information et deux de ses applications dans notre projet : la sélection de passages porteurs de sujet, et l'identification de liens d'affaires entre entreprises. Je présenterai diverses approches de filtrage basées sur le vocabulaire, une ontologie du domaine et l'extraction d'entités nommées, et leur impact sur la classification d'appels d'offres. J'expliquerai ensuite notre stratégie pour l'extraction de liens d'affaires, qui exploite le contexte d'apparition des co-occurrences et leur contenu sémantique par le biais de Wordnet. Je terminerai par quelques remarques sur les leçons apprises jusqu'à présent et notre positionnement par rapport aux tendances actuelles en recherche d'information.

Biographie

François Paradis a obtenu son doctorat de l'université Joseph Fourier en 1997, et a depuis travaillé au CSIRO en Australie, à l'université de Waikato, et présentement à l'université de Montréal. Ses intérêts incluent les libraires virtuelles, la recherche d'information et la classification automatique.

Haut de la page

 

Colloque : Détection automatique d’erreurs de traduction : le système TransCheck

 

Graham Russell, chercheur, laboratoire RALI, Université de Montréal

 

Résumé

Bien que la technologie ait été adoptée largement dans le monde de la traduction, plusieurs composantes du processus de traduction restent relativement inexploitées. L'une d'entre elles est le contrôle de la qualité et plus spécifiquement la détection d'erreurs de traduction.

On présentera le système TransCheck, un système actuellement en développement en collaboration entre le laboratoire RALI (Université de Montréal) et le CNRC, dans le cadre d'un projet du CRTL. TransCheck fournit un environnement de détection d'erreurs dans lequel s'insèrent différents modules conçus pour la détection de types d'erreurs définis. On abordera les difficultés générales auxquelles on fait face dans la détection d'erreurs de traduction; plusieurs classes d'erreurs peuvent maintenant être ciblées grâce aux techniques développées, dont chacune fera l'objet d'exemples, du point de vue tant linguistique que traductionnel; les mécanismes sous-jacents seront également décrits.

Le système TransCheck est disponible en démonstration et les parties intéressées à en poursuivre l'essai, et l'intégration et le développement sont les bienvenues.

Biographie

Graham Russell est chercheur au laboratoire RALI de l'Université de Montréal (Département d'informatique et de recherche opérationnelle), où il travaille essentiellement sur les technologies de traduction, ainsi que chercheur invité au Groupe de technologies langagières interactives du CNRC.

Auparavant, M. Russell a été chercheur aux universités East Anglia, Cambridge et de Genève, ainsi qu'au CITI (Centre d'innovation en technologie de l'information), ses intérêts de recherche couvrant la structure lexicale et l'application des méthodes à états finis à l'analyse du langage, à la génération de texte et à la traduction automatique. Récemment, il a participé aux travaux de la Carte routière technologique de l'industrie de la langue, travaux dirigés par AILIA.

Haut de la page

 

CliNE 2005 à l'UQO – Une réussite !

 

CLiNE (Computational Linguistics in the North East) est une journée de rencontre qui a été initiée par Sabine Bergler de l'Université Concordia à Montréal, où les deux premiers événements ont eu lieu, soit CLiNE 2002 et CLiNE 2004. C'était donc avec grand plaisir que les chercheurs de l'Outaouais ont eu l'honneur d'organiser l'événement CLiNE 2005, qui a eu lieu le vendredi le 26 août 2005 au pavillon Alexandre-Taché de l'Université du Québec en Outaouais (UQO).

Un total de 53 participants s'intéressant à la linguistique informatique et à ses applications – professeurs, chercheurs et étudiants – ont participé à CliNE 2005, en provenance principalement de Montréal, Québec et Ottawa. La conférence était organisée par Caroline Barrière, chercheure au GTLI (Groupe de Technologies Langagières Interactives) du CNRC en collaboration avec son collègue George Foster, du même groupe de R-D, et Jean Quirion, professeur et directeur du Département d'études langagières de l'UQO.

La journée s'est déroulée dans un climat positif d'échanges et de discussions. Divers thèmes de recherche ont été abordés au cours de huit présentations, soit :

  • la sémantique lexicale,
  • la terminologie computationnelle,
  • les résumés automatiques de textes,
  • l'extraction d'information à partir de sites web,
  • la classification de textes, et
  • la traduction automatisée.

De plus, au cours du dîner, une session de présentations par affiche était organisée afin de permettre aux participants de discuter en profondeur des sujets abordés par les auteurs de ces présentations.

Les articles de la conférence sont disponibles à l'adresse suivante : http://www.crtl.ca/cline05/papers_enfr.htm.

Nous sommes ravis du succès de CliNE 2005. L'an prochain, CLiNE 2006 se dirige vers Québec, où Marie-Josée Goulet et Joël Bourgeoys, étudiants en linguistique à l'Université Laval, nous accueillerons, pour continuer cette belle initiative.

Haut de la page

 

Conférence : Estimation du niveau de confiance lexical en traduction automatique

 

Nicola Ueffing, étudiante en doctorat, Université de Aachen, Allemagne
le mardi 11 octobre, 2005

Résumé

Le problème abordé lors de cette présentation est celui de l'évaluation de l'exactitude des sorties d'un système de traduction automatique, du point de vue lexical. Lorsque des utilisateurs humains sont impliqués, il est particulièrement utile de pouvoir identifier les contextes dans lesquels un système commet des erreurs.

J'effectuerai un survol des mesures du niveau de confiance lexical en traduction automatique statistique. Ces mesures sont le plus souvent basées sur des probabilités lexicales a posteriori, qui peuvent être directement interprétées comme des mesures du niveau de confiance. J'expliquerai différentes approches à leur calcul: certaines de ces approches font usage des sorties des systèmes, telles que des graphes de mots et des listes de traductions probables; d'autres approches font appel à des modèles statistiques extrinsèques. Je présenterai les résultats d'une comparaison expérimentale entre ces mesures, sur une tâche de traduction automatique de manuels techniques.

Je montrerai également comment de telles mesures peuvent être utilisées dans un système de traduction automatique statistique interactif. Le système dont il sera question prédit la traduction d'une phrase, en tenant non seulement compte de celle-ci, mais également d'éléments partiels de la traduction de cette phrase, qui ont déjà été saisies ou approuvées par l'utilisateur. Les mesures du niveau de confiance permettent d'améliorer la qualité des prédictions d'un tel système.

Biographie

Nicola Ueffing complète présentement ses études doctorales à l'université d'Aachen. Ses intérêts de recherches comprennent la traduction automatique statistique et l'apprentissage automatique. Son principal sujet de recherche porte sur l'estimation de confiance pour la traduction automatique statistique.

Haut de la page

 

Conférence : Exploitation des particularités lexicales de corpus pour l'acquisition automatique de termes

 

Dr. Patrick Drouin, Université de Montréal
le 21 septembre, 2005

Résumé

Je présenterai une technique d'acquisition automatique de termes se fondant sur une mise en opposition de corpus possédant des caractéristiques différentes. Une description détaillée de la technique utilisée ainsi que sa mise en application au sein du logiciel TermoStat seront abordées. Je décrirai ensuite les résultats des quelques expérimentations menées sur l'anglais, sur le français et sur le coréen. Je terminerai ma présentation sur quelques exemples d'utilisation de cette technique à d'autres fins que l'acquisition de termes et sur des pistes de recherche mises en lumière à la suite des travaux complétés.

Biographie

Patrick Drouin est professeur adjoint au Département de linguistique et de traduction de l'Université de Montréal où il enseigne la localisation et la traduction. Ses recherches portent principalement sur l'acquisition automatique de la terminologie. Avant son arrivée à l'Université de Montréal, il a agi à titre de spécialiste en technologies langagières pour les sociétés Nortel Networks et Computer Sciences Corporation.

Haut de la page

 

LISA Forum Europe 2005 - Succeeding in Global Markets

 

LISA Forum Europe
Succeeding in Global Markets
Automating Process Technologies and Open Standards for Managing Information Worldwide

Are you saddled with going global, in addition to your "real job?" What if you could find clear guidelines, best practice and standards (all in one place), so that you could deliver on your international objectives and return to your other responsibilities?

Let the Localization Industry Standards Association (LISA) help you achieve peace of mind through accessing the process and procedures for going global without having to reinvent them. Shorten your learning curve and plug into a worldwide network of globalization professionals during the LISA Forum Europe 2005, Succeeding in Global Markets, to be held in Zurich, Switzerland from November 7-11.

Register now and you will receive an Early Bird Discount for the Forum, as well as an additional discount when you register for the Forum and any workshop!

https://www.lisa.org/events/2005zurich/registration.html?from=mm

A three-day exhibition featuring the industry's leading language technology developers of machine translation, content management and workflow systems, web-services, internationalization, translation and localization suppliers will take place during the Forum.

http://www.lisa.org/events/2005zurich/index.html/exhib/?from=mm

Haut de la page

 

Conférence : Apprentissage probabiliste pour l'organisation et la gestion des documents

 

Cyril Goutte, Chercheur, Xerox Research Centre Europe (Grenoble, France)
le 8 juillet, 2005

Résumé

Apprendre à organiser automatiquement l'information textuelle est un défi clef alors que la taille des collections de documents s'accroît à mesure que les coûts de stockage diminuent.

Je vais présenter un modèle de document probabiliste et hiérarchique, inspiré de l'analyse sémantique probabiliste latente (PLSA), qui peut être utilisé pour automatiquement organiser une collection de documents et pour catégoriser des nouveaux textes dans une taxonomie existante.

Ce modèle permet de prendre en compte les dépendances intrinsèques dans une structure hiérarchique et possède de bonnes propriétés d'extensibilité, ce qui le rend particulièrement adapté au traitement de structures comprenant des milliers de catégories. Il a été utilisé chez Xerox sur plusieurs problèmes comprenant du filtrage, du routage ou de la fouille de texte, sur des collections de données internes et externes à Xerox.

Nous verrons comment ce modèle de document est lié à une technique d'analyse de données utilisée pour décomposer des données en composantes additives : la factorisation en matrices non-négatives. Nous verrons aussi comment étendre ce modèle de façon à permettre l'apprentissage à partir d'un mélange de données annotées et non annotées (apprentissage semi-supervisé). L'algorithme EM standard (espérance-maximisation) est étendu à l'apprentissage semi-supervisé, tout en maintenant une estimation raisonnable du niveau de confiance dans la décision de classification.

Biographie

Cyril Goutte est diplômé de l'ENSTA (Paris, 1992) et a obtenu un doctorat à l'Université Paris 6 en 1997. Il est actuellement chercheur au Centre de recherche européen de Xerox à Grenoble (France), où il travaille sur l'apprentissage automatique appliqué à l'analyse du contenu des documents. Ses recherches publiées incluent des travaux sur l'apprentissage automatique, l'accès à l'information textuelle et la neuro-imagerie fonctionnelle.

Haut de la page

 

CLiNE 2005 - Computational Linguistics in the North-East

 

le 26 août, 2005
Université du Québec en Outaouais
Gatineau, Québec

DEUXIÈME APPEL AUX CONTRIBUTIONS

En 2002, Sabine Bergler donnait l'envol à la journée CLiNE, à l'université Concordia. Il s'agit d'un temps de rencontre pour les chercheurs de la région travaillant en linguistique informatique. Il s'agit d'une journée d'échange avec présentation d'articles et d'affiches. Le but de CLiNE est de connaître le travail des laboratoires de la région du Nord-Est oeuvrant dans le domaine de la linguistique informatique, d'échanger des idées, ainsi que de donner aux étudiants la possibilité de présenter leur travail et de participer à des discussions avec des chercheurs.

L'enthousiasme pour CLiNE 2002 était élevé, et encore plus à CLiNE 2004. Nous allons donc de l'avant avec CLiNE 2005, et pour changer un peu de milieu (et donner une pause à Sabine!), l'évènement se transporte à Gatineau pour 2005.

Nous vous invitons à soumettre des articles pour CLiNE 2005.
Voir notre site web à http://www.crtl.ca/cline05/cline05_fr.htm

Il y aura deux volets : articles longs (8 pages max - présentations de 20 minutes) et affiches/demo (max 4 pages).
Les articles et affiches seront révisés par un comité de programme.

Les articles longs doivent décrire une recherche à un stade avancé et non publiée précédemment.
Les affiches peuvent décrire un travail en cours.
Les démonstrations doivent être décrites (4 pages max) pour donner le cadre théorique et applicatif.

Dates importantes :

Date butoir pour soumission des articles et posters/démo : 10 juin 2005.
Date butoir pour l'annonce des acceptations : 8 juillet 2005.
Date butoir pour l'envoi de la copie finale : 10 août 2005
Date butoir pour l'inscription : 10 août 2005
Journée CLiNE 2005 : 26 août 2005

Les soumissions doivent être faites en envoyant un couriel à George.Foster@nrc-cnrc.gc.ca

Frais d'inscription : CAN 30,00 $
(Les détails pour l'inscription seront donnés à une date ultérieure.)

Organisation de l'évènement :
Caroline Barrière, CNRC
Caroline.Barriere@nrc-cnrc.gc.ca

Comité de programme :
George Foster, CNRC (Responsable du comité de programme)
Diana Inkpen, Université d'Ottawa
Lyne Da Sylva, Université de Montréal
Sabine Bergler, Université Concordia

Arrangements locaux :
Caroline Barrière, CNRC
Jean Quirion, Université du Québec en Outaouais

Haut de la page

 

Conférence : TransType2 : les résultats finaux

 

Elliott Macklovitch, Laboratoire RALI, Université de Montréal
le 27 mai, 2005

Résumé

Le système TransType présente plusieurs aspects novateurs en matière de traduction automatique interactive : premièrement, l'interaction entre l'usager et le système porte sur la rédaction du texte cible et non pas sur la désambiguïsation du texte source ; et deuxièmement, les prédictions proposées par le système proviennent d'un moteur de traduction probabiliste, ce qui permet au système d'adapter ses complétions à l'input de l'usager. TransType2 est un projet de recherche international auquel ont participé des partenaires canadiens et européens. Le projet visait à développer une version avancée de cette approche à la TA interactive. Le projet a pris fin en Europe il y a quelques mois. Deux cabinets de traduction faisaient partie du consortium TT2 et ont affecté des traducteurs aux essais trimestriels du système. Dans ce séminaire, je présenterai les résultats des dernières rondes de ces essais et je tâcherai de tirer des conclusions plus générales au sujet de cette approche à la TA.

Biographie

Linguiste de formation, Elliott Macklovitch œuvre dans le domaine de la traduction assistée par ordinateur (TAO) depuis 1977, année où il s'est joint au groupe TAUM de l'Université de Montréal. Il a ensuite été chargé de projets en TA au Bureau de la traduction du gouvernement fédéral, où il a dirigé l'évaluation de plusieurs systèmes de TA commerciaux, en plus de travailler comme traducteur – expérience inestimable pour quelqu'un qui s'intéresse à l'automatisation de la traduction. Entre 1986 et 1996, il a été chercheur, chargé de la coordination des projets au Centre d'innovation en technologies de l'information (CITI); au sein du groupe TAO, il était responsable du projet de poste du travail du traducteur. Ce groupe a été transféré à l'Université de Montréal en 1997, où l'on a créé un nouveau laboratoire de recherche appelé le RALI (un acronyme pour Recherche appliquée en linguistique informatique). M. Macklovitch occupe le poste de coordonnateur du RALI depuis janvier 1999.

Auteur de nombreuses publications sur la TAO, il était président de l'AMTA (Association for Machine Translation in the Americas) de 2000 à 2004.

 

Il n'est pas nécessaire de s'inscrire à l'avance à ce colloque de l'ITI-CNRC, et l'entrée est gratuite.

Ouvert au public

Haut de la page

 

Conférence : La base lexicale DiCo et sa version en ligne DiCouèbe

 

Alain Polguère, Département de linguistique et de traduction de l'Université de Montréal
le 6 mai 2005

Résumé

Je présenterai l'état d'avancement du projet DiCo de modélisation des liens lexicaux paradigmatiques et syntagmatiques du français. Les quatre points suivants seront examinés :

  1. contenu et structure du DiCo;
  2. méthodologie de construction;
  3. le DiCouèbe : interface d'accès en ligne aux données du DiCo;
  4. utilisations potentielles et développements à venir.

Le DiCo est un projet effectué dans le cadre des travaux du groupe de Recherché Observatoire de linguistique Sens-Texte (OLST) de l'Université de Montréal. Ces travaux couvrent un large spectre de la recherche sur la langue, dans les domaines de la linguistique formelle, lexicographie informatisée, terminologie, traduction et linguistique appliquée à l'enseignement.

Biographie

Alain Polguère est, depuis 1995, professeur au Département de linguistique et de traduction de l'Université de Montréal. Auparavant, il a œuvré dans le domaine de la recherche et du développement en traitement automatique de la langue, puis a enseigné pendant quatre ans la lexicologie, la linguistique informatique et la linguistique générale au Département de langue et littérature anglaises de l'Université Nationale de Singapour. Ses principales activités de recherché se situent en lexicologie, lexicographie, sémantique formelle, traitement automatique de la langue et linguistique appliquée à l'enseignement. Il est directeur du groupe de recherche Observatoire de linguistique Sens-Texte (OLST).

Haut de la page

 

La prochaine conférence de la LISA

 

La Localization Industry Standards Association (LISA) tiendra sa prochaine conférence à Boston du 23 au 27 mai 2005. La conférence portera sur la localisation au cours du prochain millénaire et la gestion des possibilités et défis qui en découleront (« Localization for the Next Millennium — Managing Emerging Opportunities and Challenges »). Pour obtenir plus d'information, veuillez consulter le site Web de la LISA (http://www.lisa.org/events/2005boston/).

En vue de favoriser la participation des Canadiennes et Canadiens lors de cette activité, le programme de l'industrie de la langue (PIL) d'Industrie Canada offrira un soutien pour favoriser la participation des sociétés de traduction et de localisation canadiennes (http://strategis.ic.gc.ca/epic/internet/inlip-pil.nsf/fr/Home). L'AILIA sera également présente (http://www.ailia.ca).

Voici quelques points importants qu'il est bon de se rappeler :

  •  Nous vous encourageons à nous envoyer votre demande de participation le plus tôt possible, car elle sera traitée immédiatement. Pour accélérer le processus, veuillez vous assurer de fournir tous les renseignements requis.

  •  Si votre demande est acceptée, rappelez-vous que le PIL ne peut vous rembourser vos dépenses de façon rétroactive (c'est-à-dire les dépenses que vous avez déjà payées). Vous pouvez faire vos préparatifs de voyage, mais vous ne pourrez payer la facture qu'une fois que vous aurez en votre possession une entente de contribution datée et signée.

  •  Finalement, rappelez-vous qu'une société peut présenter une demande au PIL une seule fois par année. Donc, si vous désirez profiter pleinement des avantages de ce programme, nous vous encourageons à inclure dans votre demande un nombre suffisant d'activités pour pouvoir obtenir le financement maximal qui peut être accordé à une société annuellement, soit 50% des dépenses admissibles jusqu'à concurrence de 10 000 $.

Si vous avez d'autres questions concernant le PIL, veuillez communiquer directement avec le coordonnateur du programme à l'adresse suivante : LIP-PIL@ic.gc.ca.

Haut de la page

 

Conférence : Une approche à la traduction automatique statistique par segments discontinus

 

Michel Simard, Xerox Research Centre Europe
le 8 avril, 2005

Résumé

Je présenterai une méthode de traduction automatique statistique basée sur des segments non continus, c'est-à-dire des segments de texte comportant des « blancs ».

Je proposerai d'abord une méthode pour produire de tels segments à partir de corpus alignés au niveau des mots, puis un modèle de traduction statistique capable de tenir compte de tels segments, de même qu'une méthode d'apprentissage des paramètres du modèle visant à maximiser l'exactitude des traductions produites, telle que mesurée avec la métrique NIST.

Les traductions optimales sont produites par le biais d'une recherche en faisceau, que je décrirai brièvement.

Je présenterai finalement des résultats expérimentaux, qui démontrent comment la méthode proposée permet une meilleure généralisation à partir des données d'entraînement.

Biographie

Michel Simard est chercheur post-doctoral au sein de l'équipe d'apprentissage machine du Xerox Research Centre Europe, à Grenoble. Il a obtenu en 1986 un BSc en mathématiques et informatique à l'Université de Montréal, une maîtrise en informatique à l'Université McGill en 1990, et un doctorat en informatique à l'Université de Montréal en 2003. Par le passé, il a travaillé comme chercheur au CITI (un institut de recherche anciennement partie d'Industrie Canada) et au laboratoire RALI de l'Université de Montréal. Ses travaux de recherche portent sur l'application de méthodes d'apprentissage machine à la traduction automatique, la traduction assistée par ordinateur, et d'autres tâches en traitement automatique des langues naturelles.

Haut de la page

 

Début symbolique des travaux de construction du CRTL

 

Pour souligner le début des travaux de construction du Centre de recherche en technologies langagières (CRTL), les médias ont été conviés, ce jeudi 20 janvier 2005, à une conférence de presse, suivie d'une pelletée de terre symbolique.

Parmi les dignitaires présents, il y avait M. Benoît Pelletier, ministre délégué aux Affaires intergouvernementales canadiennes et aux affaires autochtones et député provincial de Chapleau, M. Marcel Proulx, député fédéral de Hull-Aylmer, M. Roch Cholette, député provincial de Hull, et M. Yves Ducharme, maire de la ville de Gatineau.

Le recteur de l'UQO, M. Francis R. Whyte, a profité de cette occasion pour rappeler l'importance de ce centre de recherche pour le développement de l'Université et pour présenter officiellement le consortium d'architectes Fortin Corriveau Salvail / Menkès Shooner Dagenais LeTourneux retenu pour réaliser cet important projet d'infrastructure sur les terrains de l'Université.

Les dignitaires se sont par la suite déplacés à l'extérieur des murs de l'Université pour procéder à la traditionnelle pelletée de terre.

Rappelons que le CRTL est le fruit d'une collaboration entre l'UQO, le Bureau de la traduction du Canada et le Conseil national de recherches Canada, principaux partenaires de recherche, et les partenaires suivants : Industrie Canada, ministère du Développement économique, de l'Innovation et de l'Exportation du Québec, Développement économique Canada, Association de l'industrie de la langue et Corporation de développement économique de la ville de Gatineau.

Haut de la page

 

Conférence : Les défis de Coveo liés au multilinguisme du contenu

 

Pascal Soucy et Frédérick Brault
le 3 décembre, 2004

Résumé

La gestion de contenu est un domaine en pleine effervescence, tant sur le plan de la recherche que sur celui du marché, ce dernier étant en forte croissance. De l'acquisition du contenu jusqu'à sa publication, la gestion de contenu est consacrée à l'organisation, à l'indexation, à la classification et à la structuration du contenu afin de permettre son stockage, sa publication et sa réutilisation.

Coveo Solutions Inc., auparavant Copernic Business Solutions, développe des solutions de gestion de contenu pour entreprises, plus particulièrement en ce qui a trait à la recherche d'information.

Au cours de cette présentation, nous exposerons les défis posés par le multilinguisme du contenu dans le contexte d'un moteur de recherche commercial pour entreprises, défis qui sont pour la plupart partagés par d'autres applications de gestion de contenu. Il sera plus particulièrement question du support de certaines langues asiatiques, telles que le japonais, le chinois et le coréen.

Biographies

Après avoir enseigné l'informatique au Cégep de Sainte-Foy de 1997 à 2001, Pascal Soucy est engagé chez Copernic où, dans le cadre d'une solution de recherche pour entreprises, il s'intéressera particulièrement au classement des résultats, à l'identification automatique de la langue et de l'encodage d'un document et à la correction automatique des requêtes. Il reçoit en 2002 une maîtrise en informatique de l'Université Laval; le sujet de son mémoire concerne la sélection d'attributs pour la catégorisation de textes. Il entreprend ensuite son projet de recherche de doctorat, qui porte sur les caractéristiques temporelles des attributs dans les modèles d'apprentissage.

Frédérick Brault a obtenu un baccalauréat et une maîtrise en linguistique de l'Université Laval. À cette même université, il a travaillé à l'avancement de la Théorie sur les Contraintes et Stratégies de Réparation (phonologie), au Projet CoPho et participé ensuite, au CIRAL, à l'évaluation et l'amélioration d'une technologie d'extraction terminologique. Pendant ce temps, ses études de deuxième cycle l'ont conduit à évaluer les limites des trigrams pour l'étiquetage automatique du français. En 2001, il joint l'équipe de Copernic où, entre autres, il a participé au développement des technologies de résumé automatique, d'extraction terminologique, d'analyse syntaxique et de lemmatisation. Ses principaux intérêts sont la syntaxe et la phonologie.

Haut de la page

 

Conférence : Un espace de traits général pour la classification automatique des verbes

 

Eric Joanis
le 12 novembre, 2004

Résumé

Nous avons développé et appliqué un espace de traits général pour la classification automatique des verbes en classes lexico-sémantiques. Une telle classification peut servir à identifier des schémas courants dans une langue et peut s'avérer utile à la traduction ou à l'analyse syntaxique automatique.

Pour quantifier un ensemble de caractéristiques linguistiques potentiellement utiles des classes de verbes, nous avons défini 224 indicateurs statistiques et extrait des estimés à partir du British National Corpus. Ces indicateurs constituent notre espace de traits général (ETG). À l'aide de machines à support vecteur (SVM), nous avons mis l'ETG à l'épreuve avec 11 tâches de classification entre deux ou plusieurs classes et de divers degrés de difficulté prévus.

Nous avons obtenu des réductions du taux d'erreur entre 38% et 88% par rapport à la performance de base. Les résultats obtenus avec l'ETG sont comparables à ceux obtenus à l'aide de traits choisis manuellement pour ces mêmes tâches. En analysant la structure de la classification une seule fois et de façon générale, nous évitons de devoir choisir à la main, tâche par tâche, les traits pertinents, ce qui exige un travail important de la part d'experts.

Nous avons fait des expériences supplémentaires pour déterminer la contribution des différents types de traits constituant l'ETG. Étonnamment, les traits syntaxiques, surtout ceux concernant les prépositions, sont de loin les plus importants, alors que les traits relevant d'une analyse linguistique plus profonde ont peu contribué à la performance globale de l'ETG. Ce résultat pourrait être dû aux différents rapports signal sur bruit ou à la nature de la classification de Levin (1993), mais pourrait aussi être une conséquence de la structure linguistique de l'anglais. D'autres expériences, utilisant les cadres de sous-catégorisation au lieu de l'ETG, ont confirmé le rôle prédominant des prépositions.

Nos résultats démontrent que l'approche est généralement applicable et évite de devoir faire une analyse linguistique approfondie pour chaque nouvelle tâche. Le système d'apprentissage automatique arrive à identifier et à utiliser les parties de l'ETG riches en information, tout en nous donnant des indications sur la structure de la langue. Notre méthodologie est prometteuse pour d'autres langues et d'autres tâches de classification.

Biographie

Eric Joanis a obtenu son baccalauréat en informatique à l'Université de Waterloo en 1996. Il a ensuite travaillé chez Télévitesse (alors affiliée à Newbridge) où il a contribué à la catégorisation automatique et à la segmentation des bulletins d'actualité télévisés au moyen du sous-titrage codé pour malentendants.

En 2002, il a obtenu sa maîtrise en informatique à l'Université de Toronto; sa thèse est le sujet principal de l'exposé. Depuis, il travaille en tant que programmeur et assistant à la recherche en linguistique informatique : il a travaillé à la classification semi-supervisée des verbes à l'Université de Toronto and à la désambiguïsation d'occurrences de verbes à l'Université de Genève. Il travaille maintenant à la partie allemande d'un projet d'analyse syntaxique multilingue, toujours à l'Université de Genève.

Haut de la page

 

Conférence : Monter un système de traduction automatique statistique basé sur les syntagmes : le cas de l'évaluation IWSLT

 

Philippe Langlais
le 19 octobre, 2004

Résumé

Au cours de cette présentation, je décrirai les efforts réalisés dans le cadre de la campagne IWSLT 2004 pour mettre au point un système de traduction du chinois vers l'anglais. Je proposerai dans un premier temps un survol de la littérature sur les approches statistiques basées sur les séquences de mots. Je décrirai ensuite comment nous avons réussi à construire en un mois un système décent, en ayant recours à des outils facilement accessibles. Enfin, je tenterai de préciser les limites d'une telle entreprise, et ce, à la lumière des résultats qui seront dépouillés lors de l'atelier dans le cadre de la campagne IWSLT.

Biographie

Philippe a récemment été nommé professeur dans le département d'informatique et de recherche opérationnelle (DIRO) de l'Université de Montréal dans le domaine de la linguistique computationnelle. Il a obtenu son PhD de l'Université d'Avignon en 1995, travaillant sur la reconnaissance de la parole à LIA, après avoir travaillé pendant trois ans dans le groupe de technologie de la parole à IDIAP, (Institut Dalle Molle d'intelligence artificielle et perceptive) en Suisse. Entre 1995 et 1997, Philippe a été chargé de cours et chercheur à l'Université d'Avignon, où il était également coordonnateur du projet ARCADE, ayant comme objectif premier l'alignement multilingue, financé par AUPELF-UREF. L'année suivante, il était chercheur invité au CTT, une unité dans le département de la parole, la musique, et l'audition (TMH) du Royal Institute of Technology (KTH), à Stockholm. Philippe est devenu membre du RALI en 1998, où il travaille dans le domaine du traitement statistique des langues naturelle et de la ttraduction probabiliste.

Haut de la page

 

Conférence : L'analyse syntaxique de l'allemand : des expériences avec une langue autre que l'anglais

 

Amit Dubey
le 28 septembre, 2004

Résumé

Cette présentation sera axée sur mes recherches doctorales dans le domaine de l'analyse syntaxique de l'allemand qui utilise des méthodes statistiques. L'utilisation de méthodes statistiques pour l'analyse syntaxique est un sujet d'actualité. Pourtant, la grande majorité des travaux ne se sont concentrés que sur l'anglais. Une question importante se doit d'être posée : les techniques développées pour l'anglais sont-elles également utiles pour d'autres langues?

J'aborde cette question en présentant mes résultats portant sur l'analyse syntaxique de l'allemand. Il y a deux différences syntaxiques importantes entre l'allemand et l'anglais : l'ordre des mots varie plus dans une phrase en allemand et la morphologie y est plus productive. Je démontre que deux techniques conventionnelles utilisées en anglais, soit la lexicalisation (Collins, 1999 ; Charniak, 1997) et l'utilisation d'un plus grand nombre de structures arborescentes (Johnson, 1998; Charniak 2000; Klein & Manning 2003) ne peuvent modeler correctement les aspects particuliers de la syntaxe de l'allemand. En effet, ces deux techniques conventionnelles sont moins efficaces qu'une approche inspirée de méthodes attribut-valeur qui tient compte de l'ordre des mots et de la morphologie.

Mes travaux montrent également que les métriques normales pour l'évaluation de l'analyse syntaxique ont un comportement inattendu lorsqu'elles sont appliquées aux modèles que j'ai mis à l'essai. En conclusion, mes recherches soulignent l'importance de phénomènes propres à chaque langue et qu'il est très facile d'ignorer des éléments importants des protocoles d'évaluation. Ces deux conclusions ont des répercussions directes sur les efforts qui visent à développer des analyseurs syntaxiques dans un plus grand nombre de langues.

Biographie

Amit Dubey détient un baccalauréat en informatique, programme d'enseignement coopératif, de l'Université de Waterloo. Il y a par la suite complété une maîtrise en mathématiques, se spécialisant en linguistique computationnelle sous la direction du professeur Nick Cercone. Ses recherches doctorales se poursuivent à l'Université de Saarland en Allemagne, sous la direction du professeur Matthew Crocker de l'Université de Saarland et du professeur Frank Keller de l'Université d'Edimbourg.

Haut de la page

 

Conférence : Traitement des documents multilingues au CRXE (en anglais)

 

Pierre Isabelle
le 3 août, 2004

Résumé

Xerox effectue des recherches sur le traitement des langages naturels (TALAN) depuis plus de 25 ans. Depuis la création du CRXE en 1993, le rythme des recherches a été accéléré et on insiste fortement sur l’aspect multilingue. Le TALAN multilingue est une tâche très difficile, non seulement parce qu’il faut traiter des langages différents et d’un même niveau de complexité, mais aussi parce qu’il faut établir des liens entre des systèmes linguistiques qui sont souvent très éloignés. Le CRXE s’attaque à ce défi à l’aide d’une approche à plusieurs niveaux. Le premier niveau est formé d’un logiciel linguistique tributaire d’un langage qui est fondé sur un ensemble de technologies de base, comme l’outil de calcul des états finis de Xerox. Ces outils sont souvent utilisés pour l’élaboration de composantes linguistiques (ou de combinaisons de langages) réutilisables (p. ex., analyseurs morphologiques, étiqueteurs de parties de discours, analyseurs syntaxiques, dictionnaires bilingues). Enfin, les ressources linguistiques obtenues sont déployées dans diverses applications pour de nombreux langages différents : recherche documentaire, classification de documents, gestion de la terminologie, extraction de l’information, enrichissement des documents et aides à la traduction et à la rédaction.

Biographie

Pierre Isabelle dirige actuellement le groupe de l'analyse du contenu du Centre de recherche Xerox de l'Europe (Grenoble). Il est également professeur agrégé au département d'informatique de l'Université de Montréal.

Docteur en linguistique informatique, il a commencé sa carrière de chercheur en 1975 comme membre du groupe de traduction automatique TAUM à l'Université de Montréal. De 1985 à 1996, il a dirigé l'équipe de traduction assistée par ordinateur du CITI, un laboratoire de recherche du ministère de l'Industrie du Canada. En 1997, il est retourné à l'Université de Montréal comme chef du laboratoire RALI du département d'informatique, pour ensuite se joindre au Centre de recherche Xerox de l'Europe en 1999.

Il a rédigé de nombreuses publications scientifiques sur la traduction assistée par ordinateur et le traitement des langages naturels. Il est actuellement rédacteur de la rubrique « Squibs and Discussions » de la revue Computational Linguistics et membre du comité de rédaction de Machine Translation. Il a organisé plusieurs conférences scientifiques internationales, notamment COLING-ACL'98 et ACL-02, et il fait partie du International Committee on Computational Linguistics (ICCL).

Haut de la page

 

L'immeuble du Centre de recherche en technologies langagières (CRTL)

 

Le 20 mai 2004, on annonce officiellement la construction d’un immeuble qui hébergera le Centre de recherche en technologies langagières (CRTL). Le bâtiment de quatre étages d’une superficie de 5 400 m2 (54 000 pi2) sera construit à Gatineau, sur le campus de l’Université du Québec en Outaouais (UQO), à côté de l’immeuble Alexandre-Taché, situé au 283, boulevard Alexandre-Taché, Gatineau, Québec.

Lorsqu’il sera terminé en 2006, l’immeuble du CRTL pourra accueillir jusqu’à 150 chercheurs et experts en plus de l’équipement nécessaire à la recherche et au développement. Les travaux de construction devraient commencer au début de 2005.

La construction de l’immeuble représente un investissement de 15,2 millions de dollars dans le CRTL. Le gouvernement canadien, par l’entremise de Développement économique Canada pour les régions du Québec, apporte une contribution de 9,1 millions de dollars, le ministère du Développement économique, de l'Innovation et de l'Exportation du Québec verse 5,75 millions de dollars et l’UQO et d'autres partenaires comblent l’écart avec un montant de 350 000 dollars.

Haut de la page

 

Conférence : Recherche d'information translinguistique : une approche basée sur les corpus comparables

 

Fatia Sadat
le 5 juillet, 2004

Résumé

Devant l'expansion des collaborations internationales, la masse croissante de ressources et textes accessibles via Internet en différentes langues et l'augmentation du nombre d'usagers ne maîtrisant pas l'anglais, de nombreux travaux ont été mis en place pour le développement d'outils en Recherche d'Information Translinguistique (RIT). Ce type de recherche permet aux usagers de préciser une requête dans une langue afin de trouver les documents pertinents dans une langue (ou plusieurs langues) différente(s).

Des recherches empiriques ont montré que l'ambiguïté dans la traduction engendrée par les mots polysémiques, la manipulation des mots composés et des phrases, le manque de ressources lexicales ainsi que l'absence de mots dans les dictionnaires bilingues font partis des principaux obstacles liés à la RIT. Ces problèmes ont été reconnus pour plusieurs langues.

Dans cet exposé, je présenterai quelques réflexions sur l'extraction de terminologie bilingue des corpus comparables qui servira à améliorer la performance de la RIT et enrichir les ressources lexicales bilingues existantes. Je décrirai un modèle de traduction en deux étapes basé sur les corpus comparables et les connaissances morphologiques des termes sources et candidates de traduction. Une étude de cas en RIT est réalisée en utilisant des requêtes en japonais et une collection de documents en anglais. Une combinaison linéaire de modèles de traduction basés sur les corpus comparables, les dictionnaires bilingues et la translittération est aussi proposée.

Les évaluations utilisant différents schémas de pondération de SMART ont montré que si on dispose de ressources multiples pour la traduction de requêtes, leur combinaison améliore grandement la performance de la RIT.

Biographie

Fatiha Sadat est actuellement chercheur post-doctorant associé à la JSPS à l'Institut National d'Informatique, Tokyo, Japon. Elle a reçu un Doctorat en Ingénierie de l'Institut des Science et Technologie (NAIST) en septembre 2003. Elle a contribué au projet MuchMore, en tant que chercheur invité au Xerox Research Centre Europe, durant l'été 2001. Ses intérêts de recherche comprennent la recherche d'information translinguistique et multilingue, le traitement du langage naturel, génération automatique de résumés, etc. Ses articles techniques sont publiés dans plusieurs conférences et journaux. Dr. Sadat est membre de IEEE, ACL, ACM SIGMOD et IPSJ.

http://db-www.aist-nara.ac.jp/%7Efatia-s/index-fr.html

Haut de la page

 

Salon des études langagières du CRTL

Dans le cadre de la journée Portes ouvertes de l'UQO qui se tiendra le mercredi 31 janvier 2007, de 16 h à 20 h, se déroulera le tout premier salon des études langagières du CRTL.

Cette activité se déroulera au Centre de recherche en technologies langagières (CRTL), situé au pavillon Alexandre-Taché, 283, boulevard Alexandre-Taché, à Gatineau (secteur Hull).

Vous êtes invités à venir :

  • rencontrer les responsables des différents programmes en études langagières offerts à l'UQO
  • découvrir une grande variété d'exposants reliés à l'industrie de la langue
  • assister à des conférences traitant de thèmes d'actualité reliés aux études langagières
  • visiter le Centre de recherche en technologies langagières (CRTL)

Conférence à 17 h et à 18 h 30

« L'avenir de la traduction : perspectives d'abondance »
présentée par Donald Barabé, vice-président au Bureau de la traduction
Local : F-0129 du CRTL

Stationnement gratuit

Pour plus d'information : 819 595-3900, poste 3841 ou 1 800-567-1283, poste 3841 ou par courriel à questions@uqo.ca.

 

 

Haut de la page

 

 

 
Site Web du Bureau de la Traduction du Canada Site Web du Conseil national de recherches du Canada Site Web du l'Université du Québec en Outaouais
Qui nous sommes
Expertise
Projets de recherche
Salle de presse
Publications
Formulaires électroniques

Possibilités de carrière
Aide Quoi de neuf Contactez-nous English