Écho des études romanes 2013, 9(2):35-45 | DOI: 10.32725/eer.2013.016
Extension du dictionnaire électronique grec de termes boursiers à partir d’un corpus spécialiséFrench
- 1 Université Aristote de Thessalonique
- 2 Université Paris-Est Marne-la-Vallée
Un des problèmes essentiels en traitement automatique des langues (TAL) est celui des mots non reconnus par les systèmes d'analyse automatique, quelle que soit l'approche adoptée, linguistique, statistique ou hybride. Dans ce travail, nous définissons comme mots inconnus les mots non reconnus dans un corpus donné, précisément dans le corpus boursier grec, car ils ne sont pas répertoriés dans les dictionnaires électroniques généraux et terminologiques du grec auxquels ont recours les systèmes de TAL. Dans un domaine de spécialité, ce problème s'avère l'un des plus délicats du fait de l'évolution rapide des langues techniques ou scientifiques. Pour l'enrichissement de ces ressources et afin d'exploiter de nouveaux domaines, il est nécessaire d'acquérir rapidement la nouvelle terminologie et de mettre à jour les ressources existantes.
Parmi les mots inconnus, figurent des néologismes, mais aussi des mots étrangers, transcrits en grec ou en alphabet latin, des mots en écriture hybride (caractères grecs et latins), des noms propres, des sigles, des mots mal orthographiés et en principe des mots non accentués. Ces mots non reconnus freinent l'analyse automatique des textes boursiers. L'objet du présent travail est l'étude de mots inconnus du corpus boursier (CoBourse), ce qui nous permettra l'ajout de termes néologiques dans le dictionnaire électronique des termes du domaine boursier. Nous nous limitons aux mots simples, les unités polylexicales demandant une approche de traitement différente. À partir de données extraites, nous proposons des heuristiques pour l'annotation semi-automatique des mots inconnus détectés à l'aide du système Unitex, afin de les intégrer dans le dictionnaire de termes boursiers.
Mots clés: mots inconnus ; extension des dictionnaires électroniques ; corpus spécialisé ; langue de spécialité
Extending the Greek electronic dictionary of stock market terms from a specialized corpus
The problem of unknown words (words not recognized by automated language analysis systems) is one of great importance for Natural Language Processing (NLP). In this paper, we consider as unknown those words which are not recognized in a given corpus, the corpus of Greek Stock Exchange texts, since they are not included in the general dictionaries and terminologies for the Greek language, as used by the NLP systems. In this special domain, it is a critical issue, due to the rapid development of technical and scientific languages. In order to expand our resources, especially as regards new domains, it is necessary to acquire new terms as soon as possible and include them among the existing resources. Many of the unknown words are actually neologisms, and also loan words, written in the Latin or Greek alphabets, words in hybrid form (both Latin and Greek alphabet), proper names, abbreviations, incorrectly spelled words, words without accents etc. The aim of this work is to study the unknown words comprised in the Stock Exchange corpus (CoBourse) and to make them part of the dictionary of Stock Exchange terms. In this paper, we focus especially on simple words, as multiword expressions require a different approach.
Keywords: unknown words; expansion of electronic dictionaries; specialized corpus; specialized language
Published: December 11, 2013 Show citation
References
- ANASTASIADI-SYMEONIDI Anna (1986), Η Νεολογία στην Κοινή Νεοελληνική. Epistimoniki Epetirida Filosofikis Scholis. Thessaloniki : Aristotle University of Thessaloniki.
- ANTHONY Laurence (2011), AntConc (Version 3.2.2) [Computer Software], Tokyo, Japan: Waseda University, http://www.antlab.sci.waseda.ac.jp.
- BARONI Marco; BERNARDINI Silvia; FERRARESI Adriano; ZANCHETTA Eros (2009), The WaCky Wide Web: A Collection of Very Large Linguistically Processed Web-Crawled Corpora, in : Language Resources and Evaluation 43(3), p. 209-226.
Go to original source...
- BLANCAFORT Helena; RECOURCE Gaëlle; COUTO Javier; SAGOT Benoît; STERN Rosa; TEYSSOU Denis (2010), Traitement des inconnus : une approche systématique de l'incomplétude lexicale, in : TALN 2010, Montréal, Canada.
- CARTONI Bruno (2006), Constance et variabilité de l'incomplétude lexicale, in : RECITAL 2006, Leuven, Belgium, TALN 2006.
- CELLARD Jacques; SOMMAELT Micheline (1979), 500 mots nouveaux définis et expliqués, Paris-Gembloux, Duculot.
- DINCA Daniela (2009), La néologie et ses mécanismes de création lexicale, in Analele UniversitãÑii din Craiova, Seria Lingvisticã, nr. 1-2, 2009, p. 79-91.
- DISTER Anne; FAIRON Cédrick (2004), Extension des ressources lexicales grâce à un corpus dynamique, Lexicometrica.
- FAIRON Cédrick; COURTOIS Blandine (2000), Extension de la couverture lexicale des dictionnaires électroniques du LADL à l'aide de GlossaNet, in : Actes du Colloque JADT 2000 : 5es Journées Internationales d'Analyse Statistique des Données Textuelles, Lausanne.
- FERRARESI Adriano; ZANCHETTA Εros; BARONI Μarco; BERNARDINI Silvia (2008), Introducing and evaluating ukWaC, a very large web-derived corpus of English, in : EVERT Stefan, KILGARRIFF Adam & SHAROFF Serge (éd.) Proceedings of the 4th Web as Corpus Workshop (WAC-4) - Can we beat Google? Marrakech.
- FERRARESI Adriano; BERNARDINI Silvia; PICCI Giovanni; BARONI Marco (2010), Web Corpora for Bilingual Lexicography: A Pilot Study of English/French Collocation Extraction and Translation, in : XIAO Richard (éd.), Using Corpora in Contrastive and Translation Studies, Newcastle, Cambridge Scholars Publishing.
- GOUTSOS Dionysis (2010), The Corpus of Greek Texts: A reference corpus for Modern Greek, in : Corpora 5 (1), p. 29-44.
Go to original source...
- KOCOUREK Rostislav (1991), La langue française de la technique et de la science. Vers une linguistique de la langue savante. Wiesbaden, Brandsletter.
- KYRIACOPOULOU Tita; TZIAFA Eleni (2011), Dictionnaires électroniques et terminologie : le cas du vocabulaire >, 9èmes Journées Scientifiques du réseau Lexicologie, Terminologie, Traduction, 15-16 septembre 2011, Université Paris 13.
- LAPORTE Éric (2009), Concordanciers et flexion automatique, in Cahiers de Lexicologie, 94 (1), p. 91-106.
- LERAT Pierre (1993), Les langues spécialisées, Paris, PUF.
- MATHIEU Yvette Yannick; GROSS Gaston; FOUQUERE Christophe (1998), Vers une extraction automatique des néologismes, in : Cahiers de Lexicologie, n° 72, p. 199-208.
- MATHIOPOULOS Haris (1999), Μικρό Εγχειρίδιο του Επενδυτή, Athens, Estia.
- MAUREL Denis (2004), Les mots inconnus sont-ils des noms propres?, in : Actes des JADT 2004.
- MAVROPOULOS Athanasios (2012), Ένα σύστημα αυτόματης ανάλυσης κειμένων της Νέας Ελληνικής. Μέθοδοι αναπαράστασης των κύριων ονομάτων προσώπων, Thessaloniki, Aristotle University of Thessaloniki, thèse de doctorat.
- PAUMIER Sébastien (2003), Unitex. Manuel d'utilisation, Paris, Université Paris-Est Marne-la-Vallée, http://igm.univ-mlv.fr/~unitex/UnitexManual.pdf.
- POMIKÁLEK Jan; RYCHLÝ Pavel; KILGARRIFF Adam (2009), Scaling to Billion-plus Word Corpora. Advances in Computational Linguistics, in : Special Issue of Research in Computing Science Vol 41, http://pics.cicling.org/2009/RCS-41/003-014.pdf.
- RONDEAU Guy (1984), Introduction à la terminologie, Québec, Gaetan Morin.
- SCOTT Mike (2011), WordSmith Tools version 6, Liverpool, Lexical Analysis Software.
- SPRIET Thierry; BECHET Frédéric; EL-BEZE Marc; De LOUPY Claude; KHOURI Liliane (1996), Traitement automatique des mots inconnus, in : Proceedings of TALN'96, Marseille, p. 170-179.
- WALTHER Géraldine; SAGOT Benoît (2011), Problèmes d'intégration morphologique d'emprunts d'origine anglaise en français, in : Proceedings of the 30th Lexis and Grammar Conference, Nicosia, Cyprus.
This is an open access article distributed under the terms of the Creative Commons Attribution 4.0 International License (CC BY 4.0), which permits use, distribution, and reproduction in any medium, provided the original publication is properly cited. No use, distribution or reproduction is permitted which does not comply with these terms.