Translating Chinese Romanized Name into Chinese Idiographic Characters via Corpus and Web Validation
Author(s) -
Yiping Li,
Gregory Grafenstette
Publication year - 2005
Language(s) - French
DOI - 10.24348/coria.2005.1
Cross-language information retrieval performance depends on the quality of the translation resources used to pass from a user’s source language query to target language documents. Translation lists of proper names are rare but vital resources for cross-language retrieval between languages using different character sets. Named entities translation dictionaries can be extracted from bilingual corpus with some degree of success, but the problem of the coverage of these scarce bilingual corpora remains. In this article, we present a technique for finding Chinese transliterations for any Chinese name written in English script. Our system performs transliteration of Pinyin (the standard Romanization for Chinese) to Chinese characters via corpus and web validation. Though Chinese family names form a small set, the number and variety of multisyllabic first names is great, and treatment is complicated by the fact that one Pinyin transliteration can correspond to hundred of different Chinese characters. Our method finds the best translations of a Chinese name written in Pinyin by filtering out unlikely translations using a bigram model derived from a very large monolingual Chinese corpus, and then vetting remaining candidate transliterations using Web statistics. We experimentally validate our method using an independent gold standard. RESUME. La performance en recherche d'information translingue depend de la qualite des ressources de traduction utilisees pour passer de la langue source (requete d'utilisateur) vers la langue cible des documents. Les listes de traduction de noms de personnes sont rares, et constituent en meme temps des ressources essentielles pour la recherche d'information translingue entre des langues utilisant des jeux de caracteres differents. Les dictionnaires de traduction d'entites nommees peuvent etre extraits des corpus bilingues avec un certain succes, mais le probleme du recouvrement de ces corpus bilingues, rares, reste present. Dans cet article, nous presentons une technique pour retrouver la translitteration en chinois de tous les noms chinois ecrits en anglais. Notre systeme effectue la translitteration du Pinyin (la romanisation standard du chinois) en caracteres chinois via des validations effectuee sur corpus et sur le Web. Bien que les noms de famille en chinois constituent un ensemble peu important, les varietes des prenoms multi-syllabiques sont tres importantes. Le traitement s'avere d'autant plus complique qu'a une translitteration du Pinyin peut correspondre jusqu'a plus de cent caracteres chinois differents. Notre methode selectionne la meilleure traduction des noms chinois ecrits en Pinyin en filtrant les traductions impossibles et en utilisant un modele de bigrammes extrait d'un tres grand corpus chinois monolingue, puis en eliminant les traductions candidates restantes a l'aide de statistiques recueillies sur le Web. Nous avons evalue notre methode en utilisant une reference independante.
Accelerating Research
Robert Robinson Avenue,
Oxford Science Park, Oxford
OX4 4GP, United Kingdom
Address
John Eccles HouseRobert Robinson Avenue,
Oxford Science Park, Oxford
OX4 4GP, United Kingdom