Delic-Actu: Corpus C-ORAL-ROM (4 langues romanes) disponible

Le corpus C-ORAL-ROM est disponible chez Elra/Elda (voir catalogue pour les détails).

C-ORAL-ROM est un corpus multilingue de parole spontanée pour les principales langues romanes composé d'environ 1 200 000 mots (IST 2000-26228). Le corpus est composé de quatre collections d'enregistrements comparables de sessions de parole spontanée pour l'italien, le français, le portugais et l'espagnol (environ 300 000 mots par langue). Les collections ont été fournies par les organismes suivants :

Università di Firenze (Dipartimento di Italianistica, LABLITA);
Université de Provence (DELIC, Description Linguistique Informatisée sur Corpus);
Fundação da Universidade de Lisboa/Centro de Linguística da Universidade de Lisboa
Universidad Autónoma de Madrid (Departamento de Lingüística, Lenguas Modernas, Lógica y F. de la Ciencia, Laboratorio de Lingüística Informática).

Le corpus C-ORAL-ROM offre la source acoustique de chaque session ainsi que les annotations principales suivantes :

La transcription orthographique, au format CHAT, enrichie de l'étiquetage des pauses prosodiques terminales et non terminales
Un metadata des sessions
La synchronisation du texte par rapport à la parole, au format WIN PITCH CORPUS, basée sur l'alignement de chaque occurrence transcrite. Le logiciel est fourni avec le corpus.

Delic-Actu

jeudi, janvier 20, 2005

Corpus C-ORAL-ROM (4 langues romanes) disponible

Blogmestres

Contributeurs

Messages prÃ©cÃ©dents