Des grilles pour le traitement automatique du français parlé
Segmentation et structuration interne des énoncés
Jeudi 09/11, s. C212, 14h.
Suite de l'atelier du 19 octobre dont le compte rendu suit :
Participants : ChB, RB, JD, ST, LK, NG et deux étudiants de master SCL.
1) Objectifs de l’atelier :
• créer une banque d’énoncés oraux annotés (sous forme de grilles)
• définir des critères objectifs pour l’identification des énoncés (afin de les segmenter) et pour la notation des disfluences (prendre en compte les travaux d'étudiants de master et doctorat à ce sujet)
• créer des outils d’annotation / de mise en grille (et d’analyse syntaxique)
• éventuellement soumettre un article à TALN-07 avec tout au moins la description du projet en cours
• (à plus long terme) lancer une campagne de recueil d’annotation d’énoncés : site Internet d’annotation d’énoncés pour banque de données plus conséquente.
2) Discussion :
Point de départ : des corpus annotés avec les intonations (corpus thèse d’EC)
Critères formels d’identification des énoncés (unités maximales)
- Prosodie (entre deux pauses perceptibles)
- Sémantique (unités sémantiques différentes des autres au niveau des actes de langage)
- Syntaxique (remise en cause parallélisme morphologie / syntaxe, cad idée que la morpho renseigne par sur la syntaxe)
Critère prosodique et sémantique : le partage des intuitions facilite leur repérage.
Critère syntaxique : problème du fait des différentes conceptions de ce qu’est une unité syntaxique (selon perspective en dépendance, en constituants, etc.). Pour ce projet : approche purement descriptive.
3) Organisation du travail en groupe :
Voir énoncés où convergence des critères (prendre en compte les trois critères simultanément)
Si contradiction entre critères voir comment catégoriser les énoncés concernés (les mettre à part dans un premier temps et ensuite décider ensemble). Travailler sur un corpus chacun et ensuite comparer problèmes avec corpus déjà segmenté par Christophe.
4) Objectifs du prochain atelier:
à partir du fichier d’énoncés envoyé par mail, chercher des schémas structuraux qui allient prosodie, sémantique et syntaxe. Isoler les cas où il y a un consensus (base de travail). Trouver des régularités en vue d’un traitement informatique.