<body><script type="text/javascript"> function setAttributeOnload(object, attribute, val) { if(window.addEventListener) { window.addEventListener('load', function(){ object[attribute] = val; }, false); } else { window.attachEvent('onload', function(){ object[attribute] = val; }); } } </script> <div id="navbar-iframe-container"></div> <script type="text/javascript" src="https://apis.google.com/js/platform.js"></script> <script type="text/javascript"> gapi.load("gapi.iframes:gapi.iframes.style.bubble", function() { if (gapi.iframes && gapi.iframes.getContext) { gapi.iframes.getContext().openChild({ url: 'https://www.blogger.com/navbar.g?targetBlogID\x3d9182671\x26blogName\x3dDelic-Actu\x26publishMode\x3dPUBLISH_MODE_BLOGSPOT\x26navbarType\x3dBLUE\x26layoutType\x3dCLASSIC\x26searchRoot\x3dhttps://delic-actu.blogspot.com/search\x26blogLocale\x3dfr_FR\x26v\x3d2\x26homepageUrl\x3dhttp://delic-actu.blogspot.com/\x26vt\x3d-2826767133127056376', where: document.getElementById("navbar-iframe-container"), id: "navbar-iframe" }); } }); </script>

Delic-Actu

lundi, octobre 23, 2006

Atelier DELIC du 09 novembre

Des grilles pour le traitement automatique du français parlé
Segmentation et structuration interne des énoncés
Jeudi 09/11, s. C212, 14h.

Suite de l'atelier du 19 octobre dont le compte rendu suit :

Participants : ChB, RB, JD, ST, LK, NG et deux étudiants de master SCL.

1) Objectifs de l’atelier :

• créer une banque d’énoncés oraux annotés (sous forme de grilles)
• définir des critères objectifs pour l’identification des énoncés (afin de les segmenter) et pour la notation des disfluences (prendre en compte les travaux d'étudiants de master et doctorat à ce sujet)
• créer des outils d’annotation / de mise en grille (et d’analyse syntaxique)
• éventuellement soumettre un article à TALN-07 avec tout au moins la description du projet en cours
• (à plus long terme) lancer une campagne de recueil d’annotation d’énoncés : site Internet d’annotation d’énoncés pour banque de données plus conséquente.

2) Discussion :

Point de départ : des corpus annotés avec les intonations (corpus thèse d’EC)

Critères formels d’identification des énoncés (unités maximales)

- Prosodie (entre deux pauses perceptibles)
- Sémantique (unités sémantiques différentes des autres au niveau des actes de langage)
- Syntaxique (remise en cause parallélisme morphologie / syntaxe, cad idée que la morpho renseigne par sur la syntaxe)

Critère prosodique et sémantique : le partage des intuitions facilite leur repérage.
Critère syntaxique : problème du fait des différentes conceptions de ce qu’est une unité syntaxique (selon perspective en dépendance, en constituants, etc.). Pour ce projet : approche purement descriptive.

3) Organisation du travail en groupe :

Voir énoncés où convergence des critères (prendre en compte les trois critères simultanément)

Si contradiction entre critères voir comment catégoriser les énoncés concernés (les mettre à part dans un premier temps et ensuite décider ensemble). Travailler sur un corpus chacun et ensuite comparer problèmes avec corpus déjà segmenté par Christophe.

4) Objectifs du prochain atelier:

à partir du fichier d’énoncés envoyé par mail, chercher des schémas structuraux qui allient prosodie, sémantique et syntaxe. Isoler les cas où il y a un consensus (base de travail). Trouver des régularités en vue d’un traitement informatique.