Delic-Actu: octobre 2006

lundi, octobre 30, 2006

Séminaire DELIC-CALN du 02 novembre

C 212, 13h-16h

DELIC-I. Lexique et Syntaxe
André Valli et Nuria Gala
Lexique des constructions verbales en français

J. Véronis
Désambiguïsation syntaxique et sémantique, aspects multilingues

DELIC-II. Données non canoniques
J. Deulofeu
Oral spontané

J. Véronis et E. Campione
Nouvelles formes de communication écrite, langue française des signes

CALN
Robert Pasero et Paul Sabatier
Le projet NBFR-GNF-ILLICO

Alexis Nasr
Analyse syntaxique et extraction d'information

Synthèse et discussion autour du projet TALEP.

lundi, octobre 23, 2006

Séminaire DELIC du 26 octobre

Salle C212, 14h - 16h.

Préparation de la réunion du 02 novembre avec les membres de l'équipe CALN (LIF) : organisation des présentations sur nos axes de recherche. Tous les membres du DELIC concernés par le projet TALEP sont invités.

Atelier DELIC du 09 novembre

Des grilles pour le traitement automatique du français parlé
Segmentation et structuration interne des énoncés
Jeudi 09/11, s. C212, 14h.

Suite de l'atelier du 19 octobre dont le compte rendu suit :

Participants : ChB, RB, JD, ST, LK, NG et deux étudiants de master SCL.

1) Objectifs de l’atelier :

• créer une banque d’énoncés oraux annotés (sous forme de grilles)
• définir des critères objectifs pour l’identification des énoncés (afin de les segmenter) et pour la notation des disfluences (prendre en compte les travaux d'étudiants de master et doctorat à ce sujet)
• créer des outils d’annotation / de mise en grille (et d’analyse syntaxique)
• éventuellement soumettre un article à TALN-07 avec tout au moins la description du projet en cours
• (à plus long terme) lancer une campagne de recueil d’annotation d’énoncés : site Internet d’annotation d’énoncés pour banque de données plus conséquente.

2) Discussion :

Point de départ : des corpus annotés avec les intonations (corpus thèse d’EC)

Critères formels d’identification des énoncés (unités maximales)

- Prosodie (entre deux pauses perceptibles)
- Sémantique (unités sémantiques différentes des autres au niveau des actes de langage)
- Syntaxique (remise en cause parallélisme morphologie / syntaxe, cad idée que la morpho renseigne par sur la syntaxe)

Critère prosodique et sémantique : le partage des intuitions facilite leur repérage.
Critère syntaxique : problème du fait des différentes conceptions de ce qu’est une unité syntaxique (selon perspective en dépendance, en constituants, etc.). Pour ce projet : approche purement descriptive.

3) Organisation du travail en groupe :

Voir énoncés où convergence des critères (prendre en compte les trois critères simultanément)

Si contradiction entre critères voir comment catégoriser les énoncés concernés (les mettre à part dans un premier temps et ensuite décider ensemble). Travailler sur un corpus chacun et ensuite comparer problèmes avec corpus déjà segmenté par Christophe.

4) Objectifs du prochain atelier:

à partir du fichier d’énoncés envoyé par mail, chercher des schémas structuraux qui allient prosodie, sémantique et syntaxe. Isoler les cas où il y a un consensus (base de travail). Trouver des régularités en vue d’un traitement informatique.

lundi, octobre 16, 2006

Atelier DELIC du 19 octobre

Des grilles pour le traitement automatique du français parlé
Segmentation et structuration interne des énoncés
Jeudi 19/10, s. C212, 14h.

Cet axe de recherche pour l’année universitaire 2006-2007 sera consacré aux analyses en grille dans le cadre plus général du problème de la segmentation des énoncés oraux. Il prendra la forme d’un atelier où chacun sera amené à réfléchir sur la manière dont on peut segmenter les textes oraux, faire des grilles de manière étendue et surtout élaborer les grilles elles-mêmes. Une partie logicielle sera aussi abordée, car nous avons l’objectif d’élaborer un éditeur de grilles permettant de normaliser le travail. Cet atelier est facultatif et ne s’adresse qu’aux membres de l’équipe intéressés par ces problèmes.

Problématique

Il est étrange de constater qu’il n’existe pas à ce jour de vastes banques de données d’énoncés oraux. Or, dans une science expérimentale telle que la linguistique, il est inconcevable de se passer de telles ressources afin de mieux appréhender la structuration interne des énoncés et de déterminer les indices qui intuitivement nous permettent de les segmenter de manière apparemment inconsciente. L’intérêt pour ce type de travaux ne s’arrête pas à la seule linguistique, car en Traitement Automatique de la Parole, une telle banque de données serait aussi utile pour mieux appréhender les régularités formelles de la langue parlée.

L’outil pratique que sont les analyses en grille, utilisées par notre équipe pour représenter visuellement les régularités dans les énoncés oraux spontanés, sont aptes à remplir cet objectif car elles sont une représentation fidèle de la manière dont les locuteurs exploitent les axes syntagmatique et paradigmatique, dimensions fondamentales pour la langue parlée.

Organisation

Le travail s’articulera autour des deux axes suivants :

Partie description : présentation et élaboration des grilles en essayant d’articuler l’analyse en grille classique et son adaptation au travail de segmentation effectué par DELIC en 2004. Une fois que le nombre d’énoncés sera significatif, se lancer dans la recherche d’indices permettant la segmentation et des généralisations descriptives. Il faudra évidemment avoir une réflexion sur ce qu’il sera pertinent d’annoter : Utilisera-t-on la prosodie ? A priori oui, mais sous quelle forme ? Marquerons-nous les unités macrosyntaxiques ? etc.
Les résultats attendus peuvent être quantitatifs (degré de complexité des énoncés, par exemple) et qualitatifs (indices formels pour la segmentation, par exemple).

Partie informatique : l’élaboration d’un éditeur de grille serait le bienvenu avec génération automatique d’un fichier xml permettant de normaliser les sorties. Si c’est possible, une interface permettant des requêtes serait aussi utile. Il reste bien évidemment à déterminer avec précision ce que l’on retiendra comme étant pertinent et ce que l’on cherche. Avant de se lancer dans l’élaboration de telles ressources et outils, il faudra donc délimiter précisément les besoins et les résultats attendus. Le travail initial de cet atelier sera donc consacré à une réflexion autour des éléments qu’il est pertinent d’annoter.

Delic-Actu

lundi, octobre 30, 2006

Séminaire DELIC-CALN du 02 novembre

lundi, octobre 23, 2006

Séminaire DELIC du 26 octobre

Atelier DELIC du 09 novembre

lundi, octobre 16, 2006

Atelier DELIC du 19 octobre

Blogmestres

Contributeurs

Liens

Messages prÃ©cÃ©dents

Archives