• Recherche,

[CLLE] Règles de grammaires et corpus annotés - Autour du projet Autogramm (S. Herrera et S. Kahane)

Publié le 12 janvier 2024 Mis à jour le 22 avril 2024
le 1 février 2024
14h-16h
Salle D30, Maison de la recherche

Intervenants : Santiago Herrera et Sylvain Kahane (Modyco, Université Paris Nanterre & CNRS)

Résumé : Les treebanks ou corpus arborés annotés, autrefois si utile comme moyen pour développer des outils de Traitement Automatique de Langues (TAL), restent toujours un élément majeur pour la linguistique théorique et la documentation des langues. Dans cette perspective, nous présenterons un des usages que nous faisons des treebanks, celui de l'extraction automatique d'observations quantitatives et de motifs grammaticaux. Ce questionnement sur l’induction de grammaires descriptives à partir de corpus annotés est au centre du projet ANR Autogramm (Modyco, Lacito, Lisn, Loria-Sémagram). Nous discuterons de comment formaliser une règle de grammaire et de son application à des corpus annotés. Nous insisterons plus précisément sur l'extraction de règles de grammaire quantifiées et ordonnées caractérisant un corpus et à travers lui une langue ou un état de langue. Nous montrerons également les limites de telles approches.