• Recherche,

[CLLE] Comment les enfants font vivre les personnages à l'écrit : analyse de la continuité référentielle dans un corpus français et italien (M. Barletta)

Publié le 2 mai 2025 Mis à jour le 2 mai 2025
le 16 mai 2025
14:00 - 15:30
Salle à venir, Maison de la recherche (UT2J)

Le laboratoire CLLE organise régulièrement des séminaires en linguistique. Voir l'agenda sur le site du laboratoire : https://clle.univ-tlse2.fr/

Séminaire de l'équipe Processus Langagiers et Cognitifs du laboratoire CLLE (plus d'information sur le site clle.univ-tlse2.fr)

résumé du séminaire : 
Depuis 2018, une équipe composée d’enseignantes-chercheuses de trois universités (Université Grenoble Alpes en France, Università Milano-Bicocca en Italie et Universidad de Almeria en Espagne) constitue un large corpus longitudinal et comparable d’écrits d’élèves d’école primaire en français, italien et espagnol (Ponton et al., 2021), le corpus éponyme Scolinter (http://scoledit.org/scolinter/).
Environ 7000 textes manuscrits ont été actuellement recueillis dans les trois pays. Pour en autoriser l’exploitation et l’étude des caractéristiques langagières à travers la linguistique outillée et le TAL, ces textes sont soumis à des étapes de traitement dont la transcription et la normalisation. Ici la normalisation est définie comme une réécriture du texte proche de la norme de la langue cible tout en restant au plus près du texte original, qui est souvent très éloigné de la norme attendue et donc peu exploitable à l’aide des outils TAL actuellement existants (Wolfarth, 2019).
Si diverses études (Delaborde, 2020; Grobol, 2020; Landragin, 2016; Muzerelle et al., 2013; Wilkens et al., 2020) se sont intéressées au traitement automatique de la coréférence et de la continuité référentielle dans des textes standards, seules les études faites sur le corpus RésolCo (Garcia-Debanc et al., 2017, 2021) portaient sur le développement de la cohésion et de la cohérence textuelles dans des écrits d’élèves de niveaux scolaires variées. Ayant à disposition ce corpus longitudinal trilingue, notre objectif est le développement d’une méthodologie d’annotation et d’exploitation spécifique à ce type de corpus pour assister les chercheurs dans la description linguistique des phénomènes de cohérence/cohésion textuelles et leur développement tout au long de l’école primaire. La première étape de cette recherche a consisté dans la conception d’un modèle d’annotation répondant à nos objectifs, inspiré des travaux déjà existants sur les corpus Democrat (Landragin, 2020) et RésolCo (Garcia-Debanc et al., 2021) : l’annotation de la continuité référentielle limitée aux personnages de la consigne ainsi qu’aux personnages animés présents dans les textes reprend partiellement la méthodologie d’annotation du corpus RésolCo, alors que la typologie des mentions à annoter est inspirée à la fois des guides d’annotation de Democrat et de RésolCo.
Le modèle d’annotation et le schéma correspondant ont été ensuite appliqués dans plusieurs campagnes d’annotations menées sur la plateforme d’annotation INCEpTION. Ces campagnes ont permis initialement de vérifier l’applicabilité du guide sur les trois langues du corpus, et de clarifier davantage les expressions linguistiques à annoter, puis de tester quelques hypothèses par rapport au fonctionnement des chaines dans un échantillon restreint du corpus français. La dernière campagne a été menée en parallèle sur des échantillons de 75 textes de CE1 et 75 de CE2 pour le français et pour l’italien. Ces 300 textes ont été annotés par trois annotateurs experts et font l’objet d’une phase d’adjudication. Sur la base de cette annotation de référence nous allons pouvoir confirmer des hypothèses quant au développement des chaines entre les deux années scolaires et comparer les caractéristiques des chaines dans les deux langues.

Bibliographie :
Delaborde, M. (2020). Analyse en corpus de chaînes de coréférence : La coréférence non-stricte à l’épreuve de la linguistique outillée [Phdthesis, Université de la Sorbonne nouvelle - Paris III]. https://theses.hal.science/tel-03425446
Garcia-Debanc, C., Ho-Dac, L.-M., Bras, M., & Rebeyrolle, J. (2017). Vers l’annotation discursive de textes d’élèves. Corpus, 16, Article 16. https://doi.org/10.4000/corpus.2783
Garcia-Debanc, C., Rebeyrolle, J., & Ho-Dac, L.-M. (2021). La continuité référentielle dans le corpus RÉSOLCO : Méthode d’annotation et premières analyses. Langue francaise, 211(3), 99‑114.
Grobol, L. (2020). Coreference resolution for spoken French [Phdthesis, Université Sorbonne Nouvelle - Paris 3]. https://hal.archives-ouvertes.fr/tel-02928209
Landragin, F. (2016). Description, modélisation et détection automatique des chaînes de référence (DEMOCRAT). Bulletin de l’Association Française pour l’Intelligence Artificielle, 92, 11.
Landragin, F. (2020). Rapport final du projet ANR Democrat, ”Description et modélisation des chaînes de référence : Outils pour l’annotation de corpus et le traitement automatique” [Research Report]. ANR (Agence Nationale de la Recherche - France). https://hal.archives-ouvertes.fr/hal-02533314
Muzerelle, J., Lefeuvre, A., Antoine, J.-Y., Schang, E., Maurel, D., Villaneau, J., & Eshkol, I. (2013). ANCOR, premier corpus de français parlé d’envergure annoté en coréférence et distribué librement. In ATALA (Éd.), TALN’2013, 20e conférence sur le Traitement Automatique des Langues Naturelles (p. 555‑563). https://hal.archives-ouvertes.fr/hal-01016562
Ponton, C., Gutiérrez-Caceres, R., Teruggi, L., Farina, E., Brissaud, C., & Wolfarth, C. (2021). Scolinter : Un corpus trilingue. L’exemple de la segmentation en mots. Langue française, 211(3), 37‑50. https://doi.org/10.3917/lf.211.0037
Wilkens, R., Oberle, B., Landragin, F., & Todirascu, A. (2020). French Coreference for Spoken and Written Language. Proceedings of the 12th Language Resources and Evaluation Conference, 80‑89. https://aclanthology.org/2020.lrec-1.10
Wolfarth, C. (2019). Apport du TAL à l’exploitation linguistique d’un corpus scolaire longitudinal [Phdthesis, Université Grenoble Alpes]. https://tel.archives-ouvertes.fr/tel-02517320