• Recherche,

[CLLE] Soutenance de thèse de Doctorat -- Mariame Maarouf

Publié le 2 octobre 2025 Mis à jour le 2 octobre 2025
le 16 octobre 2025
14h00 - 18h00
Salle D29, Maison de la Recherche
CLLE
CLLE

Approches du dysfonctionnement technique dans les REX d'Ariane 5 : de l'analyse linguistique outillée de son expression vers la modélisation TRIZ du problème

Mariame Maarouf, doctorante en Sciences du Langage au laboratoire CLLE de l'Université Toulouse Jean Jaurès, soutient sa thèse de doctorat jeudi 16 octobre à 14h dans la salle D29 de la Maison de la Recherche à l'Université Toulouse Jean Jaurès. 
Cette thèse en Sciences du langage a été menée sous la direction de Ludovic Tanguy (PU) et s'intitule Approches du dysfonctionnement technique dans les REX d'Ariane 5 : de l'analyse linguistique outillée de son expression vers la modélisation TRIZ du problèmeVous pouvez trouver les résumés en français et en anglais à la suite du mail.
Composition du jury :
Amalia Todirascu, Professeure, Université de Strasbourg (Rapporteure)
Ahmed Samet, Maître de conférence, INSA (Rapporteur)
- Haïfa Zargayouna, Maîtresse de conférences, Université Sorbonne Paris Nord  (Examinatrice)
- Anne Condamines, Directrice de recherche, CNRS (Examinatrice)
Ludovic Tanguy, Professeur, Université Toulouse Jean Jaurès (Directeur de thèse)
- Michal Kurela, CNES (Membre invité)
- Jérôme Laforcade, MeetSYS (Membre invité)
Résumé 
Les REX (Retours d’EXpérience) sont des documents textuels dont la visée est de rapporter un problème, ou un dysfonctionnement,
et qui jouent un rôle important dans la maîtrise des risques au sein d’une organisation. Plusieurs travaux de TAL (Traitement Automatique des
Langues) ont donc vu le jour afin de capitaliser les connaissances qu’ils abritent. Par ailleurs, des méthodes de résolution de problèmes
techniques ont été développées, comme la méthode TRIZ, et présentent un intérêt non négligeable pour les dysfonctionnements qui peuvent
être rapportés dans les REX. De ce fait, un partenariat s’est créé entre le CNES qui cherche à exploiter ses REX liés aux lanceurs spatiaux, et la
société MeetSYS, spécialisée dans la méthode TRIZ pour la capitalisation du savoir expert. Cette thèse s’est vue comme l’opportunité d’explorer
l’utilisation du TAL et de la linguistique de corpus pour l’extraction fine d’information dans les REX d’Ariane 5 en vue de modéliser un
dysfonctionnement technique sous forme de vépole (formalisme propre à TRIZ). Cela signifie être capable de partir d’un texte brut, spécialisé et
bruité vers un formalisme conçu indépendamment des données en question. À cette fin, une démarche en plusieurs étapes a été mise en place
en vue de se rapprocher autant que possible de ce formalisme. L’un des piliers sur lequel s’appuie cette démarche est la sémantique des cadres,
et la ressource FrameNet qui en découle, qui nous permet d’identifier et de qualifier les éléments textuels qui constituent le problème. Nous
explorons dans cette thèse plusieurs approches de TAL et de linguistique de corpus dans l’étude des REX, soit des textes spécialisés et bruités,
pour identifier les structures sémantiques qui composent l’expression d’un dysfonctionnement technique. Nous mêlons ainsi des techniques
comme le Topic Modeling, word2vec et de l’analyse lexicale outillée pour de l’exploration de corpus, du fine-tuning de modèles neuronaux pour
de l’étiquetage automatique, l’utilisation de LLMs pour de la normalisation et de l’annotation automatique, mais aussi de l’analyse syntaxique et
de la reconnaissance de patrons pour l’analyse fine des structures langagières. Dans un premier temps, une analyse du corpus nous a permis de
dégager une typologie d’expressions d’un dysfonctionnement technique en neuf classes. Elle est basée sur la détection de marqueurs lexicaux
au sein de la description de l’anomalie qui a été repérée et décrite. À partir de cette typologie, nous avons pu effectuer une annotation des
marqueurs lexicaux spécifiques au sein du corpus. Celle-ci nous a permis d’explorer l’utilisation d’annotateurs non experts du domaine sur des
données spécialisées et, par la suite, d’entraîner un modèle neuronal à base de transformers pour l’étiquetage automatique des rapports
d’anomalies. Nous avons aussi mené une étude afin de normaliser automatiquement ces rapports pour en supprimer le bruit, avant de tester
l’impact de cette normalisation sur l’entraînement du modèle. Cette étude n’ayant pas montré d’améliorations sur la tâche d’étiquetage
automatique nous entraîne à interroger la pertinence de la normalisation des données bruitées, et notamment en fonction de la tâche visée. Par
la suite, nous avons pu focaliser notre étude sur deux catégories de la typologie qui sont la Fuite d’un liquide ou d’un gaz et la Présence d’un
obstacle. Pour la première, nous avons mis en place une approche impliquant plusieurs méthodes complémentaires de linguistique de corpus
afin de faire émerger un frame de la fuite dans un environnement technique. Nous avons ainsi pu identifier les différents éléments qui
composent l’expression de la fuite. Pour la catégorie Présence d’un obstacle, nous avons utilisé des LLMs génératifs pour l’annotation
automatique de ces textes. Par ce biais, nous avons pu explorer les capacités et les limites d’un LLM à effectuer une annotation de type Frame
Semantic Role Labeling, mais aussi à traiter un texte spécialisé et bruité.
Title
Analysing technical dysfunction in Ariane 5 anomaly reports : from its linguistic expression to TRIZ modeling of the problem
Abstract
Anomaly reports are textual documents whose purpose is to report a problem or malfunction, and play an important role in risk
management within an organisation. Numbers of NLP (Natural Language Processing) projects have therefore been developed to capitalise on
the knowledge they contain. In addition, methods for solving technical problems exists, such as TRIZ, which are of considerable interest for the
type of malfunction reported in incident or anomaly reports. As a result, a partnership has been formed between CNES, seeking to exploit these
reports, and MeetSYS, a company specialised in using TRIZ to capitalise on expert knowledge. This thesis was seen as an opportunity to explore
the use of NLP and corpus linguistics for the fine-grained extraction of information from the Ariane 5 anomaly reports in order to model a
technical malfunction in the form of a vepole (formalism specific to the TRIZ method). This means being able to move from a raw, specialised
and noisy text to a formalism independently designed. To this end, a multi-stage approach was put in place to get as close as possible to this
formalism. One of its pillars is frame semantics, and the resulting FrameNet resource, which allows the identification and qualification of the
textual elements of the problem. In this thesis, we explore several NLP and corpus linguistic approaches in the study of the reports, i.e.
specialised and noisy texts, in order to identify the semantic structures that constitute the expression of technical malfunction. We thus
combine various techniques such as Topic Modeling, word2vec and tool-based lexical analysis for corpus exploration, fine-tuning of neural
models for automatic labelling, the use of LLMs for normalisation and automatic annotation, as well as syntactic analysis and pattern
recognition for fine-grained analysis of language structures. A first corpus study allowed the identification of a nine-class typology of technical
malfunction expression. It is based on lexical markers detection within the anomaly description. Using this typology allowed the annotation of
specific lexical markers within the corpus. This enabled us to explore non-domain expert annotation on specialised data and, subsequently, to
train a neural model based on transformers for anomaly reports automatic labelling. We also conducted a study for automatic normalisation of
the reports to remove noise, before testing its impact on model training. Since this study did not show any improvement in the automatic
labelling task, we are thus questioning the relevance of noisy data normalisation, particularly regarding the target task. We then focused our
study on two class of the typology : Leakage of a liquid or a gas and Presence of an obstacle. For the former, we implemented several
complementary corpus linguistic methods in order to bring out the frame of the leak in a technical environment. We were thus able to identify
what elements make up the expression of leakage. For Presence of an obstacle, we explored the use of generative LLMs for automatic labeling.
In this way, we were able to explore the capabilities and limitations of an LLM for Frame Semantic Role Labeling, as well as processing specialised
and noisy text.