- Recherche,
-
Partager cette page
[CLLE] Soutenance de thèse de Doctorat -- Claire Ibarboure
Typologies des parcours de recherche d'information sur le Web : étude des variations thématiques dans les sessions complexes.
Claire Ibarboure, doctorante en Sciences du Langage au laboratoire CLLE de l'Université Toulouse Jean Jaurès vous invite à sa soutenance de thèse qui aura lieu le jeudi 18 septembre à 14h dans la salle D29 de la Maison de la Recherche à l'Université Toulouse Jean Jaurès.
Cette thèse en Sciences du langage a été menée sous la direction de Ludovic Tanguy (PU) et la co-direction de Franck Amadieu (PU), et s'intitule Typologies des parcours de recherche d'information sur le Web : étude des variations thématiques dans les sessions complexes. Vous pouvez trouver les résumés en français et en anglais à la suite du texte.
Composition du jury :
- Patrice Bellot, Professeur, Aix-Marseille Université (Rapporteur)
- Iris Eshkol-Taravella, Professeure, Université de Paris Nanterre (Rapporteure)
- Laure Léger, Maîtresse de conférences, Université de Paris Nanterre (Examinatrice)
- Josiane Mothe, Professeure, Institut de Recherche en Informatique de Toulouse (Examinatrice)
- Ludovic Tanguy, Professeur, Université Toulouse Jean Jaurès (Directeur de thèse)
- Franck Amadieu, Professeur, Université Toulouse Jean Jaurès (Co-directeur de thèse)
-------------------------------------------------------
Résumé
Cette thèse traite des variations comportementales des utilisateurs lorsqu'ils effectuent une session de recherche complexe sur le Web. Plus précisément, nous nous intéressons aux stratégies mises en place lorsque l'utilisateur est confronté à des sous-objectifs faisant référence à des thématiques distinctes. Pour ce faire, nous étudions la planification à travers les requêtes soumises au moteur de recherche en partant du principe que les sessions sont des trajectoires dans un espace sémantique (Mitra, 2015). Nous avons réalisé trois études exploratoires pour modéliser les variations comportementales à partir de données expérimentales afin de dégager une typologie des comportements. Pour cela, nous avons mobilisé plusieurs techniques pour automatiser la représentation sémantique du contenu des requêtes, afin de faire émerger des régularités à travers les comportements à partir d’analyses statistiques.
Dans une première étude, nous avons représenté automatiquement les requêtes avec des modèles vectoriels. Nous avons testé des embeddings statiques (FastText (Grave et al., 2018)) et contextuels (CamemBERT (Martin et al., 2020) et FlauBERT (Le et al., 2020)) sur deux étapes d'évaluation basées sur la similarité des requêtes. Nous avons constaté qu'il était préférable d'utiliser FastText, puisque les embeddings contextuels sont très dépendants du choix des paramètres et n'apportent pas pour autant des résultats significativement meilleurs. Toutefois, malgré la possibilité de visualiser les sessions comme une trajectoire dans un espace sémantique, nous n'avons pas été capables d'interpréter les variations.
Dans une deuxième étude, nous avons annoté manuellement les requêtes selon les sous-objectifs. En combinant l'étude de variables classiques (p.e. la durée des sessions ou le nombre de requêtes) et de variables exploratoires liées aux sous-objectifs (le nombre total de sous-objectifs formulés dans la session, ou la présence de requêtes consécutives en lien avec un même sous-objectif), nous avons dégagé des groupes d'utilisateurs avec des caractéristiques spécifiques. Ainsi, nous avons pu observer des utilisateurs qui montrent très peu d'investissement, d'autres qui formulent peu de requêtes, mais longues et composées de plusieurs sous-objectifs, ou encore d'autres qui recherchent un plus grand nombre de sous-objectifs à travers de longues sessions en durée ou en nombre de requêtes. Toutefois, des limites liées au jeu de données utilisé nous ont amenés à recueillir notre propre corpus basé spécifiquement sur la distinction thématique de deux sous-objectifs. Le corpus PRIVaThe (Parcours de Recherche d’Information avec Variations Thématiques) est composé de 3162 requêtes formulées par 100 participants pour répondre à deux tâches de recherche sur Google. Pour l’ensemble des sessions, nous avons les réponses formulées par les utilisateurs et évaluées par nous-mêmes. Nous avons également enregistré et retranscrit les verbalisations en concomitance à la tâche de 20 participants.
Cela nous a amené à une troisième étude où nous avons testé une annotation automatique des requêtes en fonction des sous-objectifs avec des modèles d'IA générative pour l’ensemble du corpus. L’identification de groupes d’utilisateurs avec des caractéristiques distinctives n’a pas été totalement concluante. Cependant, nous retrouvons des traces de comportements de type analytique (rechercher un sous-objectif à la fois), globaux (formuler des requêtes composées des différents sous-objectifs) et exploratoires (alternance entre les différents sous-objectifs), faisant écho aux stratégies définies dans la littérature en psychologie cognitive (Marchionini, 1995 ; Navarro-Prieto et al., 1999 ; Thatcher, 2006). Ces phénomènes sont observables notamment à partir de certaines variables exploratoires telles que les changements correspondant au passage d'un sous-objectif à un autre, ou encore les requêtes formulées des deux sous-objectifs de façon équivalente.
Title
Typologies of Information Retrieval Paths: A Study of Thematic Variations in Complex Search Sessions
Abstract
This thesis addresses users’ behavioral variations when conducting a complex web search session. More specifically, we focus on the strategies employed when the user is confronted with sub-goals that pertain to distinct topics. To this end, we study planning through the queries submitted to the search engine, based on the assumption that sessions are trajectories within a semantic space (Mitra, 2015). We conducted three exploratory studies to model behavioral variations using experimental data and to identify a typology of behaviors. To do this, we employed various techniques to automate the semantic representation of query content, aiming to uncover behavioral patterns through statistical analysis.
In the first study, we automatically represented queries using vector models. We tested both static embeddings (FastText (Grave et al., 2018)) and contextual embeddings (CamemBERT (Martin et al., 2020) and FlauBERT (Le et al., 2020)) through two evaluation steps based on query similarity. We found that using FastText was preferable, as contextual embeddings are highly dependent on parameter choices and do not necessarily yield significantly better results. However, despite being able to visualize sessions as trajectories in semantic space, we were not able to interpret the variations.
In the second study, we manually annotated the queries according to their sub-goals. By combining the analysis of standard variables (e.g., session duration or number of queries) with exploratory variables related to sub-goals (e.g., the total number of sub-goals addressed in the session, or the presence of consecutive queries tied to the same sub-goal), we identified user groups with specific characteristics. For example, we observed users who showed very little engagement, users who submitted few but long queries that included multiple sub-goals, and users who addressed a greater number of sub-goals across long sessions in terms of time or number of queries.
However, limitations related to the dataset led us to collect our own data, specifically designed around the thematic distinction of two sub-goals. The PRIVaThe corpus (Information Retrieval Paths with Thematic Variations, in French Parcours de Recherche d’Information avec Variations Thématiques) consists of 3,162 queries issued by 100 participants in response to two search tasks on Google. For all sessions, we have access to the users’ formulated answers, which we evaluated ourselves. We also recorded and transcribed think-aloud verbalizations from 20 participants during the task.
This led us to a third study in which we tested automatic annotation of queries based on sub-goals using generative AI models across the entire corpus. Identifying user groups with distinctive characteristics was not entirely conclusive. However, we did observe traces of analytical behavior (searching one sub-goal at a time), global behavior (submitting queries that address multiple sub-goals), and exploratory behavior (alternating between different sub-goals), which echo the strategies defined in the cognitive psychology literature (Marchionini, 1995; Navarro-Prieto et al., 1999; Thatcher, 2006). These patterns are particularly observable through certain exploratory variables, such as changes corresponding to shifts from one sub-goal to another, or queries that address both sub-goals equally.