Unsupervised hierarchical deconvolution of gene expression data to unravel the tumor micro-environment complexity - Bio-informatique (CBIO) Accéder directement au contenu
Thèse Année : 2021

Unsupervised hierarchical deconvolution of gene expression data to unravel the tumor micro-environment complexity

Déconvolution hiérarchique non supervisée appliquée aux données d'expression génique pour élucider la complexité du micro-environnement tumoral

Résumé

Solid tumours are characterised by a complex organisation of the cellular ecosystem, in which the tumor cells reside and progress, called tumor microenvironment (TME). This TME is the primary target of immunotherapy that aims to critically impact tumour growth or invasive and metastatic potential. Thus, characterising a cancer patient's TME content and state becomes a priority. However, due to the large variability of the TME and its molecular complexity, it is difficult to have precise targets for such analysis in advance. For this reason, it is reasonable to use unsupervised approches that don't require any a priori knowledge. In this case, it is through the use of a matrix factorisation method named Independent Component Analysis (ICA) that we can begin to dissect expression data and extract signals related to the immune infiltration. ICA applied to expression data aims to extract independent biological signals from the data in the form of a weighted vector of genes. Although this method proved to be efficient for this deconvolution task, due to its unsupervised approach, it bears some complications when it comes to the need to select the number of signals we expect to be in the data or when we want to interpret those signals. To alleviate the problem of choosing a specific dimension for the data decomposition, a novel method was constructed that allows to screen signals over a range of multiple dimensions and retrace their evolution and behaviour through a hierarchical analysis. This approach gives not only an idea of the quality of the retried signals but also can help reconstructing relations between these signals. As for the interpretation of those signals, it is possible to use comprehensive signalling pathway reconstructions to draw conclusions on their biological meaning but also to find additional informations on a more systemic level. In definitive, it is through the use of unsupervised analyses coupled with a detailed description of molecular interactions that we can unravel the complexity of the TME.
Les tumeurs solides sont caractérisées par une organisation complexe de l’écosystème dans lequel les cellules tumorales résident et se développent, appelé le Micro Environnement Tumoral (TME). Ce TME est la cible privilégiée de l’immunothérapie qui cible à impacter de manière critique la croissance d’une tumeur ou son potentiel invasif et métastatique. De ce fait, caractériser le contenu et l'état du TME d’un patient atteint du cancer est une priorité. Cependant, dû à la large variabilité du TME et de sa complexité cellulaire et moléculaire, il est parfois difficile d’exploiter les connaissances pré-existantes sur les propriétés de ses continuants, souvent obtenues dans des contextes différents. Pour cette raison, il devient intéressant de tirer profit des approches non supervisées ou exploratoires en se basant sur les données de cancer disponibles qui ne requièrent pas de fixer une forte connaissance a priori par avance. Les outils mathématiques de machine learning comme les différentes catégories de méthodes de factorisation matricielle ont démontré leur utilité dans ce but. Dans mon travail, c’est au travers de l’utilisation d’une méthode de factorisation matricielle nommée Analyse par Composantes Indépendantes (ICA) que j’ai développé une méthode computationnelle visant à disséquer l’expression des gènes et d’autres types de données omiques, ainsi que pour extraire les signaux liés à l'infiltration immunitaire dans le TME. L’ICA récupère les sources indépendantes venant de la variation d'expression des gènes sous la forme de poids associés à tous les gènes mesurés. Mais même si cette méthode a prouvé son efficacité pour la tâche de déconvolution computationnelle ainsi que d’autres applications sur des données du cancer, dû à sa nature non supervisée, elle comporte certaines complications lorsque vient le besoin de sélectionner le nombre de signaux que nous attendons dans les données ou lorsqu’on veux interpréter ces signaux. Pour soulager ce problème de choisir une dimension spécifique pour la décomposition des données, une nouvelle méthode HACK (Hierarchical Analysis of Component linKs) a été développée pour permettre d’analyser les signaux sur un assortiment de plusieurs dimensions en tant qu’une hiérarchie interconnectée ainsi que de caractériser le transcriptome comme un groupe de métagènes persistants, reproductibles sur plusieurs ordres de décomposition. Cette approche permet non seulement d’avoir une idée sur la qualité et la reproductibilité des signaux récupérés mais aussi d’aider à reconstruire les relations parmi eux. Pour l’interprétation des signaux extraits, je propose d’exploiter les reconstructions complètes des voies de signalisation pour tirer des conclusions sur le sens biologique des signatures moléculaires dérivées des données. Par conséquence, dans ce projet j'ai participé à la production et l’exploitation de plusieurs cartes moléculaires détaillées reliées à la biologie du cancer comme la carte du rôle du système immunitaire inné dans le cancer ou la carte sur la régulation de la mort cellulaire. En définitive, c’est au travers de l’utilisation d’analyses de données non supervisées, couplées à une description détaillée des interactions moléculaires que nous pouvons commencer à démêler la complexité du TME, d’une manière complémentaire aux autres méthodes.
Fichier principal
Vignette du fichier
va_Sompairac_Nicolas.pdf (16.26 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04523762 , version 1 (27-03-2024)

Identifiants

  • HAL Id : tel-04523762 , version 1

Citer

Nicolas Sompairac. Unsupervised hierarchical deconvolution of gene expression data to unravel the tumor micro-environment complexity. Genetics. Université Paris Cité, 2021. English. ⟨NNT : 2021UNIP5153⟩. ⟨tel-04523762⟩
2 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More