Apprentissage Automatique et Réseaux Neuronaux - page 22

 

Apprentissage profond interprétable - Apprentissage profond dans les sciences de la vie - Conférence 05 (printemps 2021)



Apprentissage profond interprétable - Apprentissage profond dans les sciences de la vie - Conférence 05 (printemps 2021)

Cette vidéo traite de l'importance de l'interprétabilité dans les modèles d'apprentissage en profondeur, en particulier dans le domaine des sciences de la vie où les décisions peuvent avoir des conséquences désastreuses. L'orateur explique deux types d'interprétabilité : l'intégrer dans la conception du modèle dès le départ et développer des méthodes d'interprétabilité post hoc pour les modèles déjà construits. Ils explorent ensuite différentes techniques d'interprétation des modèles, notamment la visualisation du poids, la construction de modèles de substitution et la maximisation de l'activation, et discutent de l'importance de comprendre les représentations internes du modèle. Le conférencier explique également plusieurs méthodes d'interprétation des décisions individuelles, telles que les méthodes basées sur des exemples et les méthodes d'attribution. De plus, le conférencier discute du défi d'interpréter des concepts complexes et des limites des interprétations de modèles de réseaux de neurones, ainsi que d'explorer des hypothèses liées à la discontinuité des gradients dans les réseaux de neurones d'apprentissage en profondeur.

Dans la deuxième partie de la conférence, le conférencier a abordé les défis des gradients discontinus et des fonctions saturées dans les modèles d'apprentissage profond dans le domaine des sciences de la vie. Ils ont proposé des méthodes telles que la moyenne de petites perturbations d'entrée sur plusieurs échantillons pour obtenir un gradient plus lisse, l'utilisation d'un bruit aléatoire pour mettre en évidence les caractéristiques saillantes dans la classification des images, et des techniques de rétropropagation telles que les réseaux de neurones déconvolutifs et la rétropropagation guidée pour interpréter les modèles de régulation des gènes. Le conférencier a également discuté de l'évaluation quantitative des méthodes d'attribution, y compris la procédure de retournement de pixels et l'approche de suppression et de remplacement des scores. Enfin, ils ont souligné le besoin d'interprétabilité dans les modèles d'apprentissage en profondeur et les différentes techniques pour y parvenir.

  • 00:00:00 Dans cette section, le présentateur discute de l'importance de l'interprétabilité dans l'apprentissage en profondeur et des différentes méthodes pour y parvenir. Ils expliquent que si les modèles d'apprentissage en profondeur peuvent surpasser les humains, il est important de comprendre comment ils prennent des décisions et si ces décisions peuvent être fiables. L'interprétabilité peut aider au débogage, à la réalisation de découvertes et à l'explication des décisions. Le présentateur poursuit en discutant des méthodes d'interprétation anti-faucon et post hoc, ainsi que de l'interprétation des modèles par rapport aux décisions. Ils se penchent ensuite sur des méthodes spécifiques d'interprétation des modèles, telles que la visualisation du poids, la construction de modèles de substitution, la maximisation de l'activation et les modèles basés sur des exemples. Enfin, le présentateur discute des méthodes d'attribution et de l'évaluation de l'efficacité de ces méthodes par des mesures qualitatives et quantitatives.

  • 00:05:00 Dans cette section, l'importance de l'interprétabilité dans l'apprentissage automatique est soulignée, en particulier dans le domaine des sciences de la vie où de mauvaises décisions peuvent avoir des conséquences coûteuses. L'approche traditionnelle consistant à construire un modèle géant sans comprendre comment et pourquoi il fonctionne n'est plus suffisante, et à la place, des informations interprétables doivent être extraites des modèles de boîte noire. L'apprentissage automatique interprétable fournit des prédictions vérifiées optimisées non seulement pour l'erreur de généralisation, mais aussi pour l'expérience humaine. Il est important de comprendre les mécanismes physiques, biologiques et chimiques de la maladie pour mieux former les médecins et mieux comprendre le fonctionnement du cerveau humain. De plus, le droit à l'explication est crucial pour lutter contre les biais qui peuvent être inhérents aux ensembles de données de formation en raison de siècles de discrimination.

  • 00: 10: 00 Dans cette section de la vidéo, l'orateur discute de deux types d'interprétabilité dans l'apprentissage en profondeur : la construction de l'interprétabilité dans la conception du modèle et la construction de l'interprétabilité post hoc en développant des techniques spéciales pour interpréter des modèles complexes après leur construction. . Ils expliquent que l'apprentissage en profondeur comporte des millions de paramètres, ce qui rend impossible la création de modèles interprétables pour commencer. Par conséquent, l'accent est mis sur le développement de techniques d'interprétabilité post hoc en fonction de leur degré de localité. Le conférencier discute également des moyens de construire des réseaux de neurones interprétables à la fois au niveau du modèle et de la décision.

  • 00: 15: 00 Dans cette section, l'orateur discute des deux types de modèles interprétables pour l'apprentissage en profondeur : ceux qui interprètent le modèle lui-même et ceux qui interprètent les décisions. Les décisions peuvent être basées sur des méthodes d'attribution ou des méthodes basées sur des exemples. L'orateur parle également d'analyser les représentations elles-mêmes et de générer des données à partir du modèle. Ils introduisent quatre types d'approches pour analyser les représentations, notamment la visualisation des poids, la construction de modèles de substitution et la compréhension des entrées qui maximisent les unités d'activation. Enfin, l'orateur souligne l'importance de comprendre les représentations internes du modèle, en particulier les caractéristiques hiérarchiques extraites de la moitié gauche du modèle qui peuvent donner un aperçu de la façon dont les modèles d'apprentissage en profondeur font des inférences.

  • 00:20:00 Dans cette section, le conférencier discute de l'idée d'interpréter l'apprentissage en profondeur en examinant le fonctionnement interne du réseau de neurones. Il explique que tout comme la façon dont les scientifiques ont étudié le cortex visuel chez les chats et les singes pour comprendre comment les neurones individuels se déclenchent dans différentes orientations, nous pouvons regarder les neurones se déclencher dans un réseau de neurones pour comprendre les primitives ou les caractéristiques que le réseau a appris à reconnaître. Cependant, avec des millions de paramètres et des milliers de nœuds internes, il n'est pas possible de visualiser chacun d'entre eux. Ainsi, l'enseignant introduit l'idée de modèles de substitution ou modèles d'approximation plus simples et plus interprétables. La conférence couvre également la maximisation de l'activation, où l'objectif est de générer des données qui maximisent l'activation d'un neurone particulier.

  • 00: 25: 00 Dans cette section, l'orateur discute d'un problème d'optimisation qui consiste à maximiser la probabilité a posteriori de classe pour une entrée donnée tout en utilisant également un terme de régularisation pour s'assurer que la sortie est interprétable par l'homme. Ils expliquent que la simple maximisation basée sur la probabilité de classe peut donner des images qui n'ont pas beaucoup de sens, de sorte que le terme de régularisation supplémentaire est nécessaire pour contraindre la sortie à être interprétable. Ils abordent également la notion de variables latentes et de paramètres permettant de paramétrer les vecteurs bruités et d'améliorer la qualité des interprétations. L'objectif est de générer des données qui correspondent plus étroitement aux données de formation afin que la sortie ressemble aux modèles liés à la classe et soit plus facile à interpréter pour les humains.

  • 00:30:00 L'objectif est de maximiser ou de minimiser certaines fonctionnalités, puis d'utiliser ces instances pour comprendre comment le modèle prend ses décisions. Cela peut être fait par la maximisation de l'activation dans l'espace des entrées possibles, où l'entrée est contrainte de provenir d'une distribution de données de type humain. Alternativement, un modèle génératif peut être utilisé pour échantillonner à partir de la fonction de densité de probabilité de cette distribution. En forçant la présentation à être dans l'espace de code, les images résultantes sont plus interprétables et peuvent être utilisées pour construire des modèles plus interprétables. D'autres techniques pour créer des modèles interprétables incluent la visualisation des poids, la création de modèles de substitution qui se rapprochent de la sortie et l'interprétation basée sur des exemples où des instances qui maximisent ou minimisent certaines caractéristiques sont utilisées pour comprendre le processus de prise de décision du modèle.

  • 00:35:00 Dans cette section, l'orateur discute de quatre manières différentes d'interpréter les décisions prises par le modèle, notamment en termes d'applications pratiques. La première méthode est basée sur des exemples, ce qui implique de sélectionner des exemples mal classés et proches de l'entrée particulière, pour enseigner au modèle comment s'améliorer. La deuxième méthode est l'attribution active, qui consiste à examiner pourquoi un gradient particulier est bruyant. La troisième méthode est l'attribution basée sur le gradient avec des dégradés lisses ou intérieurs, et la dernière méthode est l'attribution basée sur les accessoires arrière avec convolution et propagation noire guidée. Les limites de l'interprétation au niveau du modèle sont également notées, en particulier lorsqu'il s'agit de déterminer la meilleure image pour interpréter la classification.

  • 00:40:00 Dans cette section, l'orateur discute du défi d'interpréter les modèles d'apprentissage en profondeur en termes de recherche d'un prototype ou d'une image typique qui représente un concept complexe, comme une moto ou un tournesol. La méthode basée sur des exemples est présentée comme un moyen d'identifier quelle instance de formation influence le plus une décision, sans mettre spécifiquement en évidence les caractéristiques importantes de ces images. La méthode vise à déterminer les images d'entraînement les plus proches en fonction de leur influence sur la classification d'une image particulière, plutôt que de la proximité des pixels. Le conférencier parle également de la fragilité des interprétations des modèles de réseaux de neurones et de l'utilisation des fonctions d'influence dans la compréhension du processus d'apprentissage sous-jacent.

  • 00:45:00 Dans cette section, le conférencier présente deux méthodes d'interprétation des modèles d'apprentissage en profondeur. La première est l'interprétation basée sur des exemples, qui examine des exemples individuels dans l'ensemble de formation pour comprendre le processus de prise de décision du réseau neuronal. La seconde concerne les méthodes d'attribution, qui attribuent une valeur d'attribution à chaque pixel d'une image pour déterminer dans quelle mesure il contribue à la décision de classification. L'objectif des deux méthodes est de rendre l'apprentissage automatique interprétable et compréhensible par les humains, et d'identifier les caractéristiques les plus saillantes d'une image. En visualisant les valeurs d'attribution sous forme de cartes thermiques, les chercheurs peuvent mieux comprendre comment les réseaux de neurones profonds prennent des décisions et quels pixels d'une image sont les plus responsables de cette décision.

  • 00: 50: 00 Dans cette section, l'intervenant explique comment calculer la saillance d'une image en utilisant la même méthodologie que la rétropropagation lors de la formation. Au lieu de regarder les dérivés par rapport aux poids, ils regardent les dérivés par rapport aux pixels. La carte de saillance est ensuite calculée en attribuant visuellement ces pixels à l'image. Cependant, ces cartes de saillance ont tendance à être bruyantes et peu précises. L'orateur détaille deux hypothèses pour expliquer pourquoi c'est le cas : soit les pixels diffusés sont importants pour le processus de prise de décision du réseau de neurones, soit que les gradients pourraient être discontinus. L'orateur explique ensuite comment ces hypothèses ont guidé le développement de méthodes pour traiter les cartes de saillance bruitées.

  • 00: 55: 00 Dans cette section de la conférence, l'orateur discute de trois hypothèses liées à la discontinuité des gradients dans les réseaux de neurones d'apprentissage en profondeur. La première hypothèse est que la fonction en cours d'apprentissage n'est pas fluide, et que plus de couches sont ajoutées, le tir devient extrêmement discontinu, conduisant à des erreurs de classification. La seconde est que les gradients sont discontinus en raison du nombre de couches et de fonctions non dérivées, provoquant du bruit et permettant des tromperies dans les fonctions de classification. La troisième hypothèse suggère que la fonction sature, empêchant la capacité d'apprendre quoi que ce soit de plus fluide. Pour améliorer ces dérivées partielles par rapport à l'entrée, une possibilité discutée est d'ajouter du bruit pour perturber l'entrée et d'utiliser le gradient sur l'entrée perturbée ou de prendre la moyenne sur plusieurs perturbations pour lisser le gradient bruyant.

  • 01:00:00 Dans cette section, le conférencier a discuté des solutions aux défis d'apprentissage en profondeur causés par des gradients discontinus ou des fonctions saturées. Celles-ci comprenaient des méthodes pour modifier les gradients ou la rétropropagation et utiliser plusieurs images avec du bruit supplémentaire. Le conférencier a également discuté de diverses méthodes d'attribution, telles que la propagation de la pertinence par couche et l'élévation profonde, pour interpréter les modèles de régulation des gènes. Pour traiter la discontinuité des gradients, ils ont suggéré de définir une fonction de gradient lisse en faisant la moyenne de petites perturbations de l'entrée sur de nombreux échantillons, lissant efficacement la fonction de gradient pour qu'elle fonctionne comme un réseau peu profond plutôt qu'un réseau profond. De plus, le conférencier a expliqué comment l'ajout de bruit aléatoire aux images pourrait aider à démontrer la robustesse du modèle et à mettre en évidence les caractéristiques saillantes utilisées de manière récurrente dans la classification des images.

  • 01:05:00 Dans cette section, le conférencier discute de trois hypothèses pour interpréter les modèles d'apprentissage profond dans le domaine des sciences de la vie. La deuxième hypothèse suggère que les gradients sont discontinus avec une image particulière, mais en prenant un échantillon de plusieurs images entourant celle-ci, un gradient plus lisse peut être obtenu. La troisième hypothèse suggère que la fonction se sature, conduisant à des activations extrêmes. Pour y remédier, l'enseignant propose de redimensionner les images pour les rapprocher des fonctions distribuables. Cela se fait grâce à des dégradés intérieurs qui sont utilisés pour redimensionner les pixels de l'image. Des méthodes basées sur la toile de fond sont également explorées, telles que les réseaux de neurones déconvolutifs et la rétropropagation guidée en raison du défi des valeurs mises à zéro dans l'unité linéaire rectifiée.

  • 01:10:00 Dans cette section, l'orateur discute des défis de la rétropropagation dans l'apprentissage en profondeur et de la manière dont ils peuvent être résolus à l'aide de réseaux de neurones déconvolutifs. En mappant les modèles de caractéristiques à l'espace d'entrée et en reconstruisant l'image, les réseaux de neurones déconvolutifs peuvent obtenir une reconstruction de caractéristiques valide et supprimer le bruit en supprimant les gradients négatifs. Le conférencier explique également comment la rétropropagation guidée peut être utilisée pour combiner les informations des passes avant et arrière afin de générer des images représentatives de l'image d'origine. En outre, le conférencier discute des méthodes d'évaluation de ces méthodes d'attribution, y compris des approches qualitatives et quantitatives basées sur la cohérence et la sensibilité aux classes. Enfin, le conférencier explore différentes méthodes d'attribution, telles que l'élévation profonde, les cartes de saillance et le dégradé lisse, et leur efficacité à capturer des pixels spécifiques responsables d'une classification particulière.

  • 01:15:00 Dans cette section, le conférencier discute de l'évaluation quantitative des méthodes d'attribution dans l'apprentissage en profondeur. L'objectif est d'évaluer si ces méthodes capturent correctement l'objet d'intérêt prévu et distinguent différentes classes d'objets. L'orateur présente la procédure de retournement de pixels pour supprimer les caractéristiques individuelles avec des valeurs d'attribution élevées et évalue la fonction de classification pour mesurer la sensibilité de la méthode. La précision des attributions de saillance et des attributions de classification peut être mesurée à l'aide d'une courbe, et l'orateur suggère de supprimer et de recycler pour obtenir une meilleure précision. Dans l'ensemble, la section traite des moyens quantitatifs d'évaluer l'efficacité des méthodes d'attribution d'apprentissage en profondeur.

  • 01:20:00 Dans cette section, l'orateur explique comment la performance d'un classifieur peut être mesurée en supprimant des caractéristiques spécifiques basées sur la méthode d'attribution. L'approche "supprimer et remplacer le score" consiste à remplacer un certain pourcentage des pixels les plus ou les moins importants et à recycler le réseau de neurones profonds pour mesurer le changement de précision. Cela fournit une mesure quantitative pour évaluer l'exactitude des décisions d'interprétation. Le conférencier rappelle également l'importance de l'interprétabilité et des différentes techniques d'interprétation des modèles d'apprentissage profond à l'aide des méthodes d'attribution et de maximisation de l'activation, ainsi que les défis des méthodes post hoc.

  • 01:25:00 Dans cette section, le conférencier explique comment les modèles d'apprentissage en profondeur peuvent être contraints et les caractéristiques les plus saillantes trouvées à l'aide de la rétropropagation, de la déconvolution et de la rétropropagation guidée. Diverses méthodes de notation de ces méthodes de division ont également été mises en évidence, notamment la cohérence, la sensibilité aux classes et les mesures quantitatives pour supprimer les caractéristiques à forte attribution. Le conférencier a ensuite présenté les méthodes de suppression et de recyclage dans lesquelles des pixels individuels peuvent être supprimés, recyclés et la baisse de précision mesurée. La conférence s'est terminée par un examen des sujets abordés et les conférences à venir ont été annoncées.
Interpretable Deep Learning - Deep Learning in Life Sciences - Lecture 05 (Spring 2021)
Interpretable Deep Learning - Deep Learning in Life Sciences - Lecture 05 (Spring 2021)
  • 2021.03.03
  • www.youtube.com
Deep Learning in Life Sciences - Lecture 05 - Interpretable Deep Learning (Spring 2021)6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep...
 

Modèles Génératifs, Réseaux Adversariaux GANs, Autoencodeurs Variationnels VAEs, Apprentissage des Représentations - Conférence 06 (Printemps 2021)



Modèles Génératifs, Réseaux Adversariaux GANs, Autoencodeurs Variationnels VAEs, Apprentissage des Représentations - Conférence 06 (Printemps 2021)

Cette vidéo traite du concept d'apprentissage par représentation dans l'apprentissage automatique, en soulignant son importance dans les tâches de classification et le potentiel d'innovation dans le développement de nouvelles architectures. Les tâches auto-supervisées et prétextées sont introduites comme des moyens d'apprendre des représentations sans nécessiter de données étiquetées, grâce à des techniques telles que les auto-encodeurs et les auto-encodeurs variationnels (VAE). Le conférencier aborde également les modèles génératifs, tels que les VAE et les réseaux antagonistes génératifs (GAN), qui peuvent générer de nouvelles données en manipulant la représentation de l'espace latent. Les avantages et les inconvénients de chaque méthode sont discutés, mettant en évidence leur efficacité mais aussi leurs limites. Dans l'ensemble, la vidéo fournit un aperçu complet des différentes approches de l'apprentissage par représentation et des modèles génératifs dans l'apprentissage automatique.

La vidéo explore les concepts des réseaux antagonistes génératifs (GAN), des auto-encodeurs variationnels (VAE) et de l'apprentissage de la représentation dans les modèles génératifs. Les GAN impliquent que le générateur et le discriminateur ont des objectifs opposés, et le processus de formation est lent pour les faux échantillons, mais des améliorations de la résolution et de la fonction objective peuvent conduire à des images réalistes. L'orateur montre comment les GAN peuvent générer des pièces architecturalement plausibles et transférer une pièce à une autre. Les VAE modélisent explicitement les fonctions de densité et capturent la diversité des images du monde réel grâce à des paramètres d'espace latent significatifs. L'orateur encourage la créativité et l'expérimentation avec des architectures et des modèles ouverts, et l'application de modèles génératifs et d'apprentissage de la représentation dans divers domaines est un domaine en croissance rapide avec des possibilités illimitées.

  • 00: 00: 00 Dans cette section, l'orateur discute du concept d'apprentissage de la représentation dans l'apprentissage automatique et de la manière dont il a été utilisé dans les réseaux de neurones convolutifs (CNN) pour en savoir plus sur le monde. Ils soulignent que la véritable avancée de l'apprentissage en profondeur est venue de la capacité de CNN à apprendre les non-linéarités et les représentations du monde grâce à l'extraction de caractéristiques. L'orateur soutient que les tâches de classification sont à l'origine de l'extraction de caractéristiques et que c'est de là que provient toute la représentation des connaissances du monde. Ils suggèrent également qu'il existe un potentiel d'innovation dans le développement de nouvelles architectures pour l'apprentissage de la représentation dans divers domaines qui vont au-delà des architectures existantes. Enfin, ils affirment que la partie la plus excitante des modèles génératifs est la représentation de l'espace latent plutôt que les étiquettes et que ces modèles peuvent être utilisés pour apprendre un modèle du monde sans s'appuyer sur des étiquettes.

  • 00: 05: 00 Dans cette section, l'orateur discute de l'apprentissage par représentation et de l'utilisation de l'apprentissage auto-supervisé à cette fin. L'apprentissage auto-supervisé consiste à utiliser une partie des données pour former une autre partie des données et à inciter les données à devenir leur propre superviseur. Cela permet l'apprentissage de représentations sympas qui peuvent être utilisées pour générer des vues du monde. Les modèles génératifs fonctionnent en exécutant le modèle à l'envers et en passant de la représentation compressée du monde à d'autres exemples de celui-ci. Une autre approche de l'apprentissage des représentations consiste en des tâches préalables au texte, où la tâche à accomplir n'est qu'une excuse pour apprendre des représentations. L'exemple donné est la prédiction de soi, qui est la raison d'être des auto-encodeurs. Le concept de passer par une représentation compressée et de la réétendre dans l'image elle-même à travers une pince est suffisamment significatif pour qu'une représentation sous-jacente au monde puisse être apprise. Les auto-encodeurs variationnels modélisent explicitement la variance et les distributions.

  • 00: 10: 00 Dans cette section, l'orateur discute du concept de tâches prétextes, qui fait référence au traitement des signaux d'entrée via un réseau pour apprendre des représentations du réseau et à l'utilisation du signal d'entrée pour créer un signal d'entraînement qui est une tâche que l'on ne fait pas. ça m'est égal. Des exemples de tâches de prétexte incluent la prédiction d'images avant et après, la prédiction des pixels restants d'une image après la suppression d'un patch et la colorisation d'images en noir et blanc. Le but des tâches prétextes est de se forcer à apprendre des représentations du monde, conduisant à des tâches d'apprentissage supervisées efficaces. L'importance de comprendre ce concept est cruciale car elle mène aux sujets de discussion suivants, tels que les auto-encodeurs, les auto-encodeurs variationnels et les réseaux antagonistes génératifs.

  • 00: 15: 00 Dans cette section, le concept d'apprentissage auto-supervisé est présenté comme un moyen d'apprendre de bonnes représentations en construisant des tâches prétextes qui permettent l'apprentissage sans nécessiter de données étiquetées. Les tâches de prétexte incluent la déduction de la structure d'une image, la transformation d'images ou l'utilisation de plusieurs images, entre autres. Un exemple de tâche de prétexte consiste à déduire l'orientation relative des patchs d'image, tandis qu'un autre est une tâche de puzzle où l'image d'origine doit être reconstruite. Les avantages et les inconvénients de chaque méthode auto-supervisée sont discutés, soulignant leur efficacité mais aussi leurs limites, telles que l'hypothèse d'orientations canoniques photographiques dans les images d'entraînement ou l'espace extérieur limité.

  • 00: 20: 00 Dans cette section, l'orateur explique le concept de tâches prétextes, en construisant le même type de concept de tâches prétextes et en les appliquant à différents exemples pour apprendre une représentation du monde qui nous fera résoudre des tâches apparemment complexes en apprendre quelque chose d'intéressant sur le monde. L'un des exemples comprend la création d'une représentation d'encodeur et de décodeur pour apprendre des représentations de caractéristiques de dimension inférieure à partir de données non étiquetées qui entraînent une tâche d'apprentissage non supervisée en une tâche d'apprentissage supervisée. L'objectif est de forcer des représentations significatives des variations de données et d'utiliser des fonctionnalités pour construire la version décodée de votre image originale encodée, et la fonction de perte est la différence entre l'original et le prédit.

  • 00:25:00 Dans cette section, le conférencier explique comment les auto-encodeurs peuvent être utilisés pour construire des représentations du monde et générer des images grâce à une fonction de générateur. Le vecteur z dans les auto-encodeurs peut fournir des informations significatives sur les caractéristiques relatives et la présence de différentes caractéristiques dans le monde, qui peuvent être utilisées pour générer des images supplémentaires. L'encodeur et le décodeur peuvent être utilisés séparément pour différentes tâches, telles que l'utilisation du décodeur comme modèle génératif et l'encodeur comme vecteur d'espace de caractéristiques pour l'apprentissage de la représentation. L'orateur introduit ensuite le concept d'auto-encodeurs variationnels (VAE), qui est une version probabiliste des auto-encodeurs qui nous permet d'échantillonner à partir du modèle pour générer des données supplémentaires. Les VAE apprennent à partir d'une représentation multidimensionnelle d'un ensemble de scalaires et des variances associées pour chaque scalaire. En échantillonnant à partir du vrai a priori du vecteur d'espace latent, nous pouvons générer des images basées sur divers attributs de l'image.

  • 00:30:00 Dans cette section, l'orateur discute des modèles génératifs et de leur objectif de capturer le monde en réglant divers vecteurs dans l'auto-encodeur. Ces vecteurs finissent par être des représentations significatives du monde, permettant l'échantillonnage de différentes images en faisant varier les paramètres. La stratégie de formation des modèles génératifs consiste à maximiser la vraisemblance des données de formation en apprenant les paramètres du modèle. L'orateur introduit ensuite les auto-encodeurs variationnels, qui génèrent de manière probabiliste des modèles en modélisant explicitement la moyenne et la variance des données. En faisant en sorte que l'encodeur fournisse à la fois un z unique et une variance de z, le locuteur est capable d'échantillonner à partir des deux distributions normales et de reconnaître différentes variations d'objets, tels que des bateaux.

  • 00:35:00 Dans cette section, le conférencier explique le concept des auto-encodeurs variationnels (VAE) et leur fonctionnement. Les VAE consistent en un réseau d'encodeurs qui mappe les données d'entrée à un espace latent, un réseau de décodeurs qui génère des données de sortie à partir de l'espace latent et un réseau de génération qui génère des images à partir de la représentation apprise par le réseau d'encodeurs. Le conférencier explique que la fonction de perte VAE est une borne inférieure variationnelle qui maximise la reconstruction des données d'entrée et l'approximation de la distribution a priori des images à l'aide du réseau décodeur. L'orateur mentionne également que le terme de divergence KL est insoluble mais peut être traité comme une borne inférieure pour l'optimisation par descente de gradient.

  • 00:40:00 Dans cette section, le conférencier explique comment les modèles génératifs, tels que les auto-encodeurs variationnels (VAE), peuvent être utilisés pour construire une représentation du monde avec des caractéristiques significatives. En encodant des images en utilisant seulement deux dimensions, le VAE peut capturer l'espace de tous les caractères possibles et générer n'importe quel type de caractère qui peut être représenté en utilisant seulement une coordonnée en deux dimensions. En diagonalisant l'a priori sur z, le réseau apprend des variables latentes indépendantes et les différentes dimensions de z encodent des facteurs de variation interprétables dans une bonne représentation des caractéristiques. Ce réseau d'encodeurs permet aux utilisateurs de générer des données et de décoder l'espace latent grâce à la distribution a priori de z, faisant des VAE un outil utile pour l'apprentissage des représentations.

  • 00:45:00 Dans cette section, la vidéo traite de l'utilisation des auto-encodeurs variationnels (VAE) en tant qu'approche raisonnée des modèles génératifs qui permet l'inférence de l'espace latent donné x, ce qui peut être une représentation utile pour d'autres tâches. Cependant, les VAE présentent certains inconvénients tels que la maximisation de la borne inférieure de la vraisemblance, ce qui n'est pas aussi bon que l'évaluation explicite de la vraisemblance. Les échantillons générés par les VAE sont également plus flous et de moindre qualité par rapport à ceux des réseaux antagonistes génératifs (GAN). Des recherches sont en cours sur l'amélioration de la qualité des échantillons de VAE, telles que l'utilisation d'approximations plus flexibles pour des distributions postérieures plus riches et l'incorporation de la structure dans les variables latentes. La vidéo résume également les principaux points à retenir des sections précédentes sur la génération, l'apprentissage non supervisé et les paramètres d'espace latent.

  • 00: 50: 00 Dans cette section, le concept de réseaux antagonistes génératifs (GAN) est discuté. Les GAN sont conçus pour générer des images complexes de grande dimension en échantillonnant à partir d'une distribution simple, telle qu'un bruit aléatoire, et en apprenant des transformations pour créer des images à partir d'un ensemble d'apprentissage. Le système se compose d'un réseau générateur pour créer de fausses images et d'un réseau discriminateur pour distinguer les images réelles des fausses. Le but est d'entraîner le générateur à créer des images plus réalistes en trompant le discriminateur, qui devient un adversaire dans le processus. Le système est auto-supervisé, ce qui signifie qu'aucun étiquetage manuel n'est nécessaire et remplace le besoin d'évaluateurs humains.

  • 00: 55: 00 Dans cette section, l'orateur explique le concept de réseaux antagonistes génératifs (GAN) qui utilisent une approche de jeu mini-max pour former un générateur et un réseau discriminateur. Le discriminateur est formé pour déterminer si les images générées sont réelles ou fausses, tandis que le générateur est formé pour créer des images qui peuvent tromper le discriminateur en lui faisant croire qu'elles sont réelles. Grâce à cette fonction de vraisemblance conjointe, les poids et les paramètres des deux réseaux sont entraînés simultanément, l'objectif étant que le discriminateur produise un score de 1 pour les images réelles et de 0 pour les images factices. Le générateur, quant à lui, vise à minimiser ce score en générant des images qui ne se distinguent pas des vraies.

  • 01:00:00 Dans cette section, le concept de réseaux antagonistes génératifs (GAN) est expliqué, où un générateur et un discriminateur ont des objectifs opposés dans un scénario de type jeu. Le générateur essaie de produire de fausses données qui tromperont le discriminateur, qui a appris à classer correctement les données réelles. Cependant, la formation est lente lorsque l'échantillon est faux, donc une astuce est utilisée lorsque l'objectif du générateur est modifié pour maximiser la probabilité que le discriminateur soit erroné pour les fausses données. La formation conjointe des deux réseaux peut être difficile, mais l'augmentation progressive de la résolution des images peut améliorer la stabilité. L'algorithme d'apprentissage GAN consiste à alterner entre la mise à jour du discriminateur en remontant le gradient stochastique et la mise à jour du générateur à l'aide de la fonction objectif améliorée.

  • 01:05:00 Dans cette section, la vidéo aborde le concept de réseaux antagonistes génératifs (GAN) et le processus de formation impliqué dans la construction d'un réseau de générateurs pour créer des images réalistes. La vidéo explique comment le réseau discriminateur est formé pour faire la distinction entre les images générées et les images réelles, et comment le réseau générateur est formé pour améliorer la qualité des images générées dans la mesure où elles dépassent les performances humaines. La vidéo explique en outre comment construire des architectures convolutives profondes avec des convolutions striées fractionnées et utiliser les fonctions d'activation ReLU et ReLU qui fuient pour obtenir des images réalistes. La vidéo démontre le potentiel de l'utilisation des GAN pour générer des pièces architecturalement plausibles et montre comment transférer une pièce à une autre en interpolant entre les coordonnées de l'espace latent.

  • 01:10:00 Dans cette section, le conférencier discute des modèles génératifs tels que les GAN, les auto-encodeurs variationnels (VAE) et l'apprentissage des représentations. Le but de ces modèles est de générer des échantillons divers et réalistes en apprenant les modèles et les styles sous-jacents du monde réel. Le conférencier présente des exemples de la façon dont ces modèles sont capables d'effectuer diverses tâches de manipulation d'images, telles que la mise à l'échelle, le transfert de connaissances de domaine et la synthèse de texture. L'orateur souligne également les progrès réalisés dans ces modèles, tels que les GAN progressifs, qui permettent de générer des images haute résolution, et le site Web "Cette personne n'existe pas" de Nvidia, qui utilise un grand nombre d'espaces de paramètres pour apprendre les paramètres orthogonaux qui permettent la décomposition des différentes composantes de l'image.

  • 01:15:00 Dans cette section, le conférencier explique une taxonomie de modèles génératifs, qui peut impliquer la modélisation de fonctions de densité explicites ou implicites. La densité de modèle des réseaux antagonistes génératifs (GAN) fonctionne implicitement par couplage de réseaux générateurs et discriminateurs, tandis que la densité de modèle des auto-encodeurs variationnels (VAE) fonctionne explicitement. Le pouvoir de l'apprentissage en profondeur réside dans l'apprentissage de la représentation, et l'orateur encourage la créativité et l'expérimentation avec les nombreuses architectures et modèles ouverts du jeune domaine. L'utilisation de tâches prétextes, telles que la prédiction de soi ou le remplissage des correctifs manquants, peut aider à apprendre des représentations latentes significatives du monde et à évoluer vers des modèles véritablement génératifs qui peuvent échantillonner à partir d'une véritable distribution de paramètres d'espace latent.

  • 01:20:00 Dans cette section, le conférencier discute du concept de capture de la diversité des images du monde réel à travers des paramètres d'espace latent significatifs dans les auto-encodeurs variationnels (VAE). En contraignant les paramètres de l'espace latent à être orthogonaux et distincts les uns des autres, les images résultantes peuvent être impossibles à distinguer des personnes réelles. De plus, le conférencier note que l'application des modèles génératifs et l'apprentissage de la représentation est un domaine en croissance rapide avec des possibilités illimitées dans divers domaines.
Generative Models, Adversarial Networks GANs, Variational Autoencoders VAEs, Representation Learning
Generative Models, Adversarial Networks GANs, Variational Autoencoders VAEs, Representation Learning
  • 2021.03.04
  • www.youtube.com
Deep Learning in Life Sciences - Lecture 06 - Generative Models, GANs VAEs, Representation Learning6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manol...
 

Génomique réglementaire - Apprentissage profond en sciences de la vie - Conférence 07 (printemps 2021)



Génomique réglementaire - Apprentissage profond en sciences de la vie - Conférence 07 (printemps 2021)

La conférence couvre le domaine de la génomique régulatrice, y compris les fondements biologiques de la régulation des gènes, les méthodes classiques de génomique régulatrice, la découverte de motifs à l'aide de réseaux de neurones convolutifs et l'utilisation de modèles d'apprentissage automatique pour comprendre comment la séquence encode les propriétés de régulation des gènes. Le conférencier explique l'importance des motifs régulateurs dans la régulation des gènes et comment les perturbations de ces motifs peuvent entraîner des maladies. Ils introduisent un nouveau modèle utilisant un réseau neuronal convolutif qui cartographie les lectures de séquençage sur le génome et compte le nombre d'extrémités cinq premières de chaque paire de bases sur les deux brins. Le modèle peut être utilisé pour plusieurs lectures de différentes protéines et peut être ajusté séparément ou simultanément à l'aide d'un modèle multitâche. L'orateur montre également comment le modèle peut analyser tout type de test, y compris les données génomiques, en utilisant des cadres d'interprétation qui révèlent des histoires biologiques sur la façon dont la syntaxe affecte la coopérativité TF. Les modèles peuvent faire des prédictions qui sont validées par des expériences CRISPR à haute résolution.

La vidéo explique comment l'apprentissage en profondeur peut améliorer la qualité des données ATAC-seq à faible couverture en améliorant et en débruitant les pics de signal. AttackWorks est un modèle d'apprentissage en profondeur qui prend en compte les données de couverture et utilise une architecture de réseau neuronal résiduel pour améliorer la précision du signal et identifier les sites de chromatine accessibles. L'orateur montre comment AttackWorks peut être utilisé pour gérer des données de faible qualité et augmenter la résolution de l'étude de l'accessibilité de la chromatine unicellulaire. Ils décrivent également une expérience spécifique sur les cellules souches hématopoïétiques qui a utilisé ATAC-seq pour identifier des éléments régulateurs spécifiques impliqués dans l'amorçage de la lignée. Le conférencier invite les étudiants à solliciter des stages ou des collaborations.

  • 00:00:00 Dans cette section, le conférencier présente le domaine de la génomique réglementaire et invite des conférenciers invités à discuter d'articles influents et à offrir des opportunités de collaboration et de stages aux étudiants. La conférence est le début du module 2 sur la régulation des gènes et couvre les fondements biologiques de la régulation des gènes, les méthodes classiques de génomique régulatrice et la découverte de motifs à l'aide de réseaux de neurones convolutifs. La conférence met l'accent sur la complexité du code génétique, permettant la construction et le développement d'un organisme d'auto-guérison avec des interconnexions complexes à travers tous les aspects du corps, de la tête aux pieds.

  • 00: 05: 00 Dans cette section, la complexité des cellules et la façon dont elles se souviennent de leur identité malgré l'absence d'informations contextuelles sont abordées. Le circuit de régulation des cellules est également mis en évidence, qui est basé sur un ensemble de primitives et de constructions qui permettent aux cellules de se souvenir de l'état de chaque morceau du génome. L'emballage de l'ADN dans les constructions structurelles et fonctionnelles fait partie intégrante de ce processus, permettant aux cellules de compacter autant d'ADN à l'intérieur d'elles. Cet emballage se fait à travers des nucléosomes, de petites perles dans une vue en chaîne d'ADN, composées de quatre protéines histones, chacune avec une longue queue d'acides aminés qui peut être modifiée post-traductionnelle avec différentes modifications d'histones. Ces modifications fonctionnent avec des marques épigénomiques supplémentaires, telles que les dinucléotides CPG, directement sur l'ADN pour permettre aux cellules de se souvenir de leur identité.

  • 00:10:00 Dans cette section, le conférencier aborde les trois types de modifications en épigénomique : l'accessibilité de l'ADN, les modifications des histones et la méthylation de l'ADN. Il explique comment ces modifications peuvent affecter la régulation des gènes et la liaison des facteurs de transcription. En utilisant le langage de l'épigénomique, on peut programmer chaque type de cellule dans le corps en ajustant le compactage de l'ADN aux signatures spécifiques des régions promotrices. Les promoteurs, les régions transcrites, les régions réprimées et les régions amplificatrices sont toutes marquées par différents ensembles de marques qui peuvent être identifiées et étudiées. Les activateurs, en particulier, sont extrêmement dynamiques et marqués par la monométhylation H3K4, l'acétylation H3K27 et l'accessibilité à l'ADN.

  • 00:15:00 ans cette section, le conférencier explique le concept des "états de la chromatine", qui sont différents états de la chromatine correspondant aux activateurs, aux promoteurs, aux régions transcrites et réprimées, entre autres. Un modèle de Markov caché multivarié est utilisé pour découvrir ces états de chromatine, et ceci est utilisé pour localiser les régions activatrices, les régions promotrices et les régions transcrites dans différents types de cellules du corps. La façon dont les protéines reconnaissent l'ADN est également expliquée, avec des facteurs de transcription utilisant des domaines de liaison à l'ADN pour reconnaître des séquences d'ADN spécifiques dans le génome. Le conférencier parle également des motifs d'ADN et des matrices de poids de position, qui permettent la reconnaissance de la spécificité d'une séquence d'ADN, et des mesures théoriques de l'information qui distinguent les sites de liaison pour les régulateurs.

  • 00: 20: 00 Dans cette section de la conférence, l'orateur discute de l'importance des motifs régulateurs dans la régulation des gènes et de la manière dont les perturbations de ces motifs peuvent entraîner des maladies. L'orateur explique ensuite trois technologies pour sonder la régulation des gènes : l'immunoprécipitation de la chromatine, l'accessibilité à l'ADN et l'ATAC-seq. Ces technologies peuvent être utilisées pour cartographier les emplacements des activateurs et découvrir le langage de l'ADN en utilisant des motifs et en créant des modèles d'apprentissage en profondeur.

  • 00: 25: 00 Dans cette section de la vidéo, l'orateur discute de l'utilisation de modèles d'apprentissage automatique pour comprendre comment la séquence encode les propriétés de régulation des gènes. Elle présente différentes expériences qui dressent le profil de l'ADN régulateur et souligne la nécessité de comprendre la syntaxe complexe des éléments régulateurs pour générer des réponses spécifiques. Le problème est modélisé comme une tâche d'apprentissage automatique où chaque génome est divisé en petits morceaux de milliers de paires de bases, et chacune de ces paires de bases est associée à un signal de l'expérience.

  • 00: 30: 00 Dans cette section, l'orateur discute de l'approche traditionnelle consistant à résumer les informations génétiques en mappant des séquences sur des scalaires à l'aide de divers modèles d'apprentissage automatique. Cependant, cette approche entraîne une perte d'informations, car les profils de couverture de lecture à une résolution de nucléotide unique contiennent des géométries qui reflètent l'interaction protéine-ADN, ce qui entraîne des empreintes à haute résolution. Ces détails complexes sont perdus lors du résumé des informations dans un scalaire. Pour résoudre ce problème, l'orateur souligne la nécessité de construire un nouveau modèle capable de modéliser les données à leur résolution la plus élémentaire, ce qui est accompli avec un réseau neuronal convolutif qui cartographie les lectures de séquençage sur le génome et compte le nombre de cinq extrémités premières chacune. paire de bases sur les deux brins a. Ils utilisent ensuite un réseau de neurones qui effectue cette traduction, en commençant par la séquence, en lectures à valeur réelle, qui se déplacent vers le profil, ce qui entraîne une séquence directe vers le modèle de profil.

  • 00: 35: 00 Dans cette section, l'orateur explique l'utilisation des fonctions de perte pour modéliser le nombre de lectures tombant sur une séquence et comment ces lectures sont réparties sur les paires de bases. Ils utilisent une combinaison d'erreur quadratique moyenne pour les décomptes totaux et de log-vraisemblance négative multinomiale pour la distribution précise des lectures à chaque paire de bases. Le modèle peut être utilisé pour plusieurs lectures de différentes protéines et peut être ajusté séparément ou simultanément à l'aide d'un modèle multitâche. Le conférencier applique ce modèle à quatre célèbres facteurs de transcription de pluripotence dans des cellules souches embryonnaires de souris à l'aide d'expériences de connexion de puces avec des empreintes à haute résolution.

  • 00: 40: 00 Dans cette section, l'orateur se concentre sur la précision des modèles pour faire des prédictions sur les amplificateurs du génome, qui sont très précises malgré un certain bruit ou des différences par rapport aux données observées en raison du débruitage, de l'imputation et d'autres facteurs. Pour évaluer les performances à l'échelle du génome des modèles, ils utilisent deux mesures : la divergence de Jensen-Shannon et la similitude entre les expériences répétées, la première montrant de meilleures performances que la seconde, qui est calculée pour fournir des limites supérieure et inférieure. L'orateur explique ensuite leur approche d'interprétation, en utilisant l'algorithme DeepLift pour décomposer de manière récursive les contributions des neurones à travers les couches et les nucléotides, fournissant des interprétations à haute résolution des éléments de la séquence qui entraînent la liaison par chacun des quatre facteurs de transcription, révélant une syntaxe combinatoire.

  • 00: 45: 00 Dans cette section, l'orateur discute de deux méthodes utilisées pour résumer les modèles appris par le modèle sur l'ensemble du génome. La première méthode, Modisco, prend toutes les séquences liées par une protéine d'intérêt et déduit des scores de levage profond pour chaque nucléotide dans chaque séquence. Les séquences sont ensuite regroupées en fonction de la similarité et regroupées en motifs non redondants. La deuxième méthode se concentre sur la syntaxe, ou les arrangements d'ordre supérieur des motifs qui pilotent la liaison coopérative. En utilisant l'exemple du motif nano, le réseau neuronal est capable de détecter d'importants nucléotides flanquant le site central et d'identifier des modèles périodiques précisément à dix paires de bases et demie, indiquant que nano se lie à l'ADN d'une manière qui implique que quelque chose se passe du même côté de l'hélice d'ADN.

  • 00: 50: 00 Dans cette section, l'orateur discute d'une préférence de syntaxe douce dans l'ADN qui se manifeste par un espacement préféré de multiples de dix paires de bases et demie. L'orateur montre comment le modèle est capable d'apprendre cette syntaxe grâce à la présence de pics subtils de signal observés dans le génome, lui permettant de co-localiser avec des sites spécifiques et d'apprendre la syntaxe qui entraîne la liaison. Le conférencier décrit également des expériences menées in silico pour mieux comprendre comment la syntaxe détermine la liaison de différentes protéines, y compris une expérience synthétique où deux motifs sont intégrés dans une séquence aléatoire et l'espacement entre eux est modifié pour prédire la liaison des protéines, ainsi qu'un expérience CRISPR in silico où les activateurs réels sont mutés et les effets de la liaison de quatre protéines sont prédits par le modèle. L'orateur note que la syntaxe est apprise dans les couches supérieures du modèle et montre que sa suppression fait disparaître complètement la syntaxe.

  • 00: 55: 00 Dans cette section, l'orateur explique une expérience de synthèse utilisant un amplificateur lié par OP4 et nano pour montrer les effets de la suppression de motifs spécifiques. Le modèle prédit les effets de la suppression des motifs et les expériences montrent le même effet, validant ainsi les prédictions du modèle. Le conférencier présente BPNet, un modèle qui peut analyser tout type d'essai, y compris les données génomiques, en utilisant des cadres d'interprétation qui révèlent des histoires biologiques sur la façon dont la syntaxe affecte la coopérativité TF. Les modèles peuvent faire des prédictions qui sont validées par des expériences CRISPR à haute résolution. L'exposé se termine par une discussion sur un article récent sur l'amélioration des données épigénomiques basée sur l'apprentissage profond avec ATAC-seq, qui est une collaboration entre l'équipe du conférencier et le laboratoire Bowing Rosenthal.

  • 01:00:00 Dans cette section, le concept d'accessibilité de la chromatine via le séquençage est expliqué. Les pics de la piste de couverture représentent les régions régulatrices actives du génome, permettant l'identification d'éléments régulateurs actifs dans différents types de cellules ou de tissus. L'ataxi peut également être effectué au niveau d'une seule cellule, offrant une résolution plus élevée en biologie. Cependant, la qualité des données peut être un problème, car la profondeur de séquençage, la préparation des échantillons et le nombre de cellules dans une expérience Ataxi à cellule unique peuvent tous avoir un impact sur les résultats. Attack fonctionne comme un modèle d'apprentissage en profondeur développé pour résoudre certains de ces problèmes.

  • 01:05:00 Dans cette section, l'orateur discute de l'outil AttackWorks, qui prend en compte la piste de couverture d'une expérience bruyante et utilise une architecture de réseau neuronal résiduel pour débruiter et améliorer le signal ataxique, ainsi que pour identifier les emplacements des pics ou accessibles sites de chromatine. Le modèle utilise des couches convolutionnelles unidimensionnelles et des convolutions dilatées, et comprend une fonction de perte en plusieurs parties qui mesure la précision de la piste de couverture débruitée et la précision de classification des emplacements des pics. Contrairement à d'autres modèles, AttackWorks ne prend en compte que les données de couverture plutôt que la séquence du génome afin d'être plus transférable entre différents types de cellules. L'orateur explique la stratégie de formation simple utilisée pour former le modèle et montre des exemples de résultats de son utilisation sur différents types de cellules humaines.

  • 01:10:00 Dans cette section, l'orateur explique comment l'apprentissage en profondeur peut être utilisé pour améliorer la qualité des données ATAC-seq à faible couverture en débruitant le signal et en améliorant les pics qui étaient auparavant difficiles à identifier. Ils montrent des exemples du fonctionnement de l'attaque, un modèle d'apprentissage en profondeur, capable de distinguer les pics du bruit à proximité et d'identifier avec précision l'emplacement de la chromatine accessible dans différents types de cellules, même dans de nouvelles données qui n'étaient pas présentes dans les données d'entraînement. Ils discutent également de la manière dont les attaques peuvent réduire le coût des expériences en produisant les mêmes résultats de qualité pour moins de séquençage. De plus, ils démontrent comment les attaques peuvent gérer des données ATAC-seq de faible qualité en nettoyant le bruit de fond et en identifiant les pics qui correspondent étroitement aux données de haute qualité. Enfin, ils mesurent la performance des travaux d'attaque en regardant l'enrichissement de la couverture autour des sites de départ de la transcription.

  • 01:15:00 Dans cette section, l'orateur explique comment l'apprentissage en profondeur peut être appliqué pour résoudre le problème de la capacité limitée à étudier de petites populations de cellules dans des données ataxiques unicellulaires. Ils peuvent sélectionner au hasard un sous-ensemble de cellules à partir d'un type de cellule abondant et les utiliser pour obtenir un signal bruyant. Ils peuvent ensuite former un modèle d'attaque pour prendre le signal de quelques cellules et le débruiter pour prédire ce que le signal de nombreuses cellules ferait.
    ressembler. Une fois qu'ils ont ce modèle formé, ils peuvent l'appliquer à de petites populations de très peu de cellules pour prédire à quoi auraient ressemblé les données s'ils avaient eu plus de cellules à séquencer. Cette approche augmente considérablement la résolution à laquelle ils peuvent étudier l'accessibilité de la chromatine unicellulaire, et ils montrent que les modèles sont transférables entre les expériences, les types de cellules et même les espèces.

  • 01:20:00 Dans cette section, l'orateur discute d'une expérience de séquençage de cellule unique sur des cellules souches hématopoïétiques, qui peuvent se différencier en lignées de cellules lymphoïdes ou érythroïdes. L'expérience a révélé une hétérogénéité dans la population de cellules individuelles et identifié des sous-populations de cellules qui sont prêtes à se différencier en l'une des deux lignées. L'équipe a utilisé ATAC-seq pour débruiter le signal et identifier les éléments de régulation spécifiques qui contrôlent le processus d'amorçage de la lignée. Ils reconnaissent l'équipe impliquée dans le projet et invitent les étudiants à rechercher des stages ou des collaborations.
Regulatory Genomics - Deep Learning in Life Sciences - Lecture 07 (Spring 2021)
Regulatory Genomics - Deep Learning in Life Sciences - Lecture 07 (Spring 2021)
  • 2021.03.16
  • www.youtube.com
Deep Learning in Life Sciences - Lecture 07 - Regulatory Genomics (Spring 2021)6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learnin...
 

Apprentissage profond pour la génomique réglementaire - Liaison des régulateurs, TF des facteurs de transcription - Conférence 08 (printemps 2021)



Apprentissage profond pour la génomique réglementaire - Liaison des régulateurs, TF des facteurs de transcription - Conférence 08 (printemps 2021)

La vidéo traite de l'utilisation de l'apprentissage en profondeur pour la génomique régulatrice et se concentre sur la façon dont la séquence d'ADN peut révéler différents motifs présents dans les régions activatrices et promotrices, et leur boucle 3D. La vidéo explique comment la technologie de capture de confirmation chromosomique (3C) peut sonder l'organisation chromosomique, et la technologie Hi-C peut identifier les domaines topologiquement associés (TAD), qui interagissent les uns avec les autres, et le modèle de compartiment dans le génome. Des filtres convolutifs sont appliqués à chaque position de la séquence d'ADN pour détecter différentes caractéristiques ou motifs, et le cadre d'apprentissage en profondeur peut apprendre des propriétés, des filtres et des motifs communs de la séquence d'ADN, ce qui permet d'effectuer diverses tâches de prédiction. La vidéo mentionne également à quel point l'apprentissage multitâche est bénéfique, et l'utilisation de couches supplémentaires dans le réseau d'apprentissage en profondeur pour reconnaître et combiner plusieurs représentations de blocs de construction de motifs de facteurs de transcription pourrait permettre une reconnaissance plus efficace de motifs complexes.

Le conférencier dans cette vidéo discute de l'utilisation de l'apprentissage en profondeur pour la génomique régulatrice en mettant l'accent sur la liaison des facteurs de transcription et la prédiction de l'expression des gènes. Ils explorent l'utilisation des structures de convolution et des convolutions dilatées pour intégrer de grandes régions d'ADN et faire des prédictions dans un cadre multitâche pour les données sur la chromatine et l'expression des gènes. Le conférencier couvre également l'utilisation des connexions résiduelles pour former des réseaux de neurones profonds et explique comment le modèle peut prédire les contacts 3D à l'aide de données et de modèles IC. Dans l'ensemble, l'apprentissage en profondeur peut être un outil puissant pour analyser les données génomiques et faire des prédictions basées sur la séquence d'ADN avec suffisamment de données et les bonnes transformations.

  • 00: 00: 00 Dans cette section, l'orateur discute de l'utilisation de la séquence d'ADN et de l'apprentissage en profondeur pour prédire les caractéristiques du génome régulateur des gènes, en se concentrant sur la distinction des différents motifs qui composent les régions activatrices et promotrices et leur boucle 3D. L'orateur décrit l'utilisation de matrices de poids de position (PWM) pour déterminer la spécificité de la liaison de chaque facteur de transcription, qui est ensuite utilisée pour prédire la fonction de régulation des gènes. L'immunoprécipitation de la chromatine est également mentionnée comme une technologie utilisée pour profiler les régions régulatrices du génome.

  • 00: 05: 00 Dans cette section, l'orateur explique comment la compréhension de la structure tridimensionnelle de la chromatine peut révéler où différents facteurs de transcription sont liés. Le noyau contient tout l'ADN d'une cellule et est organisé spatialement avec des régions actives éloignées de la lame nucléaire et plus proches du centre du noyau. La capture de confirmation chromosomique (3C) est une technique utilisée pour sonder l'organisation chromosomique en coupant au hasard des brins d'ADN, puis en les recollant pour voir où différentes sections d'ADN pourraient être en contact les unes avec les autres. Cette technique peut révéler comment les chromosomes bouclent les uns sur les autres.

  • 00: 10: 00 Dans cette section, l'orateur explique comment couper et ligaturer différents fragments d'ADN peut être utilisé pour créer des molécules chimériques qui révèlent où des portions d'ADN se lient et se cartographient dans le génome. En séquençant et en analysant ces régions chimériques, les chercheurs peuvent avoir un aperçu de l'emballage tridimensionnel du génome et de la manière dont différentes régions interagissent les unes avec les autres. Le conférencier discute de diverses techniques telles que 3C, 4C, 5C et ChIA-PET qui permettent l'analyse des interactions entre les régions génomiques et l'utilisation de méthodes basées sur les anticorps pour étudier sélectivement les régions liées par des régulateurs spécifiques.

  • 00:15:00 Dans cette section, le conférencier explique comment fonctionne la technologie Hi-C et comment elle donne un aperçu de la façon dont le génome est organisé. La technologie Hi-C consiste à ajouter des marques de biotinylation aux régions du génome, puis à retirer ces marques pour les séquencer, ce qui permet aux scientifiques de déterminer comment deux régions du génome interagissent entre elles. Les images résultantes montrent des informations en boucle et révèlent que les régions proches de la diagonale interagissent le plus. La technologie Hi-C identifie également les domaines topologiquement associés (TAD), qui interagissent davantage les uns avec les autres qu'avec l'extérieur du domaine, et les modèles hiérarchiques d'interaction en leur sein. De plus, la technologie montre un motif en damier où les régions ont tendance à interagir davantage avec les régions du même type, ce qui permet aux scientifiques de visualiser le compactage et l'organisation du génome.

  • 00: 20: 00 Dans cette section, l'orateur discute de la territorialité des différents chromosomes dans le noyau et du modèle de compartiment a contre b dans le génome, ce qui suggère qu'une partie du génome est inactive et plus proche de la périphérie tandis que la partie active est plus proche du centre. L'orateur mentionne également les domaines topologiquement associés, qui sont des groupes de régions qui interagissent fortement en leur sein, mais pas à travers eux. Le modèle dominant pour les pics d'angle dans ces domaines est qu'ils sont créés par un processus d'extrusion de boucle, qui implique des sites de liaison pour le régulateur CTFC et la cohésine poussant une boucle d'ADN à travers.

  • 00: 25: 00 Dans cette section, la vidéo explique le modèle d'extrusion de boucle de l'interprétation de haut niveau de la chromatine et du repliement tridimensionnel de la chromatine, qui implique le rapprochement des sites de liaison et la poussée de l'ADN à travers la croissance efficace d'une boucle. La vidéo aborde ensuite l'analyse informatique des motifs de régulation, en utilisant des approches traditionnelles avant l'apprentissage en profondeur, et comment la même méthodologie d'apprentissage en profondeur peut être utilisée pour l'analyse d'images et la génomique régulatrice avec le seul codage à chaud de l'ADN. Cette méthodologie consiste à affiner un logo de motif en itérant entre la reconnaissance d'un motif de séquence commun et la découverte d'instances de ce motif.

  • 00:30:00 Dans cette section, l'orateur explique comment les filtres convolutifs sont utilisés dans l'apprentissage représentationnel dans l'architecture d'apprentissage en profondeur. La séquence d'ADN est transformée en une représentation de codage à chaud avec quatre canaux d'entrée différents pour chaque lettre. Des filtres convolutifs sont appliqués à chaque position de la séquence d'ADN pour détecter différentes caractéristiques ou motifs. Ces motifs sont ensuite appris et peuvent être appliqués pour effectuer une tâche spécifique, comme déterminer si un facteur de transcription est binaire ou non. L'orateur souligne que le cadre d'apprentissage en profondeur peut apprendre tous ces filtres convolutifs et faire varier le nombre de couches, les tâches de prédiction, les relations entrée-sortie, entre autres. En fin de compte, l'architecture peut extraire des propriétés, des filtres et des motifs communs de la séquence d'ADN et les utiliser pour apprendre une représentation de la séquence, permettant d'effectuer diverses tâches de prédiction.

  • 00:35:00 Dans cette section, le conférencier présente une introduction à l'utilisation de l'apprentissage automatique sur les séquences d'acides nucléiques en biologie. Il discute des lacunes des utilisations antérieures réussies de l'apprentissage automatique, telles que les noyaux de chaînes, et de la façon dont ils étaient incapables de prendre en compte le positionnement spatial des k-mers ou toute relation entre eux. Le conférencier suggère ensuite que les méthodes d'apprentissage en profondeur pourraient potentiellement surmonter ces limitations et permettre de meilleures représentations des séquences d'ADN pour l'apprentissage automatique.

  • 00:40:00 Dans cette section de la vidéo, l'orateur explique le processus d'utilisation des filtres de convolution dans l'apprentissage en profondeur pour la génomique réglementaire, qui est similaire au processus utilisé dans l'analyse d'images. La première couche des filtres de convolution reconnaît les matrices de poids de position qui sont balayées sur la séquence, créant une représentation numérique, puis une opération de normalisation par lots est appliquée, suivie d'une fonction non linéaire qui définit les valeurs négatives sur zéro. Ensuite, l'opération de regroupement maximum est utilisée pour prendre la valeur maximale des positions adjacentes pour chaque canal de filtre. Des couches convolutives sont ensuite appliquées plusieurs fois pour le modèle, avec des opérations de mise en commun entre les deux, pour apprendre les relations entre les facteurs de transcription et les sites de liaison.

  • 00: 45: 00 Dans cette section, l'orateur discute de la réalisation de prédictions dans l'apprentissage en profondeur pour la génomique réglementaire. Ils réduisent l'objet sur l'axe des longueurs et exécutent une couche entièrement connectée pour faire des prédictions. Le conférencier donne ensuite un exemple d'hypersensibilité à l'ADN et explique comment de nombreux sites sont accessibles à travers les types de cellules, mais également de nombreux pics spécifiques aux types de cellules qui doivent être appris. Les ensembles de formation, de validation et de test se composent de deux millions de sites, qui sont décomposés en 164 appels binaires pour savoir s'il existe un signal significatif de ce test d'hypersensibilité à l'ADN. L'orateur discute des avantages de l'apprentissage multitâche, où toutes les convolutions et les couches entièrement connectées sont partagées entre toutes les tâches à l'exception de la transformation linéaire finale. Ils expliquent que cette représentation conjointe donne de meilleurs résultats que la formation de modèles séparés pour chaque tâche.

  • 00: 50: 00 Dans cette section, les présentateurs discutent des tâches impliquées dans leur modèle d'apprentissage en profondeur pour la génomique régulatrice, qui comprend différents types de cellules et des tests tels que le facteur de transcription chip-seq et la modification de l'histone chip-seq. Ils expliquent que le modèle utilise des réseaux de neurones convolutifs qui sont plus flexibles que les SVM k-mer et peuvent représenter plus de choses. Pour comprendre ce que fait le modèle, ils analysent les matrices de poids de position obtenues à partir des filtres de convolution et les comparent à la base de données cisBP des sites de liaison des facteurs de transcription. Ils constatent que les filtres reconnaissent en grande partie des séquences similaires aux motifs de la base de données et notent que l'utilisation de plusieurs filtres pour des facteurs de transcription importants tels que le CTCF est cruciale pour prédire l'accessibilité.

  • 00: 55: 00 Dans cette section, l'orateur discute du potentiel d'utilisation de couches supplémentaires dans un réseau d'apprentissage en profondeur pour reconnaître et combiner plusieurs représentations de blocs de construction de motifs de facteurs de transcription, comme CTCF. Cela pourrait permettre une reconnaissance plus efficace des motifs complexes, bien qu'il puisse également être difficile de déterminer l'emplacement exact et la contribution de chaque filtre individuel. L'orateur mentionne également plusieurs analyses qu'ils ont effectuées pour mieux comprendre le contenu de l'information et l'influence des différents filtres du modèle, ce qui pourrait aider à mieux interpréter les résultats d'une approche d'apprentissage en profondeur de la génomique réglementaire.

  • 01:00:00 Dans cette section de la vidéo, l'orateur discute de l'utilisation d'un motif connu pour faire des prédictions et étudie les sites de liaison des facteurs de transcription en mutant chaque nucléotide dans la séquence. L'orateur aborde ensuite un nouveau problème de prédiction de la transcription et de l'expression génique en calculant une fonction de tous les éléments d'une longue région d'ADN. La solution consiste à utiliser des structures de convolution et à intégrer une grande région de séquence, environ 100 000 nucléotides pour le modèle, puis à effectuer un regroupement maximal pour obtenir la séquence à une résolution d'environ 128 paires de bases. Le défi est de savoir comment partager les informations à travers le génome, et différents modules peuvent être utilisés pour cela. Les réseaux de neurones récurrents ont été supposés être le meilleur outil pour le travail.

  • 01:05:00 Dans cette section, l'orateur parle d'un outil appelé convolution dilatée qu'ils ont utilisé à la place d'un réseau neuronal récurrent pour éviter le problème de l'apprentissage lent sur de longues séquences. La convolution dilatée consiste à insérer des espaces dans la convolution et à l'étendre, ce qui permet au champ récepteur de croître de manière exponentielle, conduisant à une méthode très efficace en termes de paramètres pour couvrir une image. L'orateur explique ensuite comment ils ont utilisé des convolutions dilatées pour faire des prédictions dans un cadre multitâche pour les données sur la chromatine et l'expression des gènes. Ils mentionnent également une technique supplémentaire appelée connexions résiduelles ou connexions sautées qui peut être utile pour former des réseaux de neurones profonds.

  • 01:10:00 Dans cette section, l'orateur discute de l'utilisation des réseaux résiduels pour permettre à chaque couche d'apprendre plus facilement de nouvelles informations sans avoir à tout réapprendre avant. Ceci est particulièrement utile pour les circonvolutions dilatées, qui regardent différentes positions plus loin. En transmettant directement ce qui a déjà été appris avec la connexion résiduelle, ils peuvent ajouter de nouvelles informations au vecteur de chaque position et le normaliser ou lancer une convolution par-dessus. Le nombre de connexions résiduelles dépend de la longueur de la séquence sur laquelle on travaille, car elles doivent pouvoir regarder assez loin sans sortir des limites de la séquence.

  • 01:15:00 Dans cette section de la vidéo, l'orateur discute de l'utilisation de 5 à 10 couches de convolution dilatées pour une séquence d'entrée de 100 000, mais note que cela peut changer en fonction de l'échelle de la séquence ou de la taille du bac. L'entrée dans ce cas est le signal continu de divers ensembles de données, et l'orateur note qu'il ne peut pas être facilement binarisé comme l'expression génique. L'orateur indique qu'une fonction de perte positive fonctionne mieux pour les données et note que la qualité du modèle est affectée par la qualité des données, qui peut varier considérablement. Le conférencier mentionne brièvement l'utilisation du modèle pour faire des prédictions de mutations dans les SNP associés à la maladie et l'importance de relier la recherche en biologie computationnelle aux associations de maladies. Enfin, le conférencier aborde brièvement la prédiction des contacts 3D à l'aide de données et de modèles IC.

  • 01:20:00 Dans cette section, l'orateur explique comment il utilise les données c élevées pour faire des prédictions. Les données sont bidimensionnelles, avec des nucléotides sur l'axe des x et l'axe des y, représentant la fréquence de contact entre cette partie du génome et une autre case du génome. En utilisant l'erreur quadratique moyenne et l'apprentissage multitâche, le modèle peut prédire les données. Cependant, avec l'arrivée d'un million de nucléotides, les limitations de la mémoire GPU deviennent un problème. La solution consiste à utiliser la moyenne de la position i et de la position j, ce qui donne une matrice 2D que les outils d'apprentissage en profondeur peuvent analyser. En utilisant des convolutions 2D, des convolutions dilatées et en re-symétrisant la matrice après chaque couche, le modèle peut faire des prédictions avec ctcf étant le principal facteur d'apprentissage.

  • 01:25:00 Dans cette section, David Kelley explique comment l'apprentissage en profondeur peut être utilisé dans la génomique régulatrice pour analyser les entrées de base telles que la séquence d'ADN et prédire la liaison du facteur de transcription, en utilisant le CTCF comme exemple. Avec suffisamment de données et les bonnes transformations, les architectures de réseaux de neurones peuvent réussir à apprendre et à faire des prédictions basées sur des données génomiques. Alors que les données synthétiques sont actuellement au centre des préoccupations, cette présentation offre un aperçu des façons dont l'apprentissage en profondeur peut être appliqué en biologie et en génomique.
Deep Learning for Regulatory Genomics - Regulator binding, Transcription Factors TFs
Deep Learning for Regulatory Genomics - Regulator binding, Transcription Factors TFs
  • 2021.03.16
  • www.youtube.com
Deep Learning in Life Sciences - Lecture 08 - TF binding (Spring 2021)MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021Prof. Manolis Kellis with Guest lectur...
 

Prédiction de l'expression génique - Conférence 09 - Apprentissage profond en sciences de la vie (printemps 2021)



Prédiction de l'expression génique - Conférence 09 - Apprentissage profond en sciences de la vie (printemps 2021)

La vidéo traite de l'utilisation de l'apprentissage en profondeur dans la prédiction de l'expression génique et des défis liés à l'analyse des ensembles de données biologiques, y compris la haute dimensionnalité et le bruit. Le cours couvre des méthodologies telles que l'analyse par grappes, les approximations de rang inférieur de matrices et la détection compressive. Le conférencier parle également de l'utilisation de l'apprentissage en profondeur pour la prédiction de l'expression des gènes et de la chromatine, ainsi que de l'apprentissage faiblement supervisé pour la prédiction des sites d'activité des activateurs. La conférence aborde plusieurs outils développés en utilisant principalement une méthodologie d'apprentissage en profondeur, notamment danq, djgx, factory mat et sc fin. Le présentateur parle également de l'utilisation de modèles génératifs pour étudier les ensembles de données génomiques et introduit l'idée de la méthodologie d'inférence approximative, en particulier la méthode populaire appelée inférence variationnelle.

Dans la deuxième partie de la conférence, le conférencier discute de l'application de l'apprentissage en profondeur dans les sciences de la vie, en particulier dans la prédiction de l'expression des gènes et l'interprétation génomique. Le premier sujet se concentre sur l'application des modèles d'auto-encodage de variation à l'analyse de l'expression de l'ARN pour les ensembles de données sur l'asthme. Le conférencier propose un cadre pour supprimer les artefacts expérimentaux à l'aide d'un modèle génératif conditionnel. Le deuxième sujet traite de l'investissement d'Illumina dans les réseaux d'apprentissage en profondeur pour identifier les modèles séquence-fonction pour l'interprétation génomique, en particulier pour l'épissage. La société a développé SpliceAI, un réseau neuronal à convolution profonde qui prédit si un nucléotide est un donneur d'épissage, un accepteur ou ni l'un ni l'autre. Le troisième sujet concerne les recherches de l'orateur pour prédire si certaines mutations auront une fonction d'épissage cryptique, ce qui peut entraîner des décalages de cadre et des maladies. Le conférencier sollicite également des questions et des candidatures pour des postes de recherche, des stages et des postdocs.

  • 00:00:00 Dans cette partie de la conférence, les conférenciers présentent l'analyse de l'expression génique et les deux méthodes utilisées pour mesurer l'expression de l'ARN : l'hybridation et le séquençage du génome. Ce dernier est devenu plus populaire en raison de la baisse drastique du coût du séquençage du génome au cours des 20 dernières années. Le résultat est une matrice qui montre quel gène est exprimé à quel niveau dans des centaines de conditions. Cette matrice peut être vue verticalement ou horizontalement, donnant un vecteur long de 20 000 pour chaque gène du génome dans une condition expérimentale d'intérêt, ou pour un type cellulaire particulier qui a été trié.

  • 00:05:00 Dans cette section, l'instructeur explique comment l'apprentissage en profondeur peut être utilisé dans la prédiction de l'expression génique. Les matrices d'entrée de base impliquent le profilage de chaque cellule pour effectuer des comparaisons sur plusieurs dimensions telles que la similitude des vecteurs d'expression pour un gène donné dans différentes conditions, tissus, types de cellules, expériences, âge et sexe. L'analyse de cluster peut être utilisée pour trouver des conditions similaires les unes aux autres ou des gènes similaires les uns aux autres dans les colonnes ou les lignes. L'approche de culpabilité par association peut également être utilisée pour compléter l'annotation de gènes non annotés en fonction de la similarité d'expression. De plus, l'instructeur suggère d'utiliser des approches d'apprentissage en profondeur comme l'apprentissage auto-supervisé, la prédiction à l'aide de non-linéarités et de caractéristiques d'ordre supérieur, et l'apprentissage multitâche pour prédire conjointement les différentes classes d'intérêt, et enfin, l'instructeur souligne que l'apprentissage en profondeur est pas la seule approche, et il existe un ensemble d'outils qui peuvent être utilisés pour poser des questions biologiques et apprendre des représentations de ces systèmes.

  • 00: 10: 00 Dans cette section, le conférencier discute des techniques de réduction de la dimensionnalité qui peuvent être utilisées pour analyser les modèles d'expression génique. L'une de ces techniques est l'analyse en composantes principales (ACP), qui peut être utilisée pour identifier les principales dimensions de la variation des modèles de pression génétique. Des approximations de rang inférieur de matrices peuvent également être utilisées pour obtenir efficacement une approximation optimale de rang inférieur des données. D'autres techniques telles que t-SNE et les auto-encodeurs peuvent également être appliquées. De plus, le conférencier mentionne l'utilisation de la détection compressive pour construire des mesures composites à l'aide de combinaisons de sondes qui capturent des combinaisons linéaires d'expression génique. Enfin, le conférencier discute du potentiel d'utilisation des informations sur la chromatine pour prédire les niveaux d'expression des gènes, ce qui sera discuté dans la première conférence invitée.

  • 00: 15: 00 Dans cette section, l'orateur discute de l'utilisation de l'apprentissage en profondeur pour prédire l'expression des gènes et la chromatine à partir de diverses caractéristiques, en les combinant systématiquement à l'aide de mécanismes d'attention, similaires à ce qui a été discuté précédemment pour le modèle de transformateur et les réseaux de neurones récurrents. L'utilisation de constructions de rapporteurs et de tests à haut débit est expliquée, ainsi que la capacité de prédire si certains fragments conduiront à l'expression à l'aide d'une approche d'apprentissage automatique ou d'apprentissage en profondeur. Le conférencier présente également le concept de prédiction de l'épissage directement à partir de la séquence à l'aide d'un réseau de neurones et de caractéristiques spécifiques de la séquence, et met en évidence le travail que son équipe a effectué sur l'utilisation de l'apprentissage en profondeur pour prédire les activateurs dans le génome humain à l'aide d'un cadre supervisé hebdomadaire.

  • 00: 20: 00 Dans cette section de la vidéo, l'orateur discute d'une méthode de prédiction de l'expression génique à l'aide d'une expérience de rapporteur et d'un ensemble de caractéristiques de la chromatine. La matrice d'entrée, qui se compose des différentes marques à travers des milliers d'emplacements dans le génome, est construite pour chaque gène, et les caractéristiques de la chromatine à proximité sont testées par rapport au résultat de la recherche d'étoiles pour prédire l'expression. Le niveau de sortie est un classificateur binaire et les représentations intermédiaires du modèle sont utilisées pour prédire l'emplacement spécifique dans la séquence du génome. Cette résolution plus élevée permet une utilisation plus efficace de l'analyse des données, qui est obtenue en ajustant des courbes particulières dans le signal contigu pour avoir une représentation plus avancée.

  • 00: 25: 00 Dans cette section, l'orateur explique l'idée d'un apprentissage faiblement supervisé pour prédire les sites d'activité des amplificateurs en utilisant une méthode similaire à la détection d'objets. En passant l'image d'origine dans un filtre convolutif, les cartes d'activation sont générées et utilisées pour créer une carte thermique. Le modèle ne nécessitait qu'une annotation grossière de l'existence de l'amplificateur et prédisait l'emplacement précis en utilisant la même méthode que la carte thermique. Les résultats de la validation des lignées cellulaires croisées et des chromosomes croisés ont montré que le modèle peut prédire avec précision les amplificateurs starseek. L'ensemble raffiné, obtenu en éliminant les régions non pertinentes tout en faisant des prédictions, a une proportion plus élevée de sites de début de transcription et est plus conservé dans une centaine d'espèces différentes. Le conférencier a comparé le modèle avec le modèle de pointe précédent et a réalisé une étude de cas dans des cellules neuro-progénitrices, découvrant des activateurs neuro-spécifiques.

  • 00:30:00 Dans cette section de la vidéo YouTube "Gene Expression Prediction", le conférencier discute des défis liés à l'interprétation des ensembles de données biologiques et de l'importance de développer une méthodologie qui prend en compte de multiples facteurs, tels que la haute dimensionnalité et le bruit. Les recherches du conférencier dans son laboratoire portent sur la combinaison de différents types de techniques génomiques, y compris la génomique unicellulaire, pour développer des méthodes d'étude de la génomique. L'orateur discute également de son intérêt pour l'application de l'apprentissage en profondeur à l'analyse de l'expression génique et son utilisation pour extraire des signaux à partir d'ensembles de données bruités.

  • 00: 35: 00 Dans cette section, l'orateur discute du développement d'une méthodologie qui combine des ensembles de données multimodalités pour permettre l'examen de la biologie sous-jacente. Ils mettent en évidence des propositions récentes dans le domaine de l'apprentissage automatique qui combinent les signaux visuels avec le traitement du langage naturel pour mieux comprendre les systèmes. L'orateur procède ensuite à la liste de quelques outils que son laboratoire a développés en utilisant principalement une méthodologie d'apprentissage en profondeur, notamment danq, qui quantifie la fonction des séquences d'ADN, et djgx, qui prédit l'expression des gènes. L'orateur discute également brièvement de deux autres outils, le tapis d'usine et le sc fin, qui prédisent la liaison du facteur de transcription, le sc fin étant une extension du tapis d'usine pour la prédiction unicellulaire.

  • 00:40:00 Dans cette section de la vidéo, le présentateur aborde plusieurs méthodologies liées à l'utilisation de modèles d'apprentissage en profondeur dans les sciences de la vie. Plus précisément, la discussion couvre la méthodologie UFO pour les prédictions de structure secondaire de la structure de l'ARN, le modèle DGX qui utilise des réseaux de neurones profonds pour prédire les expressions et la méthodologie SAILOR pour utiliser des modèles génératifs profonds pour étudier des ensembles de données ataxiques unicellulaires tout en se concentrant sur l'idée de représentation invariante. apprentissage. La discussion couvre également l'utilisation de modèles VAE pour étudier les données de génomique et d'expression d'ARN, une extension des modèles génératifs profonds pour une analyse de taxi et la combinaison d'ensembles de données multimodalités avec un modèle pour apprendre des représentations partagées. Le présentateur note que tous les outils développés sont open source et disponibles sur Github.

  • 00: 45: 00 Dans cette section, le conférencier discute d'une méthode de prédiction de l'expression génique à l'aide d'un sous-ensemble de gènes. En profilant un petit nombre de gènes (1 000) à l'aide de la plate-forme technologique Luminex, les chercheurs peuvent générer des profils avec des millions d'échantillons, ce qui conduit à une méthode rentable pour comprendre les processus biologiques et les découvertes de médicaments. Les 20 000 gènes restants peuvent être déduits à l'aide de techniques informatiques telles que les réseaux de neurones profonds. En entrant 978 vecteurs dimensionnels dans un réseau neuronal à perception multicouche, les chercheurs peuvent prédire conjointement les 20 000 cibles de manière multitâche et former le modèle par rétropropagation, obtenant une meilleure précision que la régression linéaire. L'ensemble de données géographiques contenant les profils d'expression avec l'ensemble de la collection de gènes est utilisé pour entraîner le modèle.

  • 00: 50: 00 Dans cette section de la conférence, l'instructeur discute de l'utilisation de modèles génératifs pour étudier des ensembles de données génomiques. Étant donné que la plupart des ensembles de données génomiques manquent d'étiquettes, l'apprentissage non supervisé est souvent plus pertinent. L'objectif est de mapper des ensembles de données de grande dimension dans une intégration de faible dimension, ce qui peut être plus utile pour identifier les modèles sous-jacents. La méthode traditionnelle à cette fin est l'auto-encodeur, qui peut être formé en faisant correspondre l'entrée à la sortie, mais présente des problèmes tels que la sensibilité au surajustement et l'incapacité à générer des échantillons. Comme solution, l'instructeur propose des modèles génératifs profonds, qui modélisent les données à travers un cadre probabiliste avec des variables latentes. En attribuant des priors à la distribution des variables latentes, le modèle peut les marginaliser pour obtenir les distributions marginales de l'entrée.

  • 00: 55: 00 Dans cette section, le professeur discute des problèmes d'apprentissage des données basées sur un cadre générique et introduit l'idée de la méthodologie d'inférence approximative, en particulier la populaire appelée inférence variationnelle, qui propose une distribution auxiliaire sur la distribution de z donnée X. La borne inférieure de la borne de log-vraisemblance avec la distribution auxiliaire est ensuite minimisée par un équilibre entre les données et la distance ko entre les distributions, garantissant ainsi que la distribution postérieure est suffisamment proche de la distribution antérieure tout en ayant suffisamment de puissance pour modéliser des ensembles de données observables. . Cela a conduit au développement de l'auto-encodeur variationnel, qui peut modéliser à la fois p(theta)x étant donné z et la distribution auxiliaire via des réseaux de neurones en les entraînant à minimiser la variation de la log-vraisemblance négative. Cependant, le calcul de ces attentes pose des problèmes, qui peuvent être résolus à l'aide de l'astuce de reparamétrisation, en particulier lors de l'application d'un produit gaussien.

  • 01:00:00 Dans cette section, le conférencier discute de l'application des modèles d'auto-encodage de variation à l'analyse de l'expression de l'ARN, en particulier pour les ensembles de données sur l'asthme. En raison de la nature discrète et quantitative des ensembles de données RNA-seq, les chercheurs utilisent des distributions binomiales négatives gonflées à zéro pour modéliser le nombre de lectures. Cela conduit à l'idée d'utiliser un auto-encodeur combiné à ce modèle pour créer un modèle de génération profonde. Cependant, les représentations latentes apprises peuvent refléter des artefacts expérimentaux, tels que des effets de lot et une couverture de lecture. Pour supprimer ces effets, l'intervenant propose un cadre utilisant un modèle génératif conditionnel qui minimise l'information mutuelle entre les représentations apprises et leurs facteurs de confusion sous-jacents.

  • 01:05:00 Dans cette section, le chercheur principal du AI Lab d'Illumina parle de l'objectif de l'entreprise de comprendre toutes les variantes possibles du génome humain et de rendre le séquençage du génome utile à tous. L'accent est mis sur l'interprétation des variations génétiques non codantes, que la plupart des séquençages cliniques ignorent actuellement. C'est pourquoi Illumina investit massivement dans les réseaux d'apprentissage en profondeur pour identifier les modèles séquence-fonction pour l'interprétation génomique, en particulier pour l'épissage. Ils ont développé SpliceAI, un réseau neuronal à convolution profonde qui prédit si un nucléotide est un donneur d'épissage, un accepteur ou ni l'un ni l'autre, uniquement à partir de la séquence, et peut reconstruire le schéma intron-exon d'un gène à partir d'une séquence de séquences.

  • 01:10:00 Dans cette section, le présentateur discute des difficultés de prédire les jonctions d'épissage d'exons et comment leur réseau appris en profondeur a pu prédire les 30 exons du grand gène CFTR avec une précision au niveau des nucléotides. Ils ont découvert que les déterminants de séquence à longue portée sont essentiels à la régulation de l'épissage, et le réseau a pu dériver ces déterminants automatiquement à partir des données de séquence, y compris le positionnement des nucléosomes et le regroupement des exons. Le réseau a utilisé une variété de fonctionnalités, y compris le point de branchement, le tractus lunaire polyper, ag et gt, ainsi que des amplificateurs d'épissage introniques et exoniques, et a compensé la redondance des motifs locaux avec un contexte à longue portée. Le présentateur a également montré comment la précision du réseau augmentait avec des tailles de contexte plus grandes et qu'il fonctionnait également sur des séquences codantes non protéiques.

  • 01:15:00 Dans cette section de la vidéo, l'orateur discute de l'application de l'IA épissure aux patients atteints de maladies rares, en particulier un patient souffrant d'insuffisance cardiaque précoce causée par une mutation d'un seul nucléotide qui a étendu l'exon et décalé la protéine. Le modèle a également été validé sur RNA-seq de GTEx, et le taux de validation dépendait du score d'épissage AI. L'orateur souligne la complexité de l'interprétation des variantes d'épissage à faible score car elles peuvent préserver l'épissage normal, et il existe une interprétation graduée de la variation humaine qui doit être abordée. L'impact de la sélection naturelle sur les variants avec une fonction d'épissage cryptique a également été examiné, et il a été constaté que la sélection naturelle montre que les mutations d'épissage cryptique prédites par épicé i sont essentiellement équivalentes à un décalage de cadre ou à une mutation codant pour une protéine non-sens. Enfin, le modèle a été appliqué à de grands ensembles de données cliniques de patients atteints de troubles du spectre autistique et de déficience intellectuelle.

  • 01:20:00 Dans cette section de la conférence, l'orateur parle de ses recherches pour prédire si certaines mutations auront ou non une fonction d'épissage cryptique. Ils ont utilisé le séquençage de l'ARN pour confirmer la jonction d'épissage aberrante prédite et ont démontré des exemples de la façon dont ces variants provoquent l'épissage au mauvais endroit, entraînant des décalages de cadre et des maladies. L'orateur rend ses outils open source et invite les questions, ainsi que les candidatures pour des postes de recherche, des stages et des postdocs. La conférence se termine par des remerciements à l'orateur et un rappel de rester à l'écoute pour le projet final.
Gene Expression Prediction - Lecture 09 - Deep Learning in Life Sciences (Spring 2021)
Gene Expression Prediction - Lecture 09 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.03.20
  • www.youtube.com
6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyPlaylist: https://youtube...
 

Génomique unicellulaire - Conférence 10



Single Cell Genomics - Conférence 10 - Deep Learning in Life Sciences (printemps 2021)

Dans cette conférence sur la génomique unicellulaire, le conférencier discute de diverses méthodes et technologies utilisées pour le profilage des cellules individuelles, y compris le tri cellulaire et la microfluidique. L'accent est mis sur trois technologies spécifiques de séquençage unicellulaire - Smart-seq, drop-seq et les approches groupées. Le conférencier couvre également le processus d'analyse des transcriptomes unicellulaires, y compris le prétraitement, la visualisation, le regroupement et l'annotation, ainsi que l'utilisation de l'architecture d'auto-encodeur dans le regroupement communautaire. Des méthodes d'apprentissage en profondeur sont appliquées pour l'adaptation de domaine et pour reconstruire des types de cellules de manière stimulée. La conférence aborde également les défis liés à l'analyse des données génomiques unicellulaires et propose l'utilisation d'un modèle génératif pour résoudre ces problèmes de manière évolutive et cohérente.

La deuxième partie de la vidéo couvre divers sujets liés à la génomique unicellulaire et à l'apprentissage en profondeur. Les sujets abordés incluent l'inférence variationnelle, un processus génératif pour les données de séquençage d'ARN unicellulaire, le modèle SCVI pour mélanger des ensembles de données de type cellulaire, CanVAE pour propager des étiquettes et la mise en œuvre de divers algorithmes d'apprentissage en profondeur sur une base de code unique appelée outils CVI. Les conférenciers abordent également les défis liés à l'utilisation des probabilités a posteriori pour calculer les mesures de l'expression génique et présentent des méthodes pour calculer avec précision les attentes a posteriori et contrôler les taux de découverte complète.

  • 00:00:00 Dans cette section de la transcription de "Single Cell Genomics - Lecture 10 - Deep Learning in Life Sciences (Spring 2021)", l'orateur explique pourquoi le profilage d'une seule cellule est nécessaire. Les cellules individuelles du corps sont extrêmement différentes les unes des autres et peuvent varier en raison des stimuli environnementaux, des interactions, de la phase du cycle cellulaire et des rafales transcriptionnelles. Le profilage de cellule unique capture également les différences individuelles dans les types de cellules, la signalisation et le génotype, qui ne sont souvent pas capturés avec des données en masse. L'orateur décrit plusieurs technologies qui ont précédé l'explosion actuelle de l'analyse des données unicellulaires, mais met l'accent sur la technologie fondamentale d'amplification des ARN individuels pour capturer la diversité transcriptionnelle.

  • 00: 05: 00 Dans cette section, l'orateur discute des différentes technologies et méthodes utilisées pour le profilage des cellules individuelles, notamment le tri cellulaire, la microfluidique et le pipetage. En examinant des cellules individuelles à différents moments et des gènes à travers les cellules, les chercheurs peuvent voir comment les gènes individuels s'activent et se désactivent et comment il existe une hétérogénéité même à des moments particuliers. L'analyse unicellulaire pose un défi pour distinguer les valeurs zéro techniques et biologiques, mais les données obtenues grâce à ces techniques sont capables de récapituler ce qui est vu en biologie. La conférence couvre également smartseek, qui utilise la technologie basée sur les cellules, dropseek et 10x, qui utilisent tous deux des gouttelettes, et split-seek, qui est une méthode de codage à barres des cellules individuelles sans les séparer.

  • 00: 10: 00 Dans cette section, l'orateur discute des différentes méthodes utilisées en génomique unicellulaire, y compris la microfluidique et la collecte de sang, et décrit le pipeline de base utilisé dans le processus. L'accent est mis sur trois technologies spécifiques - Smart-seq, drop-seq et les approches groupées. Smart-seq utilise le tri cellulaire et capture jusqu'à 10 000 gènes par cellule, mais nécessite une réaction de séquençage distincte pour chaque puits, ce qui la rend coûteuse. Drop-seq remplace les puits par des gouttelettes, capturant des cellules individuelles avec des codes-barres dans des billes, et est plus rentable. Enfin, l'approche groupée consiste à capturer toutes les molécules d'ARN individuelles dans un seul tube marqué avec l'identité cellulaire correspondante.

  • 00: 15: 00 Dans cette section, l'orateur explique trois types différents de technologies de séquençage d'ARN unicellulaire. Le premier est le séquençage de puits, où chaque cellule est triée dans un puits ou une gouttelette, et chaque puits est étiqueté avec un code-barres unique pour distinguer les cellules les unes des autres. Le second est 10X Genomics, qui consiste à combiner tous les ARN marqués de différentes cellules en une seule réaction de séquençage. La troisième technologie est Split-Seq, où les cellules sont mélangées entre différents puits avec différents codes-barres ajoutés à chaque itération, ce qui donne une combinaison unique de codes-barres pour l'ARN de chaque cellule. Cela permet d'avoir un million d'adresses uniques pour chaque molécule d'ARN, indiquant de quelle cellule elle provient.

  • 00: 20: 00 Dans cette section, le conférencier discute des technologies de séquençage unicellulaire, y compris les cellules dans les puits, les gouttelettes et l'indexation combinatoire. Différents types de tests peuvent être utilisés, tels que le profilage de la méthylation de l'ADN unicellulaire, le séquençage du génome unicellulaire et l'accessibilité de l'ADN unicellulaire. Un autre test largement utilisé est l'ATAC-seq à cellule unique, qui examine l'accessibilité de la chromatine dans des cellules individuelles. Cependant, les données des cellules individuelles peuvent être rares et l'agrégation des données sur plusieurs emplacements est nécessaire pour parler des facteurs de transcription. Le conférencier mentionne également l'émergence croissante de méthodes multi-omiques unicellulaires, mais met en garde contre les défis informatiques liés au traitement du bruit et des artefacts. La section se termine par une introduction à deux conférenciers invités d'Europe et de la côte ouest, respectivement, qui discuteront de l'apprentissage profond de la représentation dans la génomique unicellulaire.

  • 00: 25: 00 Dans cette section de la conférence sur la génomique unicellulaire, l'orateur a discuté du processus d'analyse des transcriptomes unicellulaires, qui implique diverses étapes de prétraitement, de visualisation, de regroupement et d'annotation. Le processus n'est pas supervisé, car les informations ne sont disponibles que sur des ensembles de cellules, pas sur des cellules individuelles. Le laboratoire du conférencier a fourni des outils et des cadres pour faciliter ce processus, y compris l'analyse réussie de cellule unique scanpy en python, qui fournit une bibliothèque d'outils et de modules pour effectuer ces étapes. La visualisation et l'analyse en aval impliquent un apprentissage de l'espace latent, la méthode la plus couramment utilisée étant le graphe akn. Le laboratoire du conférencier a également investi dans l'étude des informations de séries chronologiques dans les transcriptomes unicellulaires afin de comprendre les processus de différenciation cellulaire.

  • 00:30:00 Dans cette section, l'orateur discute de l'utilisation de l'architecture d'auto-encodeur dans le clustering communautaire utilisant des réseaux de neurones profonds. Cette approche est utilisée pour faire face à la taille croissante des ensembles de données et au bruit dans les matrices cellulaires multipliées par les gènes. La couche de goulot d'étranglement de l'architecture de l'auto-encodeur s'avère importante et peut en apprendre davantage sur les processus biologiques. L'équipe du conférencier a exploité ces informations pour développer un auto-encodeur à comptage profond, qui s'adapte à la fonction de bruit en remplaçant l'erreur quadratique moyenne par une distribution binomiale négative. Un tracé bidimensionnel de cette approche sur un ensemble de données PBMC montre que la couche de goulot d'étranglement reconnaît les groupes de types de cellules sans aucune connaissance préalable, ce qui pourrait aider à tirer parti des connaissances biologiques. Le comportement de mise à l'échelle de cette méthode de réseau de neurones est également identifié comme un avantage significatif par rapport à l'algorithme Kn.

  • 00: 35: 00 Dans cette section, l'orateur discute du potentiel de l'apprentissage en profondeur dans la génomique et les données unicellulaires pour développer la prochaine génération de filtres convolutifs. Il mentionne un projet axé sur l'adaptation de domaine qui vise à transférer certains paramètres vers un nouveau, tels que les perturbations et les stimuli médicamenteux dans les cellules. Ils appellent ce projet "scgen", qui modélise les effets de perturbation des cellules et cherche à prédire comment un nouveau type de cellule se comporterait. En codant tous les ensembles de données, ils espèrent obtenir un espace latent linéarisé où ils pourront effectuer des calculs arithmétiques et des prédictions hors échantillon. Ils ont également étendu ce modèle pour une décomposition plus complexe.

  • 00: 40: 00 Dans cette section, l'orateur discute de la capacité de reconstruire un type de cellule en utilisant l'apprentissage en profondeur dans la génomique unicellulaire. L'objectif est de reconstruire un type de cellule, tel que les cellules T CD4 positives, de manière stimulée en les laissant de côté, en faisant essentiellement une prédiction hors échantillon. La prédiction n'est pas seulement basée sur la moyenne mais aussi sur la distribution de la variance. Cette reconstruction est effectuée non seulement pour les cellules T CD4 positives, mais également pour tous les différents types de cellules, et la réponse spécifique à la cellule est apprise, ce qui en fait un outil puissant pour la génomique. Le conférencier parle également de SCGen, un modèle génératif simple qui a été étendu avec l'apprentissage de l'espace latent. Il peut être utilisé pour effectuer un transfert de style en regroupant toutes les informations sur le grand échantillon dans le modèle. Enfin, l'orateur discute de l'apprentissage par transfert, qui est essentiel pour traiter les données distribuées et rendre ces cartes faciles d'accès.

  • 00:45:00 Dans cette section, le conférencier discute de l'application de la modélisation bayésienne et des auto-encodeurs variationnels (VAE) aux données unicellulaires, qui vise à comprendre les fonctions distinctes des cellules dans un tissu. Le processus consiste à dissocier un tissu en cellules individuelles et à exécuter un seul pipeline de séquençage d'ARN, ce qui donne une matrice qui montre le nombre de fois qu'un transcrit s'aligne avec un gène pour chaque cellule. Le conférencier souligne l'importance de la collaboration dans leur travail avec les étudiants et les professeurs des cycles supérieurs et de la maîtrise, et présente plusieurs sujets qu'ils aborderont tout au long de la présentation, de l'importance de l'application des VAE aux données unicellulaires à une discussion sur les extensions et les modes de défaillance des VAE. .

  • 00: 50: 00 Dans cette section, l'orateur discute des différentes tâches et défis impliqués dans la génomique unicellulaire, y compris l'analyse des requêtes au niveau des cellules et des gènes. Certaines des tâches impliquent la stratification cellulaire, l'analyse de trajectoire, l'harmonisation des ensembles de données, le transfert d'annotations, la normalisation et les tests d'expression différentielle. L'analyse peut être complexe en raison du bruit technique tel que la profondeur de séquençage variable et les effets de lot, ainsi que la nature non gaussienne et de grande dimension des données. Pour résoudre ces problèmes, l'orateur propose d'utiliser des modèles de variables latentes et des méthodes évolutives pour analyser les millions d'échantillons impliqués.

  • 00: 55: 00 Dans cette section, l'orateur discute des limites de l'application d'algorithmes aux données génomiques unicellulaires et de la nécessité d'une hypothèse de modélisation unificatrice pour l'ensemble du processus. Ils présentent l'idée d'un modèle génératif, s'appuyant sur des techniques de modélisation bayésiennes, qui peut être utilisé pour analyser des données unicellulaires de manière évolutive et cohérente. Le conférencier explique comment lire un modèle graphique et comment les différents nœuds et arêtes peuvent être utilisés pour encoder des propriétés probabilistes, telles que la réplication indépendante et la conditionnalité. L'objectif est de calculer la distribution a posteriori, qui peut être obtenue en utilisant la règle de Bayes, mais la vraisemblance marginale est souvent insoluble, sauf lors de l'utilisation de l'ACP probabiliste.

  • 01:00:00 Dans cette section, l'orateur discute du concept d'inférence variationnelle, qui est utilisé dans le scVI pour approximer la distribution de probabilité a posteriori des observations. La méthode consiste à placer une famille de distributions et à trouver le point q qui minimise la K-divergence vers la partie postérieure, ce qui est essentiellement un problème d'optimisation. En utilisant la définition d'une densité conditionnelle, le problème d'optimisation devient traitable et l'inférence variationnelle devient une méthode attrayante. L'orateur présente également une extension de l'ACP probabiliste, où un réseau de neurones peut être utilisé pour spécifier la moyenne et la variance de la distribution gaussienne. Cependant, l'utilisation de l'inférence variationnelle dans les VAE nécessite l'apprentissage des paramètres du modèle en maximisant les preuves, ce qui peut être obtenu en liant tous les paramètres du postérieur variationnel à l'aide de deux réseaux de neurones. Enfin, le conférencier discute du scVI, qui intègre des effets techniques dans un modèle graphique pour générer des comptages d'expression génique pour une cellule et un gène donnés.

  • 01:05:00 Dans cette section, l'orateur donne une explication détaillée du processus de génération de données de séquençage d'ARN unicellulaire à l'aide d'un auto-encodeur variationnel conditionnel (CVA) et explique en outre comment ce modèle peut être utilisé pour diverses tâches telles que la stratification, l'harmonisation, normalisation, imputation et expression différentielle. L'orateur souligne comment cette approche peut gérer les effets de lot et améliore l'évolutivité. L'orateur démontre également l'utilité du modèle en montrant qu'il peut récupérer des clusters hiérarchiques et des gradients de développement dans les encastrements et peut gérer les effets de lot dans les cas avec des effets de lot sévères et de nombreux lots.

  • 01:10:00 Dans cette section, le présentateur discute du défi de mélanger des ensembles de données de types de cellules tout en étant capable de distinguer les types de cellules. Ils présentent le modèle SCVI qui peut mélanger des ensembles de données sans perdre la capacité de voir les types de cellules. Le présentateur parle également de l'utilisation passionnante de la variable latente Rao pour l'analyse de l'expression différentielle. L'équipe a comparé le classement des gènes avec SCVI et d'autres méthodes pour la technologie des microréseaux et a constaté que SCVI fonctionnait de manière similaire ou même légèrement meilleure. Enfin, le présentateur présente le modèle SCVI++, qui est une extension de SCVI utilisée à des fins d'annotation, permettant le transfert d'étiquettes d'un jeu de données à un autre. Le modèle SCVI ++ est basé sur un modèle de mélange et modifie le prior en z et utilise un réseau neuronal pour l'attribution du type de cellule.

  • 01:15:00 Dans cette section, l'orateur discute de l'utilisation d'un cadre appelé CanVAE dans un cas d'utilisation où il existe un sous-ensemble de lymphocytes T mais leurs types de sous-cellules ne peuvent pas être identifiés sur la base de certains gènes marqueurs faiblement exprimés . En utilisant CanVAE pour propager les étiquettes, cela devient une méthode d'apprentissage semi-supervisée, qui fonctionne mieux que le simple regroupement ou la classification car elle utilise des connaissances sur toutes les cellules. De plus, le locuteur présente un problème de factorisation des informations continues ou des covariables de l'espace latent, ce qui est difficile à gérer avec les réseaux de neurones utilisés pour paramétrer la distribution variationnelle. Ils introduisent la contrainte HC VAES, une méthode qui applique les déclarations d'indépendance dans la suite agrégée, ce qui entraîne des bornes inférieures plus lâches avec des propriétés plus appropriées. Enfin, ils discutent de l'expression différentielle et comment elle peut être considérée comme un problème de sélection de modèle bayésien, où les rapports de vraisemblance peuvent être utilisés comme seuil pour déterminer l'expression différentielle à l'aide du cadre CanVAE.

  • 01:20:00 Dans cette section, le conférencier discute des défis et des limites associés à l'utilisation des probabilités a posteriori pour calculer les mesures de l'expression génique. L'approche peut être biaisée si la valeur a posteriori est incorrecte, et de nombreuses personnes préfèrent contrôler la mesure du taux de fausses découvertes plutôt que les facteurs de base. Pour résoudre ce problème, l'intervenant propose une méthode de calcul précis des espérances postérieures à partir d'échantillons de la distribution variationnelle. Ils introduisent différentes bornes supérieures qui surestiment la variance, ce qui est plus utile pour un échantillonnage important que pour la sous-estimer. De plus, l'orateur présente une procédure pour combiner plusieurs propositions afin de contrôler le taux de découverte complet avec le CVI. Le document associé à ce travail comprend également des analyses théoriques qui quantifient l'erreur pour un échantillonnage important à l'aide de limites de concentration.

  • 01:25:00 Dans cette section, l'orateur discute de la mise en œuvre de divers algorithmes d'apprentissage en profondeur sur une base de code unique appelée outils CVI, qui contient des outils d'analyse de données omiques unicellulaires et une interface vers des langages de programmation probabilistes. La base de code contient l'implémentation d'environ 10 à 13 modèles génératifs, et les utilisateurs peuvent facilement modifier un auto-encodeur variationnel conditionnel dans une ligne de code ou en créer un nouveau. Le conférencier mentionne également un article de synthèse qui traite de l'impact des auto-encodeurs variationnels et des réseaux antagonistes génératifs en biologie moléculaire.
Single Cell Genomics - Lecture 10 - Deep Learning in Life Sciences (Spring 2021)
Single Cell Genomics - Lecture 10 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.03.28
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisGuest lecturers: Fabian Theis, Romain LopezDeep Learning in the Life Sciences / Computa...
 

Réduction de dimensionnalité - Cours 11



Réduction de la dimensionnalité - Conférence 11 - Apprentissage profond en sciences de la vie (printemps 2021)

Les conférences vidéo sur l'apprentissage en profondeur dans les sciences de la vie explorent les techniques de réduction de la dimensionnalité pour le regroupement et la classification dans l'analyse de données unicellulaires. Les conférences font la distinction entre l'apprentissage supervisé et non supervisé et explorent l'utilisation de cadres de test d'hypothèses statistiques pour évaluer les expressions différentielles des gènes. La conférence présente le concept d'apprentissage multiple utilisant l'analyse en composantes principales, la décomposition propre et la décomposition en valeurs singulières pour la réduction de la dimensionnalité linéaire et discute des méthodes d'intégration de voisins stochastiques distribués en t et d'intégration de voisins stochastiques distribués pour la préservation des données de clustering. Le conférencier discute également de l'application de la factorisation matricielle non négative aux données génomiques et de l'intégration d'ensembles de données unicellulaires et multi-omiques. Le but ultime de ces techniques est de redéfinir les types cellulaires et leur identité de manière impartiale et quantitative.

La deuxième partie aborde plusieurs sujets liés à la réduction de la dimensionnalité, en particulier son application aux sciences de la vie. La factorisation matricielle non négative intégrative (iNMF) est utilisée pour relier les profils transcriptomiques et épigénomiques afin de mieux comprendre l'identité cellulaire dans divers contextes. La conférence aborde également les avantages de l'utilisation d'une approche par mini-lots dans l'apprentissage en profondeur, en particulier pour les grands ensembles de données, et comment les algorithmes en ligne peuvent être exploités pour améliorer les méthodes de réduction de la dimensionnalité pour l'analyse de grands ensembles de données. De plus, l'algorithme est introduit pour intégrer différents types de données, telles que les données RNA-seq et ATAC-seq. Enfin, le conférencier exprime sa volonté de servir de mentor pour les étudiants intéressés par le domaine. Dans l'ensemble, la conférence a été instructive et bien accueillie.

  • 00:00:00 Dans cette section, les conférences vidéo poursuivent la discussion sur l'analyse des données unicellulaires et se concentrent sur les techniques de réduction de la dimensionnalité pour le regroupement et la classification. Les matrices d'expression génique qui mesurent des milliers de gènes à travers des milliers d'expériences peuvent être utilisées pour regrouper des gènes ou des cellules ou pour la classification de types de cellules en fonction de leurs expressions géniques. Les conférences font la distinction entre l'apprentissage supervisé et non supervisé et explorent l'utilisation de cadres de test d'hypothèses statistiques pour évaluer la probabilité d'expressions différentielles des gènes. La vidéo mentionne également la nécessité de tenir compte de la distribution sous-jacente des données et de trouver l'ajustement le plus approprié pour la distribution observée dans l'ensemble de données.

  • 00: 05: 00 Dans cette section, le conférencier discute des différentes raisons de la réduction dimensionnelle dans les applications d'apprentissage supervisé et non supervisé. Celles-ci incluent la visualisation des données, la réduction des données, la classification des données et la réduction du bruit dans les ensembles de données. Le conférencier explique que la réduction de la dimensionnalité peut aider à comprendre les facteurs qui entraînent la variation, à faire la distinction entre différentes classes et à identifier des sous-ensembles de données intéressants. De plus, le conférencier décrit comment la réduction de la dimensionnalité implique de mapper des données de grande dimension sur une variété de dimension inférieure.

  • 00: 10: 00 Dans cette section de la conférence, le concept d'apprentissage multiple est introduit comme un moyen de comprendre la véritable dimensionnalité des données de haute dimension, ce qui permet une représentation dimensionnelle inférieure. L'apprentissage multiple implique de prendre des données de grande dimension et de comprendre la véritable dimensionnalité des données, qui peut ne pas être explorée par l'ensemble de données. La réduction de la dimensionnalité linéaire à l'aide de l'analyse en composantes principales (ACP) est considérée comme l'une des façons les plus courantes d'apprendre ces variétés. L'ACP consiste à projeter les données dans un ensemble de coordonnées linéaires, qui est une transformation de l'espace d'origine. Les vecteurs propres des données d'origine sont utilisés dans l'ACP pour trouver les vecteurs invariants aux transformations.

  • 00:15:00 Dans cette section du cours sur l'apprentissage profond en sciences de la vie, le concept de décomposition propre est introduit comme un moyen de décomposer une grande matrice de données en ses principaux vecteurs de variation. Pour les matrices symétriques, les vecteurs propres sont orthogonaux, et pour les matrices symétriques réelles, les vecteurs propres sont à la fois orthogonaux et réels. La décomposition propre capture la réduction de dimensionnalité linéaire la plus naturelle d'un ensemble de données, et la matrice diagonale représente les effets des composants principaux indépendants. Pour les matrices non symétriques, la décomposition en valeurs singulières est utilisée pour trouver les vecteurs propres des gènes et des conditions et leurs combinaisons qui expliquent le mieux les données.

  • 00: 20: 00 Dans cette section, le conférencier discute du concept de décomposition en valeurs singulières (SVD) et de la manière dont il peut être utilisé pour la réduction de la dimensionnalité linéaire. SVD est un moyen de décomposer une matrice en une série d'opérations, comprenant deux rotations et une mise à l'échelle, afin de trouver les dimensions de variation les plus importantes dans les données. La matrice résultante peut être utilisée pour calculer une approximation optimale de rang inférieur des données d'origine, permettant la représentation des données dans un espace de dimension inférieure. Ceci est utile pour la réduction de dimensionnalité linéaire, qui est limitée dans ses capacités, mais la réduction de dimensionnalité non linéaire peut éliminer certaines de ces contraintes. L'analyse en composantes principales est une méthode de réduction de dimensionnalité linéaire qui capture les principales dimensions linéaires de variation dans les données.

  • 00: 25: 00 Dans cette section, la méthode d'intégration de voisins stochastiques à distribution t (t-SNE) est décrite comme une technique de regroupement de données pour une réduction dimensionnelle tout en préservant les distances à différentes échelles. Au lieu de s'appuyer sur l'ACP qui traite toutes les distances de la même manière, t-SNE mappe un espace de grande dimension sur une dimension inférieure tout en préservant la proximité de points de données similaires dans le nouvel espace. En appliquant une bande passante spécifique, des cellules individuelles avec des modèles d'expression similaires dans un espace de grande dimension peuvent être rapprochées les unes des autres dans un espace de dimension inférieure, minimisant la divergence KL entre les deux espaces. Des méthodes graduelles peuvent être utilisées pour trouver un plongement qui minimise la fonction de coût de la divergence KL entre les deux espaces.

  • 00: 30: 00 Dans cette section, l'orateur explique comment l'intégration de voisins stochastiques distribués (d-SNE) préserve la structure de similarité locale des données en recherchant à travers le gradient et en optimisant les coordonnées d'un espace de dimension inférieure. L'approche est une intégration non linéaire qui préserve les distances locales au lieu des distances globales et pénalise lorsque les points sont écartés mais que les points proches sont plus proches les uns des autres. Cette méthode est couramment utilisée pour les visualisations entourant des ensembles de données unicellulaires, et le nombre de voisins pris en compte et la taille des grappes d'origine peuvent affecter la qualité de l'intégration.

  • 00: 35: 00 cette section, l'orateur discute du concept d'une projection dimensionnelle inférieure des données en mettant l'accent sur l'apprentissage de groupes spécifiques de types de cellules pour l'analyse de données sur une seule cellule. Ils parlent d'une méthode qui permet la projection conjointe de plusieurs types de données omiques dans un ensemble de données de dimension inférieure dans lequel elles peuvent être appariées les unes aux autres. Le conférencier présente plusieurs approches qu'il a développées, dont l'approche LIGER, qui utilise la factorisation matricielle intégrative non négative, et une méthode de mise à l'échelle de l'algorithme INMF à l'aide de l'apprentissage en ligne. L'exposé se termine en discutant des projets en cours pour l'intégration d'ensembles de données avec des caractéristiques qui se chevauchent partiellement et la combinaison d'auto-encodeurs variationnels et de réseaux antagonistes génératifs pour générer des profils d'ARN unicellulaires.

  • 00: 40: 00 Dans cette section, l'orateur discute des différents types de mesures pouvant être effectuées dans des cellules individuelles, notamment l'expression génique, la modification des histones, la liaison du facteur de transcription, l'accessibilité de la chromatine, la méthylation de l'ADN et la conformation de la chromatine. Ils soulignent également l'importance de connaître les coordonnées spatiales et de cartographier les informations moléculaires dans le contexte tissulaire. L'orateur mentionne le défi d'évoluer vers une définition quantitative de l'identité cellulaire, où les informations moléculaires et autres avec une résolution unicellulaire sont utilisées pour redéfinir les types de cellules de manière impartiale. Pour relever ces défis, le conférencier a développé un outil appelé liger, basé sur la factorisation matricielle non négative intégrative pour effectuer une analyse unicellulaire intégrative sur des ensembles de données de différentes mesures. Ils discutent également des avantages de l'approche de "décomposition basée sur les parties" de la factorisation matricielle non négative.

  • 00: 45: 00 Dans cette section, la transcription traite de l'application de la factorisation matricielle non négative (NMF) aux données génomiques, permettant l'interprétation des facteurs NMF en tant que métagènes regroupant des gènes co-exprimés ou co-régulés. Ces facteurs peuvent représenter des voies biologiques ou des gènes spécifiques à un type de cellule, ainsi que capturer des facteurs techniques. En regroupant les gènes en métagènes et en résumant l'expression cellulaire à l'aide de ces métagènes, le NMF permet une définition quantitative de l'identité cellulaire et l'identification des types et états cellulaires sur plusieurs ensembles de données. L'interprétabilité des métagènes permet également l'identification des signaux techniques et leur déconvolution des signaux biologiques dans les ensembles de données.

  • 00: 50: 00 Dans cette section, l'orateur explique comment il a résolu mathématiquement le problème d'optimisation de l'élément f et a dérivé un nouvel algorithme basé sur la descente des coordonnées de bloc, qui présente des avantages significatifs et offre une garantie de convergence. Ils utilisent un algorithme efficace pour résoudre le problème des moindres carrés non négatifs et effectuent des étapes en aval pour augmenter la robustesse globale de l'analyse. L'orateur donne ensuite un exemple de la façon dont ils ont intégré les données d'ARN-seq d'une cellule unique à travers des donneurs humains pour regrouper les cellules par type de cellule plutôt que par donneur, identifiant les principaux types de cellules de la substance et des informations sur la façon dont les cellules sont similaires et différentes à travers donneurs humains.

  • 00: 55: 00 Dans cette section, l'orateur discute de différentes applications de l'intégration de données à cellule unique. Un exemple est l'intégration d'ensembles de données spatiales et unicellulaires, qui peuvent aider à identifier les emplacements spatiaux des types de cellules dans un tissu et fournir des informations sur l'architecture tissulaire. Le conférencier donne un exemple utilisant un ensemble de données provenant du cerveau de souris pour identifier deux sous-types d'astrocytes avec des emplacements spatiaux différents, ce qui donne un aperçu de la façon dont les circuits neuronaux fonctionnent ensemble. Une autre application importante est l'intégration d'ensembles de données multi-omiques à partir de cellules uniques, ce qui est difficile car les ensembles de données ne partagent ni instances ni caractéristiques. Le conférencier explique une stratégie pour lier ces ensembles de données en transformant les données de l'épigénome en caractéristiques au niveau des gènes et en les corrélant avec l'expression des gènes.

  • 01:00:00 Dans cette section, le conférencier explique comment la factorisation matricielle non négative intégrative (iNMF) peut être utilisée pour relier les profils transcriptomiques et épigénomiques afin de mieux comprendre l'identité cellulaire dans différents contextes. En utilisant les données du cortex de souris et de la moelle osseuse humaine, le conférencier démontre comment la liaison des données d'expression génique et de méthylation peut fournir une compréhension plus claire des types de cellules et même identifier les types de cellules avec des étiquettes ambiguës. De plus, l'orateur explique comment un algorithme d'apprentissage en ligne peut être utilisé pour résoudre le problème iNMF dans des ensembles de données de plus en plus grands en mettant à jour progressivement les calculs à mesure que de nouvelles données arrivent en continu.

  • 01:05:00 Dans cette section, le conférencier discute des avantages de l'utilisation d'une approche par mini-lot dans l'apprentissage en profondeur, en particulier pour les grands ensembles de données. Cette approche permet une mise à jour itérative des pondérations et évite d'avoir à stocker l'intégralité de l'ensemble de données en mémoire, ce qui accélère la convergence. Le conférencier décrit trois scénarios où le mini lot est particulièrement utile, avec l'avantage clé de pouvoir incorporer de nouveaux ensembles de données à mesure qu'ils arrivent sans avoir à réanalyser les ensembles de données précédents. Le conférencier discute également de l'informatique derrière cette approche, tirant parti de la théorie existante d'un article sur l'apprentissage de dictionnaires en ligne pour optimiser une fonction de substitution qui converge asymptotiquement vers la même solution en termes de paramètres. En fin de compte, cette approche fonctionne bien dans la pratique et converge beaucoup plus rapidement en raison de la redondance de chaque cellule supplémentaire dans un ensemble de données plus important.

  • 01:10:00 Dans cette section, le conférencier discute des avantages de l'utilisation d'algorithmes en ligne dans les méthodes de réduction de dimensionnalité pour l'analyse de grands ensembles de données. L'orateur présente une référence de leur approche par rapport à d'autres méthodes largement utilisées, montrant qu'elle utilise beaucoup moins de mémoire et qu'elle est plus efficace en termes de temps. Ils démontrent la capacité de raffinement itératif de la méthode à l'aide de données générées par le Brain Initiative Cell Census Network, où ils intègrent de nouveaux ensembles de données dans la factorisation à l'aide de l'algorithme en ligne. Ils montrent également comment l'algorithme inmf peut être étendu à un cas où les caractéristiques se chevauchent partiellement, permettant d'exploiter à la fois les caractéristiques partagées et non partagées dans les ensembles de données, ce qui est une approche plus satisfaisante que les méthodes précédemment utilisées qui forcent les caractéristiques à s'aligner.

  • 01:15:00 Dans cette section, le conférencier explique comment un algorithme peut être utilisé pour tirer parti de toutes les fonctionnalités présentes dans un ensemble de données, même si certaines fonctionnalités ne sont présentes que dans l'une des sources de données. L'algorithme peut être utilisé pour intégrer différents types de données, telles que les données RNA-seq et ATAC-seq, pour donner une image plus complète de l'expression génique, ce qui peut améliorer la capacité à résoudre les clusters ou les profils cellulaires. Le conférencier présente également une nouvelle approche, appelée Michigan, qui combine les forces des auto-encodeurs variationnels (VAE) et des réseaux antagonistes génératifs (GAN) pour générer des profils cellulaires réalistes à partir de données d'expression unicellulaires. L'algorithme utilise les performances de démêlage du VAE et les performances de génération du GAN pour créer une approche puissante pour manipuler et prédire les changements d'identité cellulaire.

  • 01:20:00 Dans cette section, l'orateur exprime sa volonté de servir de mentor pour les étudiants intéressés par le domaine et remercie le public d'avoir assisté à la conférence. Le modérateur effectue un sondage rapide pour vérifier si les auditeurs ont appris quelque chose, et le public répond positivement. Dans l'ensemble, la conférence a été bien accueillie et instructive.
Dimensionality Reduction - Lecture 11 - Deep Learning in Life Sciences (Spring 2021)
Dimensionality Reduction - Lecture 11 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.03.31
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisGuest Lecture: Joshua WelchDeep Learning in the Life Sciences / Computational Systems B...
 

Dissection des circuits de la maladie GWAS - Conférence 12


Dissection des circuits de maladies GWAS - Conférence 12 - Apprentissage en profondeur dans les sciences de la vie (printemps 2021)

Cette vidéo sur la dissection des circuits de la maladie GWAS couvre les fondements de la génétique humaine, les défis informatiques pour l'interprétation et les différents types de variations génétiques examinés dans les études d'association à l'échelle du génome (GWAS). La vidéo explore également des méthodologies telles que la cartographie mendélienne, l'analyse de liaison et l'identification des polymorphismes mononucléotidiques (SNP) associés aux maladies. De plus, le conférencier discute de l'utilisation des statistiques du chi carré, des diagrammes de Manhattan et des diagrammes QQ pour visualiser les régions génomiques significativement associées aux phénotypes de la maladie. La vidéo comprend également une étude de cas sur le gène FTO et comment il a été complètement disséqué pour ses implications mécanistes dans l'obésité. Les défis de la compréhension de l'association génétique avec l'obésité et les étapes pour aborder cette question sont également discutés.

La conférence aborde le défi d'étudier l'impact des variations génomiques sur la santé humaine et l'importance de comprendre comment les mutations affectent différents types de cellules. Le conférencier décrit leur approche d'apprentissage en profondeur pour prédire l'effet de la séquence et des variations génomiques, en particulier en ce qui concerne la prédiction de la liaison des facteurs de transcription et de l'organisation de la chromatine. Ils décrivent également leur évaluation de ces prédictions à l'aide d'ensembles de données génomiques profondément séquencées pour prédire la sensibilité de l'ADN et les QTL de marque d'histone, ainsi que leur utilisation de l'apprentissage en profondeur pour prédire l'effet des mutations sur l'expression des gènes et des maladies humaines telles que l'autisme. Enfin, ils discutent de leur analyse impartiale d'ensembles de gènes précédemment connus et de l'utilisation d'une bibliothèque de modèles de séquences d'apprentissage en profondeur.

  • 00:00:00 Dans cette section de la vidéo, le conférencier discute des fondements de la génétique humaine et des défis informatiques de l'interprétation. Ils expliquent comment les variations génétiques sont identifiées par des études d'association à l'échelle du génome (GWAS) et comment des variantes génétiques individuelles qui contribuent aux maladies sont trouvées. La conférence couvre également la chasse aux gènes génétiques et l'utilisation de la liaison et du GWAS pour reconnaître les emplacements associés aux maladies. Les défis de la cartographie fine, des études de cas et des outils d'apprentissage automatique pour l'interprétation des variantes, y compris les variantes profondes et la mer profonde, sont également abordés. L'histoire de la génétique humaine et des modèles d'héritage est brièvement couverte, en commençant par la Grèce antique et en continuant jusqu'au développement du concept de transmutation et de sélection naturelle par Darwin.

  • 00: 05: 00 Dans cette section, l'orateur discute de la réconciliation entre l'héritage discret de Mendel et la variation continue observée des traits phénotypiques. Le concept d'hérédité particulaire introduit par Mendel a montré qu'il existait des unités discrètes d'hérédité nommées gènes dominants ou récessifs. Cependant, la biométrie de la variation continue observée chez l'homme ne pouvait pas être expliquée par l'hérédité mendélienne. Cela a changé avec les travaux des statisticiens au début des années 1900 qui ont montré que la variation continue pouvait être expliquée par de multiples loci mendéliens. Cela est devenu la base de la cartographie des traits mendéliens qui a finalement conduit à comprendre que les chromosomes et l'ADN portent le matériel génétique. De plus, l'orateur explique comment l'écart par rapport à la règle de l'assortiment indépendant est devenu le cheval de bataille de la génétique humaine et comment les traits qui sont physiquement proches dans le chromosome ont tendance à être co-hérités.

  • 00: 10: 00 Dans cette section, l'orateur discute de l'approche traditionnelle de la cartographie génétique connue sous le nom de cartographie mendélienne, qui utilise la liaison et la fréquence de ségrégation de différents traits pour retracer les régions du génome humain où différents traits sont encodés. Cependant, cette approche n'est efficace que pour les caractères à fort effet. L'orateur évoque ensuite la révolution des années 2000 qui a conduit à la capacité de cartographier les faibles variations d'effets, auparavant insensible à l'analyse par les méthodes de couplage traditionnelles. Ceci a été accompli grâce à des études d'association à l'échelle du génome (GWAS), qui examinent chaque SNP unique à travers le génome et comment ils varient avec différentes maladies. L'orateur poursuit en expliquant les types de variations examinées dans GWAS, y compris les SNP, les indels, les SDR, les variantes structurelles et les variantes de nombre de copies, et comment ces variations peuvent avoir un impact sur la fonctionnalité du génome.

  • 00: 15: 00 Dans cette section, l'orateur présente le cheval de bataille des études d'association à l'échelle du génome (GWAS), à savoir les polymorphismes de nucléotide unique (SNP), qui sont le type de variation génétique le plus courant. Les SNP ont deux allèles et chaque variante a été regroupée et intégrée dans une base de données appelée dbSNP. L'orateur aborde également d'autres types de variations, telles que la sténographie et les répétitions, les insertions et les suppressions, etc. De plus, la différence entre les variantes courantes et rares est expliquée, car les variantes rares permettent l'examen d'une forte variation d'effet. Le défi de trouver des gènes de maladies est mis en évidence, étant donné que les humains ont deux copies de leur génome qui se composent de 23 chromosomes, 20 000 gènes, 3 milliards de lettres d'ADN et des millions de sites polymorphes.

  • 00:20:00 Dans cette section, le conférencier explique la différence entre les variants communs et rares en génétique et leur relation avec les études d'association à l'échelle du génome et l'analyse mendélienne. Les variantes rares ont un effet important et se trouvent principalement dans l'analyse mendélienne, tandis que les variantes courantes ont un faible effet et peuvent être capturées par des études d'association à l'échelle du génome. De plus, l'analyse de liaison peut aider à identifier l'emplacement d'un gène qui cause un trouble en étudiant les marqueurs à travers les chromosomes et en voyant lesquels co-héritent du phénotype dans une population.

  • 00:25:00 Dans cette section, le conférencier présente des études d'association à l'échelle du génome, qui rassemblent des milliers d'individus, environ 50 % de cas et 50 % de témoins, pour étudier des conditions telles que la schizophrénie, l'obésité ou le diabète. Ces études surreprésentent généralement les cas pour gagner en puissance, et la technologie de génotypage est utilisée en raison de son faible coût par rapport au séquençage. L'orateur souligne l'importance du contrôle de la qualité des échantillons et des SNP pour garantir l'exactitude des résultats. En outre, le conférencier explique le concept de certification de la population et la nécessité d'éliminer les liens entre les individus dans l'étude.

  • 00: 30: 00 Dans cette section, l'orateur explique comment utiliser une statistique du chi carré et une distribution de valeurs p pour détecter les signaux réels de la maladie dans une étude d'association à l'échelle du génome (GWAS). À l'aide d'un tableau de contingence qui montre combien de cas et de témoins portent l'allèle de chaque SNP, le locuteur recherche les écarts dans la fréquence des allèles entre les cas et les témoins. La statistique du chi carré mesure l'ampleur de l'écart et la valeur p est utilisée pour rejeter l'hypothèse selon laquelle l'allèle n'a aucun effet sur le phénotype. Le conférencier explique ensuite comment tracer les valeurs de p dans un diagramme de Manhattan pour visualiser les régions génomiques qui sont significativement associées au phénotype de la maladie.

  • 00: 35: 00 Dans cette section, l'orateur discute de l'utilisation du diagramme de Manhattan, qui affiche la valeur p moins log 10 de la probabilité associée au hasard d'un SNP à une maladie, ainsi que du diagramme QQ, qui compare les valeurs p de des millions de SNP qui ont été testés. Celles-ci sont suivies d'une analyse fonctionnelle pour examiner le rôle des SNP d'autres manières. Le niveau de signification à l'échelle du génome est fixé à 5 fois 10 à la puissance moins 8, qui a été établi sur la base d'un calcul au dos de l'enveloppe il y a 20 ans. Cependant, la cartographie fine peut être difficile en raison de la variation génétique limitée dans la population humaine, qui n'a pas eu suffisamment de temps pour que tous les SNP se séparent indépendamment.

  • 00:40:00 Dans cette section, le conférencier explique comment les variantes sont héritées en blocs plutôt qu'isolées, ce qui signifie que si une variante d'un bloc a un certain allèle, alors chaque variante de ce bloc a le même allèle. Après avoir trouvé une association dans une région, l'étape suivante consiste à identifier quel polymorphisme nucléotidique unique (SNP) est responsable de l'association. Une étude sur la maladie de Crohn a trouvé une région qui a été détectée à la fois par une analyse de liaison et des études d'association à l'échelle du génome, tandis qu'une autre région n'a été trouvée que par cette dernière. Le conférencier explique la fréquence et l'ampleur de l'effet de l'allèle à risque de chaque région.

  • 00: 45: 00 Dans cette section, l'orateur discute de la rareté des allèles protecteurs et des difficultés à les découvrir à travers des études cas-témoins et des études de cohorte. Ils expliquent que les allèles plus rares qui diminuent le risque sont moins susceptibles d'être trouvés dans les études qui enrichissent considérablement les cas, et les pedigrees familiaux requis pour de telles études ne sont pas réalisables. L'orateur explique également la différence entre les variantes courantes capturées par GWAS et les allèles rares à effet puissant capturés par l'analyse de liaison. La section se termine par un bref aperçu des haplotypes et des points chauds de recombinaison, y compris leur variation entre les populations et l'importance de prdm9 dans l'orientation des événements de recombinaison. Enfin, l'orateur présente une étude sur le gène FTO, qui a été le plus touché par le GWAS pour l'obésité ou l'indice de masse corporelle et a été complètement disséqué pour ses implications mécanistes.

  • 00: 50: 00 Dans cette section de la conférence, l'orateur discute des défis de la compréhension de l'association génétique avec l'obésité et décrit les étapes pour aborder cette question. La première étape consiste à identifier le type de tissu et de cellule pertinent, ce qui est accompli en examinant les annotations épigénomiques de divers tissus. La deuxième étape consiste à trouver le gène cible en aval, ce qui est compliqué par une liaison et une boucle à longue portée. Le conférencier explique que la mesure de l'expression de différents gènes chez des individus homozygotes à risque et non à risque révèle que le gène FTO lui-même ne montre aucun changement d'expression, mais plutôt les gènes IRX3 et IRX5, situés loin de FTO, sont probablement les gènes cibles.

  • 00: 55: 00 Dans cette section, l'orateur décrit comment il a pu identifier les gènes cibles des locus non codants liés à l'obésité et comprendre le SNP causal à l'aide de l'analyse des motifs régulateurs et de la conservation évolutive. En perturbant le régulateur en amont et le SNP, ils ont pu montrer l'épistasie entre les deux et comment cela affecte la répression et la dérépression. L'orateur explique que la perturbation du motif diminue la répression et que les activateurs deviennent suractivés, entraînant la suractivation de rx3 et rx5 au niveau de l'expression génique, provoquant un passage de la dissipation d'énergie au stockage. En construisant un modèle et avec l'édition du génome, ils ont pu passer d'une région d'association où ils ne savaient rien à la compréhension du processus biologique et des gènes cibles, et intervenir pour changer les circuits.

  • 01:00:00 Dans cette section de la conférence, le conférencier discute du défi d'étudier l'impact des nombreuses variations du génome qui existent chez les individus, et de l'importance de mieux comprendre comment la séquence et les mutations génomiques affectent différents types de cellules et Santé humaine. L'orateur explique qu'ils adoptent une approche d'apprentissage automatique pour utiliser la séquence génomique et de grandes quantités de données génomiques fonctionnelles pour construire des modèles qui peuvent prédire l'effet de la séquence génomique et des variations. Plus précisément, le conférencier discute de leurs travaux sur la prédiction de la liaison de facteurs de transcription individuels et de l'organisation de la chromatine basée sur des séquences génomiques. Ils visent à développer une méthode systématique pour prédire l'impact de 120 000 variations du génome à la fois en utilisant des techniques d'apprentissage en profondeur.

  • 01: 05: 00 Dans cette section, l'orateur discute de sa décision d'utiliser un modèle de réseau convolutif profond pour construire un modèle de séquence de régulation qui satisfait ses trois exigences : la capacité à utiliser de grandes séquences et un contexte de séquence longue, la capacité à modéliser le non linéaire les interactions entre les différentes régions de la séquence et la possibilité de partager les caractéristiques de la séquence apprises dans toutes les différentes tâches. L'orateur explique que le modèle apprend différents niveaux de caractéristiques de séquence aux niveaux inférieurs et apprend des modèles de séquence d'ordre supérieur aux niveaux supérieurs. Ils soulignent également l'importance de préserver les informations spatiales lors de la réalisation de prédictions spécifiques à la position. Le modèle peut être utilisé pour prédire l'effet de n'importe quelle variante génomique en donnant au modèle deux séquences qui ne diffèrent que par une seule variante et en comparant les prédictions pour chaque allèle.

  • 01:10:00 Dans cette section, l'orateur décrit comment il a évalué la précision de ses prédictions pour les variantes qui affectent la sensibilité de l'ADN au niveau de la chromatine. Ils ont analysé des ensembles de données génomiques séquencées en profondeur et recherché des variants hétérozygotes où un allèle était significativement plus représenté que l'autre, indiquant des différences potentielles de sensibilité à l'ADN. Ils ont formé un modèle pour prédire la sensibilité de l'ADN pour les allèles de référence et alternatifs et ont comparé les prédictions avec les résultats expérimentaux. Ils ont constaté que le modèle avait une plus grande précision dans la prédiction des variantes avec des différences plus fortes entre les allèles de référence et alternatifs et des variantes prédites avec plus de confiance. L'évaluation était robuste aux faux positifs, leur permettant de filtrer les vrais positifs. Ils ont également appliqué cette approche aux QTL des marques d'histones et ont découvert qu'ils pouvaient prédire l'allèle lié aux marques d'histones supérieures.

  • 01:15:00 Dans cette section, l'orateur explique comment utiliser l'apprentissage en profondeur pour prédire les effets au niveau moléculaire des variants sur l'expression des gènes. Ils sont confrontés à des défis tels que la nécessité d'envisager des séquences réglementaires plus importantes et la disponibilité de moins d'échantillons d'apprentissage. Ils relèvent ces défis en examinant une vaste région de 40 kilo-octets et en appliquant un modèle pré-formé pour prédire à différentes positions. Ils forment ensuite un modèle lisse de contributions de chaque prédiction de profil d'expression génique à l'expression génique à l'aide d'un modèle linéaire régularisé. Grâce à cette approche, ils peuvent prédire l'effet de différentes mutations et comment elles pourraient provoquer la même maladie par un mécanisme similaire. Alors que le problème de la prédiction de l'expression des gènes est loin d'être résolu, ils ont fait une première tentative pour y remédier.

  • 01:20:00 Dans cette section, le conférencier discute de l'utilisation de l'apprentissage en profondeur pour prédire l'effet des variantes génomiques sur des maladies humaines telles que l'autisme. Ils expliquent que les mutations non codantes ont été difficiles à détecter et à attribuer à la maladie. Cependant, en utilisant des modèles pour prédire l'impact des mutations sur les profils de chromatine et les profils de liaison aux protéines, ils ont pu comparer les mutations des personnes autistes à celles de leurs frères et sœurs non affectés. Les chercheurs ont découvert qu'il y avait un effet plus fort sur les gènes associés à l'autisme chez les personnes autistes par rapport à leurs frères et sœurs non affectés, confirmant ainsi la contribution des mutations non codantes à la maladie.

  • 01:25:00 Dans cette section, l'orateur discute d'une analyse impartiale utilisant des ensembles de gènes déjà connus pour déterminer la contribution des mutations non codantes. Ils utilisent une analyse basée sur le voisinage du réseau pour rechercher des effets plus forts dans les mutations problématiques par rapport aux mutations fraternelles au sein d'un réseau de gènes. Cette analyse montre une convergence des mécanismes indiqués par les mutations codantes et non codantes, avec des gènes regroupés en groupes liés à la synapse et à la régulation de la chromatine qui avaient été précédemment indiqués dans les mutations codantes découvertes chez les personnes autistes. L'orateur mentionne également brièvement une bibliothèque de modèles de séquence d'apprentissage en profondeur qui peut être utilisée pour former et évaluer des modèles de séquence.
Disease Circuitry Dissection GWAS - Lecture 12 - Deep Learning in Life Science (Spring 2021)
Disease Circuitry Dissection GWAS - Lecture 12 - Deep Learning in Life Science (Spring 2021)
  • 2021.04.08
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyPlaylist: https://you...
 

Mécanisme GWAS - Cours 13



Mécanisme GWAS - Conférence 13 - Apprentissage profond en sciences de la vie (printemps 2021)

La conférence sur le mécanisme GWAS dans la série Deep Learning in Life Sciences examine diverses méthodes pour comprendre la fonction des variantes génétiques non codantes impliquées dans les traits complexes. La conférence traite de l'utilisation des annotations épigénomiques et des modèles d'apprentissage en profondeur pour identifier les propriétés globales dans les régions génétiquement associées pour une maladie particulière. Il couvre également les enrichissements à travers différents tissus et activateurs et explique comment ceux-ci peuvent être transformés en a priori empiriques pour prédire le SNP causal dans un locus. La conférence aborde également l'utilisation de phénotypes moléculaires intermédiaires comme l'expression génique et la méthylation pour étudier la causalité dans les études d'association à l'échelle du génome et comment combiner les composants personnels de génotype et d'expression pour expliquer la variable phénotypique d'expression. Enfin, la conférence examine l'utilisation de méthodes d'inférence causale pour déterminer l'effet de la modification d'une variable sur les variables de résultat afin d'identifier les voies causales par rapport aux voies anticausales.

Le conférencier dans cette vidéo discute de diverses techniques pour déduire des effets de causalité dans la recherche en génomique. Ils couvrent le concept de séparation d et l'utilisation de la randomisation naturelle en génétique comme moyen d'établir des relations causales. Le conférencier discute également de la randomisation mendélienne et du modèle de quasi-inférence de Rubin, ainsi que de la méthode de résultat potentiel pour l'inférence causale. Ils abordent les défis de l'imputation et de l'ajustement des biais dans les études observationnelles. L'orateur souligne également l'importance d'utiliser de multiples preuves orthogonales pour développer un algorithme causal robuste. De plus, ils expliquent l'utilisation de la génétique pour perturber les expressions des gènes et apprendre les réseaux, et introduisent la condition d'invariance comme moyen d'identifier les structures causales dans les données. La conférence donne un aperçu complet des diverses techniques et outils utilisés dans la recherche en génomique pour l'inférence causale.

  • 00: 00: 00 Dans cette section, la conférence se concentre sur l'élargissement de la discussion de la session précédente à la compréhension de variables globales telles que les enrichissements épigénomiques, les eQTL et l'étude de la médiation et de la causalité avec le professeur invité Yong Jin Park de l'Université de British Colombie. La conférence prévoit de passer brièvement en revue la cartographie fine et la dissection mécaniste des locus, suivies de différentes méthodes d'analyse d'enrichissement global utilisant l'épigénomique, pour déduire les tissus des régulateurs d'action, les types de cellules et les gènes cibles. En outre, la conférence examinera les modèles mixtes linéaires et les scores de risque polygénique utilisés dans les études d'association à l'échelle du génome pour prédire les phénotypes, et l'héritabilité pour passer aux autres sujets de la conférence de jeudi. L'objectif ultime est de comprendre les moteurs fonctionnels et les bases mécanistes derrière chaque pic dans les tracés de Manhattan simultanément sur des milliers de locus génétiques.

  • 00: 05: 00 Dans cette section de la conférence, l'instructeur discute du défi d'utiliser la génétique pour comprendre les mécanismes de la maladie pour les traits complexes, qui sont principalement régis par des variantes non codantes. Pour relever ce défi, l'instructeur propose d'utiliser des annotations épigénomiques de circuits cellulaires et des modèles d'apprentissage en profondeur pour identifier les propriétés globales dans toutes les régions génétiquement associées pour un trait particulier. En comparant les différences d'enrichissement entre différents traits, tels que la taille et le diabète de type 1, l'instructeur suggère qu'ils peuvent apprendre des propriétés qui traversent toutes les régions et les utiliser pour déduire les propriétés de locus individuels. Cette approche peut fournir une vision impartiale de la maladie et aider à prédire les gènes cibles, les thérapeutiques et la médecine personnalisée.

  • 00: 10: 00 Dans cette section, l'orateur explique le processus d'évaluation du chevauchement entre les variantes génétiques et les activateurs spécifiques aux tissus pour rechercher un enrichissement significatif à l'aide d'un test statistique hypergéométrique ou binomial. Ils ont découvert que les variantes génétiques associées à différents traits montrent un enrichissement spécifique aux tissus à travers les activateurs actifs dans ces tissus. Par exemple, les variants génétiques associés à la taille étaient enrichis en activateurs de cellules souches embryonnaires, tandis que les variants génétiques associés à la pression artérielle étaient enrichis en activateurs agissant dans le ventricule gauche. Ils ont également découvert que la maladie d'Alzheimer n'était pas globalement enrichie en activateurs actifs dans le cerveau, mais plutôt enrichie en activateurs actifs dans les cellules immunitaires du cerveau, en particulier les cellules CD14+. Cela les a amenés à postuler que les variantes génétiques associées à la maladie d'Alzheimer agissent principalement dans les cellules immunitaires du cerveau. Ils peuvent désormais utiliser ces informations dans un cadre bayésien pour déterminer quelles variantes génétiques associées à la maladie sont les plus susceptibles d'être fonctionnelles.

  • 00: 15: 00 Dans cette section de la conférence, l'orateur explique comment transformer les enrichissements observés en priors empiriques pouvant être utilisés dans GWAS. Prenant l'exemple de la maladie de Crohn et d'Alzheimer, le conférencier explique que des variants génétiques associés à une maladie s'enrichissant dans certaines régions peuvent être utilisés comme a priori pour prédire le SNP causal au sein d'un locus donné. Ils expliquent ensuite comment cet a priori peut être combiné avec les preuves des statistiques récapitulatives de GWAS afin de construire une probabilité a posteriori pour chaque variante. L'efficacité de cette méthode, appelée RIVIERA, est démontrée par le fait que les SNP qu'elle priorise sont plus susceptibles d'être conservés au cours de l'évolution et de se retrouver dans les eQTL et les empreintes numériques du génome.

  • 00: 20: 00 Dans cette section de la conférence, l'orateur discute de l'utilisation d'amplificateurs enrichis pour faire des associations très spécifiques entre des variantes génétiques et des traits. En cartographiant ces traits aux activateurs avec lesquels ils se chevauchent, l'orateur discute de la partition des loci génétiques dans des tissus spécifiques pour mieux comprendre les fonctions biologiques associées à ces loci. L'orateur souligne comment cela peut être utilisé pour partitionner des traits complexes en composants plus simples et hiérarchiser les locus en fonction de leur proximité avec des activateurs dans des tissus spécifiques. Le conférencier fournit également plusieurs exemples de locus associés à la maladie coronarienne qui chevauchent différents tissus et gènes cibles. De plus, le conférencier explique comment de nouveaux loci qui n'atteignent pas une signification à l'échelle du génome peuvent également être étudiés et cartographiés sur des tissus spécifiques.

  • 00: 25: 00 Dans cette section, le conférencier explique comment il utilise une approche d'apprentissage automatique pour hiérarchiser les locus sous-seuil, qui sont moins significatifs que la signification à l'échelle du génome, et découvrir de nouveaux loci en apprenant des caractéristiques dans les loci significatifs à l'échelle du génome . Ils ont découvert de nombreux locus associés à la repolarisation cardiaque et ont utilisé leurs caractéristiques comme prédicteurs pour hiérarchiser les variantes sous-seuil avec des sources de preuves supplémentaires issues de tests expérimentaux. Ils ont découvert que les gènes priorisés à l'aide de cette approche étaient fortement enrichis pour les études d'association de génomes apparentés et liés à des gènes cibles qui ont un sens, avec une forte corrélation avec les phénotypes de conduction cardiaque et de contractilité. Ils ont également discuté de la manière dont ils utilisent les locus de traits quantitatifs d'expression pour combler le fossé entre la variation génétique et la maladie en examinant les phénotypes moléculaires intermédiaires.

  • 00: 30: 00 Dans cette section, l'orateur discute de l'utilisation de traits moléculaires intermédiaires, en particulier le niveau d'expression d'un gène ou le niveau de méthylation d'un site spécifique, comme moyen d'étudier la causalité dans les études d'association à l'échelle du génome. L'objectif est de se concentrer sur des tissus spécifiques, des mécanismes génomiques, des changements d'expression génique et des endophénotypes pour identifier les traits qui sont une conséquence de la génétique par rapport à ceux qui sont une conséquence de la maladie. La base des locus de traits quantitatifs de méthylation et des loci de traits quantitatifs d'expression consiste à mesurer des traits quantitatifs tels que la taille et à corréler le nombre d'allèles alternatifs avec le niveau de méthylation ou le niveau d'expression d'un gène à proximité. Cette approche a conduit à la découverte de dizaines de milliers de qtl de méthylation, et l'imputation de ces phénotypes moléculaires intermédiaires peut aider à prédire la méthylation et à la corréler avec la maladie.

  • 00: 35: 00 Dans cette section, la vidéo explique comment la méthylation imputée peut être utilisée pour des cohortes plus importantes afin de découvrir des corrélations entre la méthylation induite par le génotype et des phénotypes comme la maladie d'Alzheimer. La méthylation imputée est la composante génétique de la méthylation, et en l'imputant, les chercheurs peuvent utiliser moins d'individus et rechercher une méthylation axée sur le génotype, en augmentant la puissance et en examinant spécifiquement la composante génétique. La vidéo montre également des exemples de la façon dont, dans certains cas, lors de l'utilisation de plusieurs SNP ensemble, de nombreux SNP qui n'étaient pas significatifs sur le plan génomique sont devenus significatifs, ce qui permet aux chercheurs de combiner leurs effets pour prédire la méthylation.

  • 00: 40: 00 Dans cette section de la conférence sur l'apprentissage en profondeur dans les sciences de la vie, l'orateur discute d'une méthodologie pour identifier les facteurs médiateurs du phénotype de la maladie par la génétique, la méthylation, la transcription et les études de confusion. Ils expliquent le processus d'utilisation de modèles de régression linéaire pour prédire la relation entre ces divers facteurs et l'expression des gènes, en corrigeant des variables telles que les effets de population et les effets de lot, et en identifiant finalement les moteurs génétiques des phénotypes moléculaires intermédiaires comme la méthylation et l'expression. La méthodologie implique un graphique QQ pour évaluer l'étalonnage des statistiques et l'utilisation de covariables telles que l'âge, le sexe et les principaux composants pour les génotypes et l'expression pour interpréter les résultats.

  • 00: 45: 00 Dans cette section de la conférence, l'accent est mis sur la combinaison des composants personnels de génotype et d'expression pour déterminer si un modèle qui inclut une covariance et un génotype supplémentaires est mieux à même d'expliquer la variable phénotypique d'expression que le modèle de base. C'est la base d'une étude de locus de trait quantitatif d'expression (eQTL) qui peut être complétée par une analyse allélique. L'analyse allélique consiste à diviser les lectures d'individus hétérozygotes en celles contenant un allèle avec un A et celles contenant un autre allèle avec un C de la même cellule de la même personne. En associant le génotype A à l'expression spécifique de l'allèle de cet allèle qui semble avoir une expression plus élevée que celle de l'allèle C, on peut examiner l'effet spécifique de l'allèle d'une région particulière testée compte tenu d'un SNP particulier. La conférence couvre également les QTL de réponse et leur rôle dans la détermination des QTL en réponse à une condition environnementale particulière.

  • 00: 50: 00 Dans cette section, le conférencier discute du concept de locus de traits quantitatifs d'expression (eQTL), qui sont des loci génomiques qui régulent les niveaux d'expression des gènes. Le conférencier explique que les eQTL peuvent être présents tout le temps ou ne devenir présents qu'en réponse à un stimulus particulier. La transcription passe ensuite au sujet de l'inférence de causalité, qui, selon le conférencier, est un moyen de déterminer quels locus jouent un rôle causal dans une maladie par rapport à ceux qui sont simplement corrélés aux phénotypes de la maladie. Le conférencier explique que le domaine de l'inférence causale est divisé en deux catégories : l'effet causal et la découverte causale. L'exposé portera principalement sur l'influence de l'effet causal.

  • 00: 55: 00 Dans cette section, l'orateur discute de l'utilisation des méthodes d'inférence causale dans l'étude de l'analyse génétique. L'inférence causale implique des interventions expérimentales pour déterminer l'effet de la modification d'une variable x sur la variable de résultat y. L'objectif est de s'assurer que la probabilité conditionnelle est presque équivalente à la probabilité interventionnelle. Le conférencier explique également les concepts d'accessibilité, de conditionnement, d'ajustement et de séparation. En utilisant un langage graphique causal, les chercheurs peuvent poser des questions causales et identifier les voies causales par rapport aux voies anticausales. La présence d'un chemin de porte dérobée peut affecter l'interprétation de la probabilité conditionnelle et créer l'idée fausse que la corrélation est égale à la causalité.

  • 01:00:00 Dans cette section, le conférencier discute du concept de blocage du chemin détourné entre les variables vectorielles pour identifier l'effet causal dans la recherche en génomique. Ils introduisent l'idée de séparation d et créent des modèles de collision en conditionnant certaines variables. Le conférencier explique que si une variable est assez simple, les chercheurs peuvent faire des interventions et assigner au hasard des variables pour briser la dépendance entre les facteurs de confusion et la variable d'intérêt. Le conférencier souligne que la génétique est une variable importante dans la recherche en génomique car elle n'est pas affectée par les facteurs environnementaux, et la fixer à une certaine valeur s'apparente à un essai contrôlé randomisé naturel.

  • 01:05:00 Dans cette section, le conférencier discute du concept de randomisation mendélienne et comment il peut être utilisé pour comprendre la relation entre les génotypes, les phénotypes intermédiaires et les phénotypes de la maladie. Les génotypes sont magnifiquement randomisés, ce qui facilite l'estimation du véritable effet causal. Bien que cette méthode repose fortement sur des hypothèses, elle a été appliquée avec succès dans les études d'interaction gène-environnement et gène eQTL. De plus, le conférencier explique qu'une autre façon d'estimer le paramètre de régression bêta et les effets de médiation consiste à combiner la régression y sur g et une autre régression x sur g. En fin de compte, la randomisation mendélienne offre une opportunité unique de comprendre des relations complexes entre des variables difficiles à manipuler dans la vie réelle.

  • 01:10:00 Dans cette section, le conférencier discute de deux approches pour inférer des effets de causalité dans la recherche en génomique : la randomisation mendélienne (MR) et le modèle de quasi-inférence de Rubin. L'IRM est un essai contrôlé randomisé qui utilise des génotypes pour perturber de manière aléatoire des variables intermédiaires pour un essai contrôlé randomisé sur l'issue d'une maladie. Cependant, la RM peut être difficile lorsqu'il s'agit de facteurs de confusion inconnus ou s'il existe des chemins alternatifs. Le modèle de quasi-inférence de Rubin est une approche de raisonnement contrefactuel qui mesure les effets causaux lorsque l'affectation est une variable discrète. Cette approche crée un problème d'imputation, car le résultat potentiel pour une unité manque s'il n'a pas été observé.

  • 01:15:00 Dans cette section de la conférence sur l'apprentissage en profondeur dans les sciences de la vie, l'orateur discute de la méthode de résultat potentiel pour l'inférence causale dans les études génétiques. Des hypothèses telles que l'indépendance, la forte ignorance et le chevauchement sont nécessaires pour estimer avec précision les effets de causalité individuels. L'orateur fournit également un exemple de jouet impliquant un médicament contre la maladie d'Alzheimer et explique comment l'ajustement d'une fonction de propension et l'utilisation de scores de propension peuvent aider à ajuster les biais et à produire des comparaisons équitables entre les groupes de traitement et de contrôle. La méthode des résultats potentiels permet aux chercheurs de poser des questions intéressantes sur les effets de différents traitements et interventions.

  • 01:20:00 Dans cette section, l'orateur discute de l'inférence causale à travers le cadre des résultats potentiels et des techniques d'inférence contrefactuelles de pointe. Ils expliquent comment la pondération des groupes traités peut tenir compte de la différence de résultats et comment l'imputation peut être utilisée pour estimer les résultats potentiels. Ils discutent également d'un article récent qui propose d'utiliser une matrice snip pour capturer plusieurs facteurs de confusion et d'utiliser la population PC pour ajuster ces effets de confusion, ainsi qu'une stratégie pour imputer les données manquantes à l'aide d'arbres de régression bayésiens. Grâce à cela, les effets causals individuels peuvent être mesurés pour déterminer l'efficacité des traitements.

  • 01:25:00 Dans cette section, l'orateur discute de l'aspect de découverte causale de l'apprentissage en profondeur dans les sciences de la vie. Ils expliquent que l'apprentissage de la structure du graphe causal à partir de matrices de données de grande dimension est un problème complexe et difficile. Cependant, ils notent que la percée dans ce domaine est venue de l'utilisation de la génétique pour perturber les gènes et mesurer les expressions des gènes pour apprendre les réseaux. Ils expliquent qu'au lieu d'utiliser une probabilité basée sur le score, les chercheurs s'appuient désormais sur la condition d'invariance qui suppose un modèle causal unique qui génère les données, et utilisent cette hypothèse pour identifier la structure causale des données. L'orateur fournit également un exemple de jouet qui illustre cette approche.

  • 01:30:00 Dans cette section de la conférence, l'orateur discute de l'idée de condition d'invariance et de son application pour déterminer si un modèle peut expliquer de manière cohérente des données expérimentales. L'orateur utilise l'exemple des expériences d'inactivation de gène et montre comment l'inclusion d'un mauvais prédicteur peut conduire au rejet des résultats expérimentaux. L'idée de la triangulation causale est également mentionnée comme un moyen d'améliorer la reproductibilité des expériences scientifiques. L'orateur conclut en insistant sur l'importance des preuves orthogonales multiples pour développer un algorithme causal.
GWAS mechanism - Lecture 13 - Deep Learning in Life Sciences (Spring 2021)
GWAS mechanism - Lecture 13 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.04.08
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyPlaylist: https://you...
 

Génétique des systèmes - Conférence 14



Génétique des systèmes - Conférence 14 - Apprentissage profond en sciences de la vie (printemps 2021)

Dans cette conférence sur la génétique des systèmes et l'apprentissage en profondeur, le conférencier aborde plusieurs sujets, notamment l'héritabilité des SNP, l'héritabilité du partitionnement, la régression stratifiée du score LD et l'apprentissage en profondeur dans le phénotypage moléculaire. Ils explorent également l'utilisation des dossiers de santé électroniques, des études d'association génomique et de la génomique pour analyser un ensemble de données de biobanque britannique d'environ 500 000 individus avec des milliers de phénotypes. Le conférencier explique comment les modèles d'apprentissage en profondeur peuvent être utilisés pour la prédiction de la fonction de séquence afin de comprendre les circuits des loci de la maladie et l'utilisation de modèles mixtes linéaires pour les appels GWAS et EQTL. Ils abordent également les biais et les violations des hypothèses du modèle dans l'apprentissage en profondeur et soulignent l'importance des annotations réglementaires spécifiques au type de cellule pour déduire les types de cellules critiques pour la maladie. Enfin, le conférencier discute de la complexité des résultats liés à la sélection négative et à la taille des effets causaux et présente le professeur Manuel Rivas de l'Université de Stanford pour discuter de la décomposition des associations génétiques.

La conférence se penche sur l'application des données génétiques dans divers domaines, y compris la quantification des composants de composition et de contribution des traits, l'identification des variantes génétiques qui contribuent à l'adipogenèse ou à la lipolyse, l'identification des mutations ayant des effets importants sur la fonction des gènes et un risque de maladie plus faible, et le développement de modèles de prédiction des risques utilisant une analyse multivariée. De plus, la conférence discute de l'application des modèles de score de risque polygénique dans divers biomarqueurs et souligne la nécessité de partager les données entre différentes populations pour améliorer la précision prédictive, en particulier dans le cas des populations non européennes. La conférence se termine par l'expression d'une volonté d'encadrer des étudiants intéressés par des projets de recherche liés aux scores polygéniques et aux effets biotropiques de UK Biobank.

  • 00:00:00 Dans cette section, l'orateur introduit le thème de la génétique des systèmes et des dossiers de santé électroniques. Ils passent brièvement en revue les concepts abordés dans les conférences précédentes, y compris les variantes communes et rares, les scores de risque polygénique, le déséquilibre de liaison et les variantes de cartographie fine. Le conférencier discute des défis dans l'interprétation des études d'association à l'échelle du génome en raison de la grande majorité des associations non codantes avec plusieurs SNP. Ils introduisent ensuite l'utilisation d'informations génomiques, d'ARN et de variation, ainsi que des modèles d'apprentissage en profondeur pour la fonction de séquence afin de prédire les gènes conducteurs, les régions et les types de cellules afin de comprendre les circuits sous-jacents des loci de la maladie. L'orateur introduit également l'utilisation de modèles mixtes linéaires pour les appels GWAS et EQTL, qui prédisent les effets fixes et aléatoires sur les phénotypes d'intérêt à l'aide de génotypes et de covariables.

  • 00: 05: 00 Dans cette section, le conférencier explique les bases de la prédiction du phénotype d'une personne en fonction de ses variantes génétiques et de la taille d'effet de chaque allèle alternatif sur tous les SNP du génome et tous les individus de la cohorte. Le bruit est réparti entre les individus avec une valeur centrée sur zéro et une matrice de covariance au carré. De plus, les effets aléatoires sont pris en compte à l'aide d'une matrice de parenté qui mesure le partage génétique entre les individus. Une approche bayésienne est utilisée pour intégrer toutes les inconnues et déterminer la probabilité d'effets phénotypiques induits par la matrice de covariance. Des modèles mixtes linéaires sont construits pour estimer l'héritabilité totale d'un trait particulier, qui est basée sur l'hypothèse infinitésimale et est estimée à l'aide d'un modèle de vraisemblance maximale restreint. Ce modèle à effets aléatoires capture les transformations des données et fonctionne malgré le manque de connaissances sur la variance causale réelle.

  • 00: 10: 00 Dans cette section, l'orateur discute de l'utilisation de l'apprentissage en profondeur pour capturer des variations supplémentaires en prédisant l'effet des phénotypes moléculaires intermédiaires et la relation linéaire entre les SNP et l'expression. L'orateur explique que cela peut être fait en utilisant des distributions a priori qui correspondent au bruit potentiel entourant l'estimation, ce qui permet de déduire le résultat le plus préféré. Ils mentionnent également l'influence des différences de population, où les effets les plus forts sur les matrices génétiques découlent directement des différences de population. Enfin, l'orateur explique le concept d'héritabilité et comment la partition de la parenté génétique en sous-ensembles du génome peut être une approche puissante pour calculer l'héritabilité, suggérant que plus les chromosomes sont longs, plus ils expliquent de variantes pour de nombreux traits complexes.

  • 00: 15: 00 Dans cette section, Alkes Price de la Harvard School of Public Health explique le concept d'héritabilité SNP, qui est un paramètre défini comme la valeur maximale pouvant être atteinte dans l'ensemble de la population concernant la relation entre phénotype et génotype. Il discute de l'idée de partitionner l'héritabilité entre différentes catégories fonctionnelles de SNP, telles que le codage par rapport au non-codage, et comment cela pourrait conduire à des conclusions sur les SNP qui sont enrichis pour l'héritabilité dans des maladies et des tissus spécifiques. Price introduit également le concept de régression stratifiée du score LD comme outil pour étudier les types de cellules et les processus cellulaires critiques pour la maladie dans le corps humain.

  • 00: 20: 00 Dans cette section, l'orateur introduit l'idée d'analyser des statistiques d'association sommaires à partir de grands ensembles de données en génétique statistique. Cette méthode est utile lors de l'analyse de maladies telles que la schizophrénie, la polyarthrite rhumatoïde et la maladie de Crohn où de grandes tailles d'échantillons sont disponibles en utilisant des données statistiques récapitulatives plutôt que des génotypes et des phénotypes au niveau individuel. L'orateur explique la méthode de régression stratifiée du score ld, qui est utilisée pour régresser les statistiques d'association chi carré de la maladie GWAS à travers les SNP avec LD de différentes catégories fonctionnelles. La méthode est basée sur l'idée qu'un chi carré moyen supérieur à un n'implique pas de confusion et repose sur le score LD moyen des SNP.

  • 00: 25: 00 Dans cette section, l'orateur explique le concept de signal de marquage et de signal biologiquement causal en relation avec les SNP (polymorphismes mononucléotidiques) et leurs scores LD (déséquilibre de liaison). Ils discutent de la façon dont la méthode de régression stratifiée du score LD (déséquilibre de liaison) peut aider à détecter la confusion dans ces scores, avec un score chi carré moyen plus élevé indiquant la présence d'une confusion. Ils abordent également la question du LD génomique (déséquilibre de liaison) et de sa variation en fonction de la population et de la fréquence des SNP. L'orateur présente ensuite des données réelles sous la forme d'un ensemble de données sur la schizophrénie pour illustrer davantage cette méthode.

  • 00: 30: 00 Dans cette section de la conférence, une équation de régression est introduite pour estimer l'héritabilité SNP à l'aide des scores LD. L'ordonnée à l'origine de l'équation de régression reflète la confusion tandis que la pente reflète la corrélation entre la statistique du chi carré et le score LD. Cette pente peut être utilisée pour estimer l'héritabilité du SNP, et les pentes respectives de la régression multilinéaire peuvent nous renseigner sur l'héritabilité causale du SNP de différentes catégories fonctionnelles. L'enrichissement quantitatif peut mesurer le pourcentage d'héritabilité des SNP expliqué par une catégorie fonctionnelle spécifique par rapport au pourcentage de SNP qui font partie de cette catégorie. L'interprétation fonctionnelle de la pente dépend du fait que les catégories fonctionnelles se chevauchent ou non.

  • 00: 35: 00 Dans cette section, l'orateur discute de la régression stratifiée du score LD, qui est utilisée pour évaluer l'enrichissement dans diverses annotations fonctionnelles. La méthode est appliquée au codage des SNP, des amplificateurs, des marqueurs d'histone, etc. L'orateur note que la méthode produit des estimations non biaisées si les catégories causales sont incluses dans le modèle, mais devient biaisée si les catégories causales ne sont pas dans le modèle. Cependant, même s'il manque quelques catégories, le modèle peut toujours fournir suffisamment de richesse pour produire des estimations presque sans biais pour les catégories restantes. L'orateur souligne que les méthodes de données au niveau individuel ne sont pas actuellement conçues pour fonctionner sur un grand nombre de catégories fonctionnelles qui se chevauchent ou à valeurs continues.

  • 00: 40: 00 Dans cette section, l'orateur explique qu'il existe des violations potentielles des hypothèses du modèle dans l'apprentissage en profondeur s'il n'est pas prudent, citant un exemple avec le top qtl dans les données d'expression génique qui ne satisfait pas l'hypothèse fondamentale du modèle. L'orateur aborde ensuite les applications de la méthode d'apprentissage en profondeur aux données réelles sur la chromatine et l'expression des gènes. En utilisant des statistiques sommaires accessibles au public sur 17 traits, l'orateur a découvert que les SNP codants sont enrichis pour les maladies et les traits complexes, en particulier pour les maladies auto-immunes et la taille, tandis que les SNP conservés chez 29 mammifères ont également un impact substantiel sur la maladie. De plus, les activateurs du fantôme cinq se sont avérés avoir un enrichissement significatif pour les maladies auto-immunes. La discussion se tourne ensuite vers l'interprétation de ces résultats en relation avec la façon dont certains traits peuvent avoir un couplage plus ou moins élevé avec la capacité de reproduction.

  • 00:45:00 Dans cette section, l'enseignant explique les raisons pour lesquelles certaines catégories fonctionnelles sont enrichies pour l'héritabilité, qui ne sont pas dues à des tailles d'effet causal plus importantes. Les coupures courantes ont une limite supérieure souple sur les tailles d'effet en raison de la sélection négative, il s'agit donc davantage du nombre de coupures dans la catégorie fonctionnelle qui font quelque chose, chacune ayant des tailles d'effet causal moyennes ou petites à moyennes. Le conférencier discute également de l'importance des annotations réglementaires spécifiques au type de cellule pour déduire les types de cellules critiques pour la maladie. Les annotations régulatrices du cerveau sont les plus enrichies pour la schizophrénie, les adaptations régulatrices des os connectés sont les plus enrichies pour la taille et les types de cellules immunitaires sont les plus enrichis pour la polyarthrite rhumatoïde. Une approche polygénique à l'échelle du génome peut donner de meilleures informations biologiques pour les traits hautement polygéniques que les approches traditionnelles qui se concentrent sur les coupures significatives à l'échelle du génome, qui peuvent être très peu nombreuses pour ces traits.

  • 00: 50: 00 Dans cette section de la conférence, l'orateur discute de l'utilisation des données d'expression génique pour étudier des gènes spécifiques liés à certaines maladies, notamment la schizophrénie et la polyarthrite rhumatoïde. Ils mentionnent également le concept d'architectures dépendantes de ld, où la taille des effets causaux dépend du niveau de ld, et comment les coupures avec des niveaux inférieurs de ld ont des tailles d'effets causaux plus grandes dans 56 traits différents. L'orateur mentionne la complexité de ces découvertes, qui sont liées à la sélection négative, mais manque de temps pour discuter des données de séquençage de l'ARN unicellulaire et des types de cellules critiques pour la maladie. Ils présentent ensuite le professeur Manuel Rivas de l'Université de Stanford, qui discute du processus de combinaison des dossiers de santé électroniques, des études d'association génomique et de la génomique pour analyser un ensemble de données de biobanque britannique basé sur la population d'environ 500 000 individus avec des milliers de phénotypes.

  • 00: 55: 00 Dans cette section, l'orateur discute d'une approche appelée décomposition des associations génétiques, qui consiste à démêler les mappages plusieurs à plusieurs en moins de composants pour représenter les études d'association génétique. L'orateur a utilisé une approche de décomposition en valeurs singulières tronquées pour représenter une matrice composée de données de niveau sommaire pour des milliers de traits et de variance génétique, résultant en une composante de rang inférieur d'environ 100 composantes, dont chacune est un produit d'éléments orthogonaux dans trois matrices. . Les deux premiers composants ont été caractérisés par des phénotypes anthropométriques, et l'orateur a projeté comment chaque variante se charge sur les deux composants pour voir comment ils affectent différents phénotypes.

  • 01:00:00 Dans cette section, l'orateur explique comment les composants de composition et de contribution pour un trait donné peuvent être quantifiés, tels que l'indice de masse corporelle (IMC), qui est composé d'un composant de graisse et d'un composant de masse sans graisse . Le risque génétique d'IMC serait également dû à un composant gras, entre autres composants. L'orateur explique qu'il souhaite identifier des variants génétiques susceptibles de contribuer aux effets de l'adipogenèse ou de la lipolyse plutôt que d'avoir simplement un effet sans graisse sur l'indice de masse corporelle en étudiant des variants de troncature de protéines (PTV) spécifiques et en identifiant des tailles d'effet fortes. Grâce à ce processus, le locuteur identifie le gène pde3b qui a une contribution de masse grasse riche en cholestérol à l'IMC, et GPR 151 qui a des conséquences fonctionnelles sur l'idiprogenèse. Les associations génétiques pour 2000 phénotypes sont disponibles en ligne sur biobank engine.com.edu, avec l'idée qu'il devient un portail de recherche permettant à quiconque de rechercher son gène, variant ou phénotype préféré et de parcourir l'ensemble des associations disponibles dans différents domaines populaires. biobanques.

  • 01:05:00 Dans cette section, le conférencier discute de l'identification des mutations qui ont de forts effets sur la fonction des gènes et réduisent le risque de maladie, ce qui peut conduire à de nouvelles hypothèses thérapeutiques et guider la sélection de cibles pour la découverte de médicaments. Ils expliquent le processus d'identification de variants génétiques spécifiques ayant des effets importants sur la fonction et le phénotype des gènes en combinant des données de niveau sommaire provenant de plusieurs biobanques. En estimant des paramètres génétiques tels que l'héritabilité de la polygénicité et la corrélation des effets génétiques, ils visent à visualiser la relation entre la génétique et les traits/maladies pour améliorer l'inférence et guider le développement thérapeutique. Des exemples de mutations à effet fort et leurs effets sur la protection contre des maladies telles que l'asthme et le diabète de type 1 sont également fournis.

  • 01:10:00 Dans cette section, le présentateur discute de l'application des données génétiques dans les modèles de prédiction des risques. Les humains ont un grand nombre de variantes génétiques liées à des centaines de phénotypes, donc une approche pour explorer ces liens consiste à ajuster des millions de modèles univariés. Cependant, cette approche a de faibles propriétés de prédiction en raison de la corrélation entre les variantes génétiques, ce qui rend difficile la distinction de la variante pertinente des autres. Par conséquent, un modèle multivarié est développé en ajustant de grands modèles de régression avec des millions de variables. Le package développé pour adapter ces modèles s'appelle S-LDSC. Le modèle utilise l'algorithme Lasso, qui est un cadre de régression pénalisé qui permet la sélection de variables pour améliorer les performances prédictives.

  • 01:15:00 Dans cette section, le conférencier discute de l'application de modèles de score de risque polygénique pour 35 biomarqueurs, y compris des biomarqueurs cardiovasculaires, rénaux et hépatiques. L'étude a créé un ensemble de données de formation de 70, un ensemble de validation de 10 et une répartition de test de 20 pour évaluer les performances du modèle. La performance des modèles a été mesurée dans différentes populations, et les résultats ont montré les limites associées au transfert de ces modèles prédictifs d'une population qui utilise des variantes causales pour les prédictions vers d'autres populations. L'étude a démontré que la structure de corrélation variait d'une population à l'autre, ce qui avait un impact sur les performances prédictives des modèles. De plus, différents ensembles de variantes génétiques peuvent expliquer l'héritabilité du phénotype, et le transfert de modèles prédictifs d'une population peut ne pas fonctionner aussi bien dans d'autres populations, brisant la relation de structure de corrélation entre les variantes génétiques. Cela nécessite le partage de données entre différentes populations pour améliorer la précision prédictive.

  • 01:20:00 Dans cette section, l'orateur explique que lors de l'étude de variants génétiques dans différentes populations, l'absence de certains variants dans des populations non européennes peut contribuer à l'hétérogénéité des tailles d'effet. Cependant, lorsqu'une variante est présente dans plusieurs populations, les tailles d'effet ont tendance à être plus homogènes. L'exemple de la lipoprotéine a est donné, avec l'explication que les variantes génétiques contribuant à la variance dans la population européenne n'existent pas dans la population africaine, ce qui entraîne de mauvaises performances dans les populations africaines. L'orateur exprime également sa volonté d'encadrer les étudiants intéressés par des projets de recherche liés aux scores polygéniques et aux effets biotropes de UK Biobank.
Systems Genetics - Lecture 14 - Deep Learning in Life Sciences (Spring 2021)
Systems Genetics - Lecture 14 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.04.08
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyPlaylist: https://you...