Vous manquez des opportunités de trading :
- Applications de trading gratuites
- Plus de 8 000 signaux à copier
- Actualités économiques pour explorer les marchés financiers
Inscription
Se connecter
Vous acceptez la politique du site Web et les conditions d'utilisation
Si vous n'avez pas de compte, veuillez vous inscrire
CS480/680 Cours 13 : Machines à vecteurs de support
CS480/680 Cours 13 : Machines à vecteurs de support
Cette conférence est une introduction à la prise en charge des machines vectorielles (SVM) en tant que type de méthode de noyau utilisée pour la classification. Les SVM sont toujours populaires pour les problèmes de données faibles et sont considérées comme rares car elles peuvent fonctionner avec un sous-ensemble de données et ignorer le reste. L'orateur explique le concept de vecteurs de support, qui sont les points de données les plus proches de la limite de décision et l'exemple visuel de SVM trouvant un séparateur linéaire pour séparer les classes tout en maximisant la marge. Les différences entre les SVM et les perceptrons sont discutées, les SVM utilisant un séparateur linéaire à marge maximale unique et étant moins sujets au surajustement. Le problème d'optimisation pour les SVM peut être réécrit à l'aide du lagrangien, résultant en un problème équivalent sans contraintes. La solution obtenue à partir du lagrangien peut être substituée pour obtenir une expression qui implique la fonction noyau, conduisant à une optimisation du problème double. Les avantages de travailler dans l'espace dual avec une fonction noyau qui calcule la similarité entre des paires de points de données sont également expliqués. Les SVM calculent le degré de similitude entre un point de requête et tous les vecteurs de support pour déterminer les plus similaires, et la discussion tourne également autour du nombre de vecteurs de support et de la manière dont il affecte la classification des points.
Cette vidéo traite du concept de machines à vecteurs de support (SVM) dans la catégorisation de texte, où les documents sont représentés comme des vecteurs de nombre de mots. Les SVM sont efficaces pour minimiser la perte dans le pire des cas, ce qui rend le classificateur adapté à tout échantillon possible, même pour différents ensembles de données. Les chercheurs ont utilisé des SVM avec double représentation et mappage du noyau pour mapper les données dans un espace dimensionnel encore plus élevé, sans perdre en précision ni sacrifier l'évolutivité. La conférence couvre également l'utilisation des SVM pour récupérer des documents pertinents à partir d'un ensemble de données et équilibrer la précision et le rappel. La vidéo se termine par une discussion sur la capacité des SVM à fournir des séparateurs linéaires ou non linéaires pour les données et les défis associés à la classification multi-classes et aux données non linéairement séparables.
CS480/680 Cours 14 : Machines à vecteurs de support (suite)
CS480/680 Cours 14 : Machines à vecteurs de support (suite)
Cette section de la conférence est axée sur la gestion des données non linéairement séparables et des classes qui se chevauchent lors de l'utilisation de machines à vecteurs de support (SVM) en introduisant des variables d'écart et en considérant une marge souple. L'orateur explique comment les variables d'écart permettent de classer les points à l'intérieur de la marge sans introduire d'erreur de classement. Un terme de pénalité est ajouté au problème d'optimisation pour réguler l'utilisation des variables d'écart, contrôlées par le poids C, qui ajuste le compromis entre la minimisation des erreurs et la complexité du modèle. L'orateur discute également des différentes approches d'utilisation des SVM pour les problèmes de classification multi-classes, y compris un contre tous, la comparaison par paires et le classement continu, ce dernier étant l'approche de facto pour les SVM avec plusieurs classes. De plus, le concept de marge multi-classes est introduit, ce qui implique un tampon autour du séparateur linéaire, défini par la différence des vecteurs de poids pour chaque paire de classes.
CS480/680 Cours 15 : Réseaux de neurones profonds
CS480/680 Cours 15 : Réseaux de neurones profonds
Cette vidéo couvre les bases de l'apprentissage en profondeur, y compris les concepts de réseaux de neurones profonds, le problème du gradient de fuite et l'évolution des réseaux de neurones profonds dans les tâches de reconnaissance d'images. Le conférencier explique comment les réseaux de neurones profonds peuvent être utilisés pour représenter plus succinctement des fonctions et comment ils calculent des caractéristiques qui deviennent de plus en plus de niveau supérieur à mesure que le réseau devient plus profond. Des solutions au problème du gradient de fuite sont abordées, y compris l'utilisation d'unités linéaires rectifiées (ReLU) et la normalisation par lots. La conférence couvre également les unités max-out et leurs avantages en tant que généralisation des ReLU qui permettent plusieurs parties linéaires.
La conférence sur les réseaux de neurones profonds aborde deux problèmes qui doivent être résolus pour un apprentissage en profondeur efficace : le problème du surajustement dû à l'expressivité du réseau à plusieurs couches et la nécessité d'une puissance de calcul élevée pour former des réseaux complexes. L'enseignant propose des solutions telles que la régularisation et le décrochage pendant l'apprentissage, ainsi que le calcul parallèle pendant le calcul. La conférence détaille également comment le décrochage peut être utilisé pendant les tests en mettant à l'échelle les grandeurs des unités d'entrée et cachées. Enfin, la conférence se termine en présentant certaines applications révolutionnaires des réseaux de neurones profonds dans la reconnaissance de la parole, la reconnaissance d'images et la traduction automatique.
CS480/680 Cours 16 : Réseaux de neurones convolutifs
CS480/680 Cours 16 : Réseaux de neurones convolutifs
Cette vidéo présente les réseaux de neurones convolutifs (CNN) et explique leur importance dans le traitement d'images en tant que type spécifique de réseau de neurones doté de propriétés clés. Le conférencier explique comment la convolution peut être utilisée pour le traitement d'image, comme dans la détection des contours, et comment les CNN peuvent détecter des caractéristiques de la même manière. Le concept de couches convolutionnelles et leurs paramètres sont expliqués, ainsi que le processus de formation des CNN utilisant la rétropropagation et la descente de gradient avec des poids partagés. Le conférencier fournit également des principes de conception pour créer des architectures CNN efficaces, telles que l'utilisation de filtres plus petits et l'activation non linéaire après chaque convolution.
Dans cette conférence sur les réseaux de neurones convolutifs (CNN), l'orateur discute du concept de connexions résiduelles comme solution au problème du gradient de fuite auquel sont confrontés les réseaux de neurones profonds. Ces connexions de saut permettent de raccourcir les chemins réseau et d'ignorer les couches inutiles tout en pouvant les utiliser si nécessaire pour éviter de produire des sorties proches de zéro. L'utilisation de techniques de normalisation par lots est également introduite pour atténuer le problème des gradients de fuite. De plus, l'orateur note que les CNN peuvent être appliqués à des données séquentielles et des tenseurs à plus de deux dimensions, comme dans les séquences vidéo, et que les CNN 3D sont également une possibilité pour certaines applications. Le framework TensorFlow est mis en évidence comme étant conçu pour le calcul avec des tableaux multidimensionnels.
CS480/680 Cours 17 : Modèles de Markov cachés
CS480/680 Cours 17 : Modèles de Markov cachés
La conférence présente les modèles de Markov cachés (HMM), un type de modèle graphique probabiliste utilisé pour exploiter les corrélations dans les données de séquence qui peuvent améliorer la précision. Les hypothèses du modèle impliquent un processus stationnaire et un processus markovien dans lequel un état caché ne dépend que de l'état précédent. Les trois distributions dans HMM sont la distribution d'état initial, la distribution de transition et la distribution d'émission, ce dernier type étant utilisé en fonction du type de données. L'algorithme peut être utilisé pour la surveillance, la prédiction, le filtrage, le lissage et les tâches d'explication les plus probables. HMM a été utilisé pour la reconnaissance vocale et l'apprentissage automatique, par exemple pour prédire la séquence de sorties la plus probable en fonction d'une séquence d'entrées et d'états cachés pour les personnes âgées utilisant des déambulateurs pour la corrélation de stabilité. Une expérience impliquant des capteurs et des caméras modifiés sur un déambulateur a été menée pour reconnaître automatiquement les activités effectuées par les personnes âgées sur la base de la collecte de données sur les activités des personnes âgées dans une maison de retraite. La démonstration en apprentissage supervisé et non supervisé dans le contexte de la reconnaissance d'activités a également été discutée.
La conférence se concentre sur l'utilisation des distributions d'émission gaussiennes dans les modèles de Markov cachés (HMM), qui sont couramment utilisés dans des applications pratiques où les données collectées sont continues. Le professeur explique que cette méthode consiste à calculer des paramètres de moyenne et de variance qui correspondent à la moyenne et à la variance empiriques des données et à les utiliser pour calculer la solution des distributions initiale et de transition. La distribution de transition correspond aux comptages de fréquence relative, et le maximum de vraisemblance est utilisé pour obtenir les solutions. Cette approche est similaire à la solution pour les mélanges de gaussiennes, où une distribution initiale et d'émission sont également utilisées.
CS480/680 Cours 18 : Réseaux de neurones récurrents et récursifs
CS480/680 Cours 18 : Réseaux de neurones récurrents et récursifs
Dans cette conférence, le conférencier présente les réseaux de neurones récurrents et récursifs comme modèles adaptés aux données séquentielles sans longueur fixe. Les réseaux de neurones récurrents peuvent gérer des séquences de n'importe quelle longueur en raison de certains nœuds avec des sorties renvoyées en tant qu'entrées, et la façon dont le H à chaque pas de temps est calculé se fait par l'utilisation de la même fonction f, qui implique un partage de poids. Cependant, ils peuvent souffrir de limitations telles que la non-mémorisation des informations des premières entrées et la dérive des prédictions. Le conférencier explique également l'architecture du réseau neuronal récurrent bidirectionnel (BRNN) et le modèle d'encodeur-décodeur, qui utilise deux RNN - un encodeur et un décodeur, pour les applications où les séquences d'entrée et de sortie ne correspondent pas naturellement. De plus, le conférencier décrit les avantages des unités de mémoire longue à court terme (LSTM), qui peuvent atténuer le problème du gradient de fuite, faciliter les dépendances à longue portée et autoriser ou bloquer de manière sélective le flux d'informations.
Cette conférence sur les réseaux de neurones récurrents et récursifs couvre une gamme de sujets, y compris l'utilisation des unités de mémoire à long court terme (LSTM) et Gated Recurrent Unit (GRU) pour prévenir les problèmes de gradient, ainsi que l'importance des mécanismes d'attention dans la traduction automatique. pour préserver le sens des phrases et l'alignement des mots. Le conférencier explique également comment les réseaux de neurones récurrents peuvent être généralisés aux réseaux de neurones récursifs pour les séquences, les graphiques et les arbres, et comment analyser des phrases et produire des incorporations de phrases à l'aide d'arbres d'analyse.
en train de se faire. L'état caché est calculé à l'aide d'une fonction qui prend l'état caché précédent et l'entrée, et la sortie est obtenue à l'aide d'une autre fonction qui prend l'état caché comme entrée. En fin de compte, l'objectif est d'utiliser ce calcul pour calculer des probabilités ou reconnaître des activités.
CS480/680 Cours 19 : Réseaux d'attention et de transformateurs
CS480/680 Cours 19 : Réseaux d'attention et de transformateurs
Dans cette conférence, le concept d'attention dans les réseaux de neurones est introduit et son rôle dans le développement des réseaux de transformateurs est discuté. L'attention a été initialement étudiée dans la vision par ordinateur, permettant l'identification de régions cruciales similaires à la façon dont les humains se concentrent naturellement sur des zones spécifiques. L'application de l'attention à la traduction automatique a conduit à la création de réseaux de transformateurs, qui utilisent uniquement des mécanismes d'attention et produisent des résultats aussi bons que les réseaux de neurones traditionnels. Les réseaux de transformateurs présentent des avantages par rapport aux réseaux de neurones récurrents, résolvant les problèmes associés aux dépendances à longue portée, aux gradients de disparition et d'explosion et au calcul parallèle. La conférence explore l'attention multi-têtes dans les réseaux de transformateurs, qui garantit que chaque position de sortie s'occupe de l'entrée. L'utilisation de masques, de couches de normalisation et de la couche Donora dans les réseaux de transformateurs est discutée, et le concept d'utilisation de l'attention en tant que bloc de construction est exploré.
Dans cette conférence sur l'attention et les réseaux de transformateurs, l'orateur explique l'importance de la normalisation pour découpler les gradients dans différentes couches, ainsi que l'importance de l'intégration positionnelle pour conserver l'ordre des mots dans les phrases. L'orateur compare les estimations de complexité des réseaux de transformateurs aux réseaux de neurones récurrents et convolutifs, soulignant la capacité du réseau de transformateurs à capturer les dépendances à longue portée et à traiter les mots simultanément. Les avantages des réseaux de transformateurs pour améliorer l'évolutivité et réduire la concurrence sont également abordés, ainsi que l'introduction de réseaux de transformateurs tels que GPT, BERT et XLNet, qui ont montré des performances impressionnantes en termes de précision et de vitesse, soulevant des questions sur l'avenir des réseaux de neurones récurrents.
CS480/680 Cours 20 : Auto-encodeurs
CS480/680 Cours 20 : Auto-encodeurs
Les auto-encodeurs font référence à une famille de réseaux étroitement liés aux encodeurs-décodeurs, la différence étant que les auto-encodeurs prennent une entrée et produisent la même sortie. Ils sont importants pour la compression, le débruitage, l'obtention d'une représentation parcimonieuse et la génération de données. Les auto-encodeurs linéaires réalisent la compression en mappant des vecteurs de grande dimension sur des représentations plus petites, tout en garantissant qu'aucune information n'est perdue, et utilisent des matrices de pondération pour calculer une transformation linéaire de l'entrée à la représentation compressée et inversement. De plus, les auto-encodeurs profonds permettent des mappages sophistiqués, tandis que les auto-encodeurs probabilistes produisent des distributions conditionnelles sur la représentation et l'entrée intermédiaires, qui peuvent être utilisées pour la génération de données. L'utilisation de fonctions non linéaires par les auto-encodeurs tire parti de la variété non linéaire, une projection sur un espace de dimension inférieure qui capture la dimensionnalité intrinsèque des données, conduisant à une compression sans perte de l'entrée.
CS480/680 Cours 21 : Réseaux génératifs (auto-encodeurs variationnels et GAN)
CS480/680 Cours 21 : Réseaux génératifs (auto-encodeurs variationnels et GAN)
Cette conférence se concentre sur les réseaux génératifs, qui permettent la production de données en sortie via des réseaux tels que les auto-encodeurs variationnels (VAE) et les réseaux antagonistes génératifs (GAN). Les VAE utilisent un encodeur pour mapper les données de l'espace d'origine vers un nouvel espace, puis un décodeur pour récupérer l'espace d'origine. L'enseignant explique le concept des VAE et les enjeux du calcul de l'intégrale des distributions nécessaires à la formation. Les GAN se composent de deux réseaux - un générateur et un discriminateur - où le réseau générateur crée de nouveaux points de données, et le réseau discriminateur tente de faire la distinction entre ceux générés et réels. Les défis de la mise en œuvre du GAN sont discutés, y compris la garantie d'un équilibre entre les forces des réseaux et la réalisation de la convergence mondiale. La conférence se termine par des exemples d'images générées et un aperçu de la prochaine conférence.
CS480/680 Cours 22 : Apprentissage d'ensemble (mise en sac et boost)
CS480/680 Cours 22 : Apprentissage d'ensemble (mise en sac et boost)
La conférence traite de l'apprentissage d'ensemble, où plusieurs algorithmes se combinent pour améliorer les résultats d'apprentissage. Les deux principales techniques passées en revue sont le bagging et le boosting, et le conférencier souligne l'importance de combiner les hypothèses pour obtenir une hypothèse plus riche. La conférence décompose le processus de vote à la majorité pondérée et sa probabilité d'erreur, ainsi que la façon dont le renforcement fonctionne pour améliorer la précision de la classification. Le conférencier couvre également les avantages de l'amplification et de l'apprentissage d'ensemble, notant l'applicabilité de l'apprentissage d'ensemble à de nombreux types de problèmes. Enfin, la vidéo suit l'exemple du défi Netflix pour démontrer l'utilisation de l'apprentissage d'ensemble dans les compétitions de science des données.
Dans cette conférence sur l'apprentissage d'ensemble, le conférencier souligne l'intérêt de combiner les hypothèses de différents modèles pour obtenir un gain de précision, une approche qui peut être particulièrement utile lorsqu'on démarre avec des solutions déjà assez bonnes. Il discute de l'importance de prendre une combinaison pondérée de prédictions, notant qu'il faut faire attention car la moyenne de deux hypothèses peut parfois être pire que les hypothèses individuelles seules. Le conférencier explique également qu'une normalisation des poids peut être nécessaire, selon qu'il s'agit d'une tâche de classification ou de régression.