Apprentissage Automatique et Réseaux Neuronaux - page 46

 

David Smith - Copilote pour R



David Smith - Copilote pour R

David Smith discute de l'utilisation de copilot for R, un service fourni par GitHub qui utilise l'IA générative pour suggérer les prochaines étapes de codage en examinant le contexte du code en cours de développement. Il fournit une démonstration de copilote et explique en détail son fonctionnement, discute de ses limites tout en montrant les avantages de l'utilisation de modèles d'IA prédictifs pour générer du code complexe et même des images à partir d'invites de texte. Il couvre également d'autres sujets, tels que la façon dont ces modèles sont formés, comment ils génèrent du texte, des images et du code, et comment ils ne sont pas intelligents mais peuvent être utilisés pour extraire des informations et créer de nouveaux contenus. De plus, il discute des considérations de licence et de l'utilisation de Co-Pilot pour le travail commercial.

Il aborde également les limites de Copilot pour R, notamment son manque d'évaluation active de R et d'informations sur l'environnement R. Il explique comment il modifie le contexte et invite s'il reçoit des suggestions incorrectes et répond aux problèmes de confidentialité liés à l'utilisation de Copilot pour le code propriétaire. Smith fournit également des instructions sur la façon de configurer le code VS pour utiliser Copilot et discute des fonctionnalités à venir, y compris les laboratoires GitHub et une version pour les invites du shell. La conférence aborde l'histoire de R et les innovations apportées par ses utilisateurs. Les réponses de Copilot ne sont pas créatives et sont une fusion de ce sur quoi il est formé en fonction de l'invite donnée, donc une attention particulière est nécessaire pour s'assurer qu'un code utile est généré.

  • 00: 00: 00 Dans cette section, l'orateur souhaite la bienvenue à tout le monde au Meetup virtuel de programmation statistique ouverte de février 2023 à New York et mentionne qu'il passera à un format hybride dès qu'il sera en mesure de trouver des orateurs et des lieux pour les accueillir. L'orateur encourage les participants à publier des offres d'emploi sur le canal NY hack R slack et parle de leurs propres offres d'emploi pour les scientifiques des données à temps partiel et à temps plein, les ingénieurs des données et les rôles de vente. Ils discutent également de la pizza qu'ils mangent et encouragent les participants à partager d'où ils obtiennent de la nourriture. Le conférencier annonce ensuite certaines conférences à venir et offre un code de réduction aux participants, ainsi qu'une chance d'obtenir des billets gratuits à la fin de l'événement.

  • 00: 05: 00 Dans cette section, l'orateur discute des conférences à venir, notamment Data Council, D4con à Tampa, Mir, Arc et ODSC, et note qu'ils essaient de fournir des codes de réduction pour ces événements à leurs abonnés par e-mail. Ils demandent également de l'aide pour trouver un lieu à New York pour héberger leur Meetup et trouver un conférencier pour leur May Meetup. L'orateur encourage les participants à rejoindre leur chaîne NY Hack R Slack pour poser des questions sur R, Python, Julia, SQL et d'autres sujets et note que le site Web NY Hacker a 13 ans de discussions et de ressources disponibles pour l'apprentissage.

  • 00:10:00 Dans cette section, l'orateur se présente et parle de l'utilisation de copilot pour R. Il explique que copilot est un service fourni par GitHub qui utilise l'IA générative pour suggérer les prochaines étapes de codage en examinant le contexte de le code en cours d'élaboration. L'orateur fournit également une démo de copilote et explique en détail son fonctionnement. Il mentionne que le copilote est mieux utilisé dans un environnement d'éditeur et fournit un lien permettant aux utilisateurs de démarrer avec le copilote dans le code Visual Studio.

  • 00:15:00 Dans cette section, David Smith code en direct une analyse de l'ensemble de données des citrouilles à l'aide du copilote de Github. Il lit dans l'ensemble de données et utilise le vers Tidy pour préparer les données. Copilot l'aide à suggérer le package concierge pour nettoyer les noms de colonnes. David utilise ensuite la fonction sample_n pour afficher des lignes aléatoires de l'ensemble de données. Il crée un tableau pour afficher le prix élevé moyen par couleur d'emballage, puis modélise une analyse de variance à l'aide de la fonction aov. Cependant, David note que le copilote peut être non déterministe, car parfois il transmet la solution à Knitter pour générer une table bien formatée, mais parfois ce n'est pas le cas.

  • 00:20:00 Dans cette section, David Smith explique comment copilot fonctionne à l'aide de modèles d'IA génératifs tels que GPT-3 et Codex. Ces modèles génèrent des suggestions de code à partir d'invites, qui sont les lignes de code précédentes dans un script. Copilot utilise un modèle d'IA génératif de la même manière pour suggérer des idiomes de code et des fonctions pour l'analyse statistique dans R. Ces modèles sont construits à l'aide de grandes quantités de données de formation, et GPT-3, par exemple, a plusieurs milliards de paramètres et a été formé sur littéral. zettaoctets de données. Ces modèles sont des outils puissants qui peuvent générer du code complexe et même des images à partir d'invites de texte.

  • 00:25:00 Dans cette section, David Smith explique comment les modèles d'IA générative, tels que les réseaux neuronaux d'OpenAI, peuvent générer des textes, des images et du code. Ces modèles sont entraînés sur différents types de données, telles que la littérature médicale, ce qui leur permet de générer un contenu de type humain. Bien qu'ils puissent extraire des informations et créer de nouveaux contenus, il est important de noter qu'ils ne sont pas intelligents et n'apprennent pas. De plus, ces modèles ne sont pas fiables, car ils peuvent halluciner des faits et fournir des réponses différentes à la même invite. Ces modèles ne font que des prédictions basées sur leurs données d'apprentissage et sont essentiellement des boîtes noires qui ne contiennent pas toutes les informations de leur ensemble d'apprentissage.

  • 00:30:00 Dans cette section, David Smith discute de l'IA générative et de ses limites, soulignant qu'elle ne comprend pas le langage, les mathématiques, les faits, les manières, les émotions ou l'éthique. Cependant, il note qu'une ingénierie rapide peut être utilisée pour atténuer certains de ces inconvénients. Il mentionne également que Microsoft s'est associé à OpenAI pour rendre ses modèles, tels que GPT-3, disponibles au sein du service Azure. Co-pilot, qui utilise le modèle OpenAI Codex et fournit des suggestions de code dans Visual Studio, est un exemple de cette collaboration.

  • 00:35:00 Dans cette section, David Smith montre l'utilisation de l'IA générative en action et comment s'interfacer avec le service OpenAI à l'aide de code. Il montre comment configurer manuellement une interaction avec l'API et définit l'URL et la charge utile à envoyer à l'API. De plus, il partage une fonction qui encapsule le code et la vérification des erreurs. Il montre comment demander une blague et souligne certains problèmes potentiels avec le modèle d'IA car il s'agit d'une boîte noire et non mise à jour en temps réel.

  • 00:40:00 Dans cette section, David Smith montre comment différents modèles d'IA génèrent des réponses aux invites. À l'aide d'exemples avec Copilot pour R et Codex, il montre que les modèles sont figés dans le temps et non déterministes, ce qui signifie qu'une même invite peut produire des résultats différents. Lorsqu'on vous demande d'écrire un limerick, la dernière version de GPT-3 est capable de faire un bon Limerick qui rime, tandis qu'une version plus ancienne en génère un qui ne rime même pas. David explique également comment les invites sont générées à l'aide de jetons, qui sont des probabilités de jetons potentiels que l'IA pourrait générer, et le modèle sélectionne parmi les quelques probabilités les plus élevées.

  • 00:45:00 Dans cette section, David Smith explique comment les jetons sont utilisés par les modèles GPT pour générer du texte de type humain et montre comment générer une séquence de jetons dans R à l'aide du service OpenAI. Il mentionne que les programmes qui utilisent des modèles GPT permettent de gagner du temps, d'avoir une réflexion approfondie et permettent finalement des sessions de codage plus satisfaisantes. Smith note également que même si GitHub Copilot n'est pas gratuit, le service OpenAI l'est, et les deux peuvent être utilisés dans Azure.

  • 00: 50: 00 Dans cette section, David Smith a répondu aux questions des téléspectateurs, notamment si Co-pilot pourrait être utilisé dans d'autres éditeurs en plus des quatre présentés dans la conférence (malheureusement, non); s'il avait essayé d'utiliser la pipe native au lieu de magrittr, ce à quoi il a admis qu'il ne l'avait pas fait, mais a émis l'hypothèse que changer ses habitudes maintenant pourrait avoir un impact sur l'utilité du copilote ; et à quelle fréquence le modèle sous-jacent de Co-pilot a été mis à jour pour refléter les développements plus récents, ce qui, selon lui, n'était pas très souvent dû au temps et à l'argent que cela prend, mais le réglage fin était une possibilité laissée aux utilisateurs individuels où les couches supérieures du modèle peut être recyclé avec un nouveau Corpus de données.

  • 00: 55: 00 Dans cette section, David Smith discute des considérations de licence et de l'utilisation de Co-Pilot pour le travail commercial. Il souligne que le code généré par Co-Pilot appartient à la personne qui l'a généré. Bien que Co-Pilot puisse être utile pour générer des modèles d'IA, les utilisateurs doivent vérifier le code généré et effectuer des tests de sécurité et d'exactitude pour s'assurer qu'il est fiable. David partage également son expérience d'utilisation de Co-Pilot, le trouvant bon pour faire apparaître des idiomes et des fonctions dont il n'était pas au courant, mais il a tendance à revenir vers les données de formation lorsqu'il tente de créer des fonctions complexes ou uniques. De plus, il discute de la possibilité de comparer le verset Tidy et le code de table de données généré par Co-Pilot et demande une demande d'extraction pour toute personne intéressée.

  • 01:00:00 Dans cette section, David Smith explique les limites de Copilot pour R. Il note que Copilot ne fait aucune évaluation R active et qu'il n'obtient aucune information sur l'environnement R. De plus, Copilot génère des jetons en fonction de ce qu'il a fait auparavant, ce qui signifie qu'il peut générer un non-sens absolu. Bien qu'il fasse de son mieux pour générer des jetons, il faut veiller à ce que le code généré soit réellement utile. De plus, David explique que les réponses de Copilot ne sont pas créatives et qu'il s'agit vraiment d'un amalgame de ce sur quoi il a été formé en fonction de l'invite donnée.

  • 01:05:00 Dans cette section, David Smith explique comment il modifie le contexte et l'invite s'il obtient quelque chose qui ne ressemble pas à ce qu'il écrit à l'aide de Copilot pour R. Il donne également un aperçu des implications en matière de confidentialité de l'utilisation de Copilot pour des applications propriétaires. code. Bien que des extraits de code soient envoyés au serveur Copilot pour générer des invites, ils sont supprimés juste après la session. David souligne que Microsoft est sensible à ces préoccupations et a conçu Copilot dans cette optique. En outre, David fournit un lien vers la FAQ GitHub qui répond à de nombreuses questions concernant les licences et l'achèvement du code de Copilot.

  • 01:10:00 Dans cette section, David Smith explique comment l'intégralité du code de sa démo a été réalisée à l'aide de Copilot au lieu de l'intelliSense traditionnel. Il fournit également sa configuration de code VS pour l'utilisation de Copilot et R, y compris des instructions sur la façon de désactiver intelliSense et d'autres fonctionnalités inutiles. Lorsqu'on lui a demandé comment Copilot gère des tâches de codage complexes comme le débogage ou l'optimisation, il admet ne pas avoir d'expérience dans ce domaine, mais mentionne l'utilité de Copilot pour générer des tests pour les processus de débogage. Il note également que la prochaine génération de modèles en cours de développement pour Copilot et GPT-3 est formée sans contenu généré par l'IA pour éviter les boucles de rétroaction problématiques.

  • 01:15:00 Dans cette section, l'orateur mentionne certaines nouvelles fonctionnalités à venir sur Copilot, notamment les laboratoires GitHub qui permettent aux utilisateurs de mettre en évidence le code et de recevoir une description en anglais de ce que fait le code. De plus, il y aura une version de Copilot pour les invites du shell, qui suggérera du code lors de la saisie de commandes. La discussion aborde également brièvement les packages de tables de données et l'histoire du langage R, dérivé du langage de programmation S inventé aux Bell Labs par John Chambers en 1974. Dans l'ensemble, la conférence s'est concentrée sur la longue histoire de R et les différentes contributions et les innovations apportées par les utilisateurs comme l'enceinte.
David Smith - Copilot for R
David Smith - Copilot for R
  • 2023.03.05
  • www.youtube.com
Talk delivered February 28, 2023. Visit https://www.nyhackr.org to learn more and follow https://twitter.com/nyhackrAbout the Talk:Did you know that Copilot,...
 

CS480/680 Introduction à l'apprentissage automatique - Printemps 2019 - Université de Waterloo


CS480/680 Cours 1 : Introduction au cours

Cette conférence introduit le concept d'apprentissage automatique, qui est un nouveau paradigme en informatique où les ordinateurs peuvent apprendre à effectuer des tâches complexes sans avoir à écrire des instructions. Cette vidéo fournit un bref historique de l'apprentissage automatique et présente les trois composants clés d'un algorithme d'apprentissage automatique : les données, les tâches et les performances.

  • 00:00:00 Cette conférence présente le concept d'apprentissage automatique, qui est un nouveau paradigme en informatique où l'on peut apprendre aux ordinateurs à effectuer des tâches complexes sans avoir à écrire d'instructions.

  • 00:05:00 Cette vidéo fournit un bref historique de l'apprentissage automatique et présente les trois composants clés d'un algorithme d'apprentissage automatique : les données, les tâches et les performances.

  • 00:10:00 Cette conférence aborde les trois principaux types d'algorithmes d'apprentissage automatique : l'apprentissage supervisé, l'apprentissage non supervisé et l'apprentissage par renforcement. L'apprentissage supervisé se produit lorsque l'ordinateur reçoit un ensemble de données qui comprend à la fois l'entrée et la sortie, tandis que l'apprentissage non supervisé se produit lorsque l'ordinateur reçoit des données mais ne reçoit aucune réponse au préalable. L'apprentissage par renforcement est un terrain d'entente, où l'ordinateur reçoit une rétroaction indiquant comment
    eh bien, il le fait, mais n'a pas de réponse définie pour ce qu'est la bonne réponse.

  • 00:15:00 La vidéo aborde le problème de la reconnaissance des chiffres manuscrits dans le cadre d'un code postal et présente une solution basée sur la mémorisation. L'approche suggérée consiste à comparer un bitmap de requête à ceux déjà en mémoire et à trouver une correspondance. Ce serait une instance de mémorisation, mais serait susceptible d'erreurs en raison du nombre de bitmaps possibles.

  • 00:20:00 L'apprentissage supervisé est une technique utilisée pour trouver une fonction qui se rapproche d'une fonction connue. Cela se fait en formant un modèle d'apprentissage automatique sur un ensemble d'exemples, puis en essayant de trouver une fonction qui correspond le plus possible aux données.

  • 00:25:00 Cette vidéo présente les différentes courbes pouvant être utilisées pour représenter les données et explique le "théorème de l'absence de repas gratuits". Il montre qu'il n'existe pas de courbe parfaite pouvant être utilisée pour représenter les données et que différentes courbes peuvent être justifiées en fonction des hypothèses d'une personne.

  • 00:30:00 L'apprentissage automatique est difficile mais puissant car il nous permet d'apprendre à partir de données sans avoir à spécifier explicitement les règles régissant ces données. Dans l'apprentissage supervisé, nous utilisons les données d'un ensemble connu d'exemples pour former un modèle qui peut ensuite être utilisé pour faire des prédictions pour de nouvelles données. Dans l'apprentissage non supervisé, nous utilisons des données sans spécifier de règle qui les régit. La généralisation est un critère clé pour juger de l'efficacité d'un algorithme et se mesure par ses performances par rapport à des exemples inédits.

  • 00:35:00 Dans cette vidéo, l'auteur présente le concept d'apprentissage automatique, qui consiste à entraîner un ordinateur à reconnaître des modèles dans les données. L'apprentissage non supervisé est une forme plus difficile d'apprentissage automatique, dans laquelle l'ordinateur ne reçoit pas d'étiquettes (la bonne classe pour chaque image). Les encodeurs automatiques sont un exemple de technique d'apprentissage automatique qui peut être utilisée pour compresser des données.

  • 00:40:00 Cette conférence introduit le concept d'apprentissage automatique non supervisé, qui fait référence à un type d'apprentissage automatique où les données d'entraînement ne sont pas étiquetées. Il montre comment un réseau de neurones peut être conçu pour détecter automatiquement les caractéristiques des images et explique comment cela peut être utilisé pour la reconnaissance faciale et d'autres tâches.

  • 00:45:00 Cette conférence couvre les bases de l'apprentissage automatique, y compris une discussion sur l'apprentissage supervisé et non supervisé, l'apprentissage par renforcement et les différences entre ces trois formes d'apprentissage. Il couvre également la théorie derrière l'apprentissage par renforcement et comment il peut être mis en œuvre dans les ordinateurs.

  • 00: 50: 00 La vidéo présente le concept d'apprentissage par renforcement, qui est une méthode d'apprentissage qui repose sur des commentaires positifs et négatifs pour modifier le comportement. Le programme AlphaGo de DeepMind a pu vaincre un joueur humain de haut niveau en utilisant cette méthode, en apprenant à jouer à un niveau que les humains ne pouvaient pas.

  • 00:55:00 Cette conférence explique comment l'apprentissage par renforcement est utilisé pour obtenir de meilleurs résultats qu'un humain ne pourrait le faire dans certains cas, comme aux échecs. AlphaGo y est parvenu grâce à une combinaison d'apprentissage supervisé et de renforcement. Alors que la partie d'apprentissage supervisé était nécessaire pour fournir une base de référence, l'apprentissage par renforcement était nécessaire pour trouver la meilleure solution.

  • 01:00:00 Cette conférence fournit une brève introduction à l'apprentissage automatique supervisé et non supervisé, en mettant l'accent sur le jeu Alphago. Il explique que la décision a été considérée comme une bonne décision par beaucoup au moment où elle a été prise, et souligne que l'apprentissage par renforcement pourrait nous aider à apprendre à prendre de meilleures décisions à l'avenir.
 

CS480/680 Introduction à l'apprentissage automatique - Printemps 2019 - Université de Waterloo


CS480/680 Cours 1 : Introduction au cours

Cette conférence introduit le concept d'apprentissage automatique, qui est un nouveau paradigme en informatique où les ordinateurs peuvent apprendre à effectuer des tâches complexes sans avoir à écrire des instructions. Cette vidéo fournit un bref historique de l'apprentissage automatique et présente les trois composants clés d'un algorithme d'apprentissage automatique : les données, les tâches et les performances.

  • 00:00:00 Cette conférence présente le concept d'apprentissage automatique, qui est un nouveau paradigme en informatique où l'on peut apprendre aux ordinateurs à effectuer des tâches complexes sans avoir à écrire d'instructions.

  • 00:05:00 Cette vidéo fournit un bref historique de l'apprentissage automatique et présente les trois composants clés d'un algorithme d'apprentissage automatique : les données, les tâches et les performances.

  • 00:10:00 Cette conférence aborde les trois principaux types d'algorithmes d'apprentissage automatique : l'apprentissage supervisé, l'apprentissage non supervisé et l'apprentissage par renforcement. L'apprentissage supervisé se produit lorsque l'ordinateur reçoit un ensemble de données qui comprend à la fois l'entrée et la sortie, tandis que l'apprentissage non supervisé se produit lorsque l'ordinateur reçoit des données mais ne reçoit aucune réponse au préalable. L'apprentissage par renforcement est un terrain d'entente, où l'ordinateur reçoit une rétroaction indiquant comment
    eh bien, il le fait, mais n'a pas de réponse définie pour ce qu'est la bonne réponse.

  • 00:15:00 La vidéo aborde le problème de la reconnaissance des chiffres manuscrits dans le cadre d'un code postal et présente une solution basée sur la mémorisation. L'approche suggérée consiste à comparer un bitmap de requête à ceux déjà en mémoire et à trouver une correspondance. Ce serait une instance de mémorisation, mais serait susceptible d'erreurs en raison du nombre de bitmaps possibles.

  • 00:20:00 L'apprentissage supervisé est une technique utilisée pour trouver une fonction qui se rapproche d'une fonction connue. Cela se fait en formant un modèle d'apprentissage automatique sur un ensemble d'exemples, puis en essayant de trouver une fonction qui correspond le plus possible aux données.

  • 00:25:00 Cette vidéo présente les différentes courbes pouvant être utilisées pour représenter les données et explique le "théorème de l'absence de repas gratuits". Il montre qu'il n'existe pas de courbe parfaite pouvant être utilisée pour représenter les données et que différentes courbes peuvent être justifiées en fonction des hypothèses d'une personne.

  • 00:30:00 L'apprentissage automatique est difficile mais puissant car il nous permet d'apprendre à partir de données sans avoir à spécifier explicitement les règles régissant ces données. Dans l'apprentissage supervisé, nous utilisons les données d'un ensemble connu d'exemples pour former un modèle qui peut ensuite être utilisé pour faire des prédictions pour de nouvelles données. Dans l'apprentissage non supervisé, nous utilisons des données sans spécifier de règle qui les régit. La généralisation est un critère clé pour juger de l'efficacité d'un algorithme et se mesure par ses performances par rapport à des exemples inédits.

  • 00:35:00 Dans cette vidéo, l'auteur présente le concept d'apprentissage automatique, qui consiste à entraîner un ordinateur à reconnaître des modèles dans les données. L'apprentissage non supervisé est une forme plus difficile d'apprentissage automatique, dans laquelle l'ordinateur ne reçoit pas d'étiquettes (la bonne classe pour chaque image). Les encodeurs automatiques sont un exemple de technique d'apprentissage automatique qui peut être utilisée pour compresser des données.

  • 00:40:00 Cette conférence introduit le concept d'apprentissage automatique non supervisé, qui fait référence à un type d'apprentissage automatique où les données d'entraînement ne sont pas étiquetées. Il montre comment un réseau de neurones peut être conçu pour détecter automatiquement les caractéristiques des images et explique comment cela peut être utilisé pour la reconnaissance faciale et d'autres tâches.

  • 00:45:00 Cette conférence couvre les bases de l'apprentissage automatique, y compris une discussion sur l'apprentissage supervisé et non supervisé, l'apprentissage par renforcement et les différences entre ces trois formes d'apprentissage. Il couvre également la théorie derrière l'apprentissage par renforcement et comment il peut être mis en œuvre dans les ordinateurs.

  • 00: 50: 00 La vidéo présente le concept d'apprentissage par renforcement, qui est une méthode d'apprentissage qui repose sur des commentaires positifs et négatifs pour modifier le comportement. Le programme AlphaGo de DeepMind a pu vaincre un joueur humain de haut niveau en utilisant cette méthode, en apprenant à jouer à un niveau que les humains ne pouvaient pas.

  • 00:55:00 Cette conférence explique comment l'apprentissage par renforcement est utilisé pour obtenir de meilleurs résultats qu'un humain ne pourrait le faire dans certains cas, comme aux échecs. AlphaGo y est parvenu grâce à une combinaison d'apprentissage supervisé et de renforcement. Alors que la partie d'apprentissage supervisé était nécessaire pour fournir une base de référence, l'apprentissage par renforcement était nécessaire pour trouver la meilleure solution.

  • 01:00:00 Cette conférence fournit une brève introduction à l'apprentissage automatique supervisé et non supervisé, en mettant l'accent sur le jeu Alphago. Il explique que la décision a été considérée comme une bonne décision par beaucoup au moment où elle a été prise, et souligne que l'apprentissage par renforcement pourrait nous aider à apprendre à prendre de meilleures décisions à l'avenir.
 

CS480/680 Cours 2 : K-plus proches voisins


CS480/680 Cours 2 : K-plus proches voisins

Cette vidéo couvre les bases de l'apprentissage supervisé, y compris les différences entre la classification et la régression. Il fournit également une brève introduction à l'apprentissage automatique et explique le fonctionnement de l'algorithme du plus proche voisin. Enfin, il explique comment évaluer un algorithme à l'aide de la validation croisée et comment le sous-ajustement peut affecter l'apprentissage automatique. Cette conférence explique comment utiliser l'algorithme des k plus proches voisins pour la régression et la classification, ainsi que comment pondérer les voisins en fonction de leur distance. La validation croisée est utilisée pour optimiser l'hyperparamètre, et l'ensemble de données complet est utilisé pour former le modèle.

  • 00:00:00 Cette conférence couvre les bases de l'apprentissage supervisé, y compris l'induction et la déduction, et la principale différence entre la classification et la régression.

  • 00:05:00 Dans cette conférence, l'auteur discute des différences entre la classification et la régression, et donne des exemples des deux. Il fournit également une brève introduction à l'apprentissage automatique, soulignant l'importance de la distinction entre ces deux types d'apprentissage.

  • 00:10:00 Les deux premiers exemples sont des problèmes de classification et les deux suivants sont des problèmes de régression.

  • 00: 15: 00 La conférence traite de différents types de reconnaissance vocale, puis de la reconnaissance des chiffres. Il est à noter qu'il s'agit généralement d'un problème de classification, car il n'y a pas de bonne façon d'ordonner les valeurs discrètes qui représentent des mots numériques.

  • 00:20:00 Dans cette conférence, les quatre exemples de problèmes qui peuvent être résolus en utilisant les K plus proches voisins sont discutés. Le premier exemple est un problème de classification, où l'entrée est une image bitmap et la sortie est une classification numérique. Le deuxième exemple est un problème de régression, où l'entrée est un ensemble de caractéristiques liées à une maison et la sortie est une valeur en dollars. Le troisième exemple est une météo
    problème de prédiction, où l'entrée est constituée de données de capteurs et d'images satellites et la sortie est une prédiction indiquant s'il va pleuvoir ou non. Le quatrième exemple est un problème où l'entrée est une question sur les habitudes de sommeil d'une personne et la sortie est une prédiction indiquant si oui ou non la personne aura un bon sommeil.

  • 00:25:00 Dans cette conférence, le professeur explique comment fonctionne l'apprentissage automatique et en quoi il diffère de l'optimisation pure. Il poursuit en expliquant comment l'apprentissage automatique peut être utilisé pour résoudre des problèmes tels que la classification et la régression.

  • 00:30:00 Cette vidéo traite de l'objectif de la conférence, qui est de trouver une hypothèse qui se généralise bien. L'exemple donné est d'essayer de trouver une fonction qui ne fait pas partie d'un espace de polynômes de degrés finis.

  • 00: 35: 00 L'orateur discute des difficultés d'essayer de trouver une fonction qui prédit avec précision les données lorsque les données sont bruyantes. Cette difficulté est aggravée par le fait que la plupart des données sont complexes et sans expression. Il suggère qu'en pratique, il est souvent nécessaire de faire des compromis entre l'expressivité et la complexité d'un espace d'hypothèses.

  • 00:40:00 Le classificateur voisin le plus proche divise un espace de données en régions selon une mesure de distance et renvoie l'étiquette du point le plus proche dans chaque région. Cela nous permet de comprendre plus clairement ce qui se passe avec le classificateur voisin le plus proche. Il est cependant instable et peut être trompé par le bruit dans les données.

  • 00: 45: 00 Dans cette conférence, le conférencier discute de l'algorithme du plus proche voisin K, qui est une simple généralisation de l'algorithme du plus proche voisin. Il montre ensuite comment l'algorithme partitionne un ensemble de données en régions en fonction de la classe la plus fréquente. Enfin, il montre comment l'augmentation du nombre de plus proches voisins affecte le partitionnement.

  • 00: 50: 00 Cette vidéo explique comment évaluer un algorithme en apprentissage automatique, à l'aide d'une procédure standard appelée "validation croisée". La procédure divise un ensemble de données en deux parties, apprentissage et test, et s'entraîne sur l'ensemble d'apprentissage et teste sur l'ensemble de test. La précision de l'algorithme est mesurée sur l'ensemble de test, et si la précision diminue à mesure que le nombre de voisins augmente, l'algorithme est dit "biaisé".

  • 00:55:00 Cette vidéo traite du phénomène de sous-ajustement et de ses effets sur l'apprentissage automatique. Il explique que le sous-ajustement se produit lorsqu'un algorithme trouve une hypothèse inférieure à la précision future d'une autre hypothèse. Cela peut être dû au fait que le classificateur n'est pas assez expressif, ce qui signifie que l'espace d'hypothèse n'est pas assez expressif.

  • 01:00:00 Dans cette vidéo, l'auteur explique comment le surajustement et le sous-ajustement peuvent être déterminés mathématiquement. Le surajustement se produit lorsqu'un algorithme trouve les valeurs Eh de puissance les plus élevées dans les données, tandis que le sous-ajustement se produit lorsque la différence entre la précision de l'apprentissage et la précision future est inférieure à la valeur maximale possible. Les tests sur l'ensemble d'entraînement peuvent être trompeurs, car ils ne reflètent pas avec précision la quantité de surajustement.

  • 01:05:00 Dans cette conférence, le professeur explique comment choisir une clé pour un algorithme d'apprentissage automatique, notant qu'il est important d'obéir au principe du moindre privilège. Il note également qu'il est possible de violer ce principe en optimisant les hyperparamètres par rapport à l'ensemble de test, auquel on ne peut alors plus faire confiance. Pour se prémunir contre cela, il suggère de diviser les données en trois ensembles et de s'entraîner tour à tour sur chaque ensemble.

  • 01:10:00 Dans cette conférence, le conférencier discute du concept de "k-plus proches voisins" et comment sélectionner le meilleur K pour un problème donné. Il discute également de l'utilisation de la validation croisée pour s'assurer que les données utilisées pour la formation et la validation sont aussi représentatives que possible.

  • 01:15:00 Dans cette vidéo, l'instructeur démontre l'utilisation de la quadruple validation croisée pour valider et former un modèle.

  • 01:20:00 Cette conférence traite des étapes impliquées dans l'optimisation d'un hyperparamètre en utilisant K-plus proche voisin (KNN) avec validation croisée. L'hyperparamètre est évalué à l'aide d'un sous-ensemble de données et une hypothèse est renvoyée si le meilleur KNN atteint la précision souhaitée. Enfin, l'ensemble des données est utilisé pour entraîner l'hyperparamètre.

  • 01:25:00 Dans ce cours, l'instructeur explique comment utiliser les K voisins les plus proches pour la régression et la classification. Il explique également comment pondérer les voisins les plus proches en fonction de leur distance.
 

CS480/680 Cours 3 : Régression linéaire



CS480/680 Cours 3 : Régression linéaire

Le cours sur la régression linéaire commence par une introduction au problème de la recherche de la meilleure droite qui se rapproche le plus possible d'un ensemble de points donné. Le conférencier explique que les fonctions linéaires peuvent être représentées par une combinaison d'entrées pondérées. La régression linéaire peut être résolue par optimisation, dans le but de minimiser la perte euclidienne en faisant varier le vecteur de poids, ce qui peut être fait efficacement à l'aide de problèmes d'optimisation convexe. Le processus de résolution d'une équation de régression linéaire consiste à trouver la variable W, ou les poids, qui donneront le minimum global pour la fonction objectif, ce qui peut être fait en utilisant des techniques telles que l'inversion de matrice ou des méthodes itératives. L'importance de la régularisation dans la prévention du surajustement est également discutée, avec un terme de pénalité ajouté à la fonction objectif pour contraindre l'ampleur des poids et les forcer à être aussi petits que possible. La conférence se termine en discutant de l'importance d'aborder la question du surajustement dans la régression linéaire.

  • 00:00:00 Dans cette section, l'instructeur présente la régression linéaire, qui est une technique d'apprentissage automatique standard pour la régression, et explique le problème de manière intuitive. Le problème est de trouver la meilleure ligne qui se rapproche le plus possible d'un ensemble de points donné. Les données se composent d'entités en entrée, X, et de sortie cible, T. L'objectif est de trouver une hypothèse H qui mappe X à T, en supposant que H est linéaire. Les fonctions linéaires peuvent toujours être représentées en prenant une combinaison pondérée des entrées où les poids sont multipliés par les entrées puis additionnés.

  • 00: 05: 00 Dans cette section, l'orateur discute de l'espace des fonctions linéaires et de l'objectif de trouver les meilleures fonctions linéaires pour minimiser une fonction de perte. La fonction de perte euclidienne est utilisée, où la distance au carré est prise en soustrayant la prédiction de la cible. L'orateur explique que Y est la sortie du prédicteur, qui est une fonction linéaire, et T1 est le prix auquel la maison est vendue, qui est la vérité terrain. Plusieurs caractéristiques, telles que le nombre de salles de bains et de chambres, sont prises en compte dans l'évaluation de la maison, ce qui donne un vecteur de taille 25-30. L'orateur discute également de la notation utilisée dans les diapositives et mentionne que la division par deux n'est pas nécessairement nécessaire en théorie.

  • 00:10:00 Dans cette section du cours, le professeur discute de la notation qu'il utilisera tout au long du cours lorsqu'il se réfère à la régression linéaire. Il introduit les variables H pour l'hypothèse, X pour les points de données, Y pour le vecteur de sorties pour tous les points de données et W pour le vecteur de poids. Il mentionne également l'utilisation de la barre X pour représenter un point de données concaténé avec un scalaire. Le professeur poursuit en expliquant que la régression linéaire peut être résolue par optimisation, dans le but de minimiser la perte euclidienne en faisant varier les W. Il note que ce problème d'optimisation est facile car il est convexe, ce qui signifie qu'il existe un minimum et que l'optimum global peut être trouvé de manière fiable.

  • 00:15:00 Dans cette section du cours sur la régression linéaire, l'orateur explique comment les problèmes d'optimisation convexe peuvent être efficacement résolus en utilisant la descente de gradient, qui consiste à suivre la courbure de la fonction jusqu'à arriver au minimum. Cependant, l'orateur note également que les objectifs non convexes peuvent avoir plusieurs minima, ce qui rend difficile la recherche fiable de l'optimum global. L'objectif de la régression linéaire est convexe, et donc une solution plus efficace est de calculer le gradient, de le mettre à zéro et de résoudre le point unique qui satisfait cette équation, qui est à la fois nécessaire et suffisante pour assurer le minimum.

  • 00:20:00 Dans cette section du cours, le professeur explique le processus de résolution d'une équation de régression linéaire pour trouver la variable W, ou poids, qui donnera le minimum global pour la fonction objectif. Le système d'équations linéaires peut être réécrit sous la forme W est égal à B en isolant W, puis la matrice A, qui représente les données d'entrée, peut être inversée pour résoudre W. Cependant, il existe d'autres techniques telles que l'élimination gaussienne, gradient conjugué et des méthodes itératives qui peuvent être plus rapides et plus efficaces. Le professeur dessine également une image pour démontrer le concept de recherche d'une ligne qui minimisera la distance euclidienne par rapport à la sortie, ou axe Y, en réduisant les distances verticales entre les points de données et la ligne.

  • 00:25:00 Dans cette section, le conférencier explique l'intuition derrière la minimisation de la distance verticale dans la régression linéaire pour obtenir une solution unique. La fonction objectif est convexe et la fonction en forme de boule a un seul minimum. Cependant, la solution obtenue en minimisant l'objectif des moindres carrés n'est pas stable, ce qui peut conduire à un surajustement. Le conférencier illustre cela avec deux exemples, dont l'un perturbe l'entrée par epsilon. La conférence aborde également le problème important de ne pas pouvoir inverser la matrice A en raison de la singularité ou de la proximité de la singularité.

  • 00:30:00 Dans cette section du cours, l'instructeur donne deux exemples numériques de régression linéaire avec la même matrice A, mais des valeurs cibles différentes, B. Le premier exemple a une valeur cible d'exactement 1 pour le premier point de données, tandis que le deuxième exemple a une valeur cible de 1 plus epsilon pour le même point de données. La différence entre les valeurs cibles entraîne une modification significative de la sortie, bien qu'epsilon soit une très petite valeur. L'instructeur illustre le problème avec une représentation graphique, soulignant l'importance des changements dans les valeurs d'entrée et pourquoi cela pose un défi dans la régression linéaire.

  • 00:35:00 Dans cette section, le conférencier explique la régression linéaire à l'aide de deux points de données. X a deux entrées, mais la deuxième dimension est celle qui varie et la première entrée est ignorée. Le conférencier dessine deux points de données, l'un avec X comme 0 et la cible comme 1 + Epsilon, et l'autre avec X comme Epsilon et la cible comme 1. Une ligne tracée à travers ces points change sa pente de 0 à -1 lorsque la cible du premier point de données est augmenté de 1 à 1 + Epsilon, montrant un surajustement dû à des données insuffisantes et au bruit. La solution est instable, même s'il y a plus de données ou des dimensions plus élevées.

  • 00:40:00 Dans cette section, le concept de régularisation en régression linéaire est introduit. La régularisation ajoute un terme de pénalité qui limite l'ampleur des poids, les forçant à être aussi petits que possible. Ce terme de pénalité s'ajoute à l'objectif initial de minimisation de la distance euclidienne entre la sortie et la cible. L'utilisation de la régularisation a du sens à la fois d'un point de vue numérique et statistique, ce qui sera expliqué dans la leçon suivante. Selon le problème, l'hyper-paramètre lambda, qui détermine l'importance du terme de pénalité, devra être ajusté par validation croisée. La régularisation dans la régression linéaire change le système d'équations linéaires en lambda I + A fois W est égal à B. Grâce à la régularisation, les valeurs propres du système linéaire sont forcées d'être au moins lambda, ce qui les éloigne de 0, empêchant l'instabilité numérique et les erreurs.

  • 00:45:00 Dans cette section, le conférencier discute de l'application de la régularisation dans la régression linéaire pour éviter le surajustement. L'idée de régularisation consiste à ajouter un terme de pénalité à la fonction objectif et à introduire un paramètre lambda pour contrôler la quantité de poids attribuée au terme de pénalité. L'enseignant explique comment fonctionne cette technique de régularisation du point de vue de l'algèbre linéaire. De plus, un exemple est fourni pour illustrer comment la régularisation peut stabiliser les solutions obtenues en régression linéaire et empêcher le surajustement. L'exemple montre qu'en minimisant les poids et en ajoutant un terme de pénalité, on peut obtenir des solutions plus proches les unes des autres.

  • 00: 50: 00 Dans cette section, le conférencier discute de l'importance de la régularisation pour atténuer le problème de surajustement dans la régression linéaire. Le surajustement est un problème courant dans lequel un modèle fonctionne bien sur les données de formation mais mal sur les données de test. La régularisation est un moyen de résoudre ce problème, et le cours couvrira également d'autres approches. Dans le cours suivant, le sujet sera abordé d'un point de vue statistique.
 

CS480/680 Cours 4 : Apprentissage statistique



CS480/680 Cours 4 : Apprentissage statistique

Dans cette conférence sur l'apprentissage statistique, le professeur explique divers concepts tels que la règle de marginalisation, la probabilité conditionnelle, la probabilité conjointe, la règle de Bayes et l'apprentissage bayésien. Ces concepts impliquent l'utilisation de distributions de probabilité et leur mise à jour pour réduire l'incertitude lors de l'apprentissage. Le cours insiste sur l'importance de comprendre ces concepts pour justifier et expliquer divers algorithmes. L'exposé met également en évidence les limites de ces concepts, en particulier lorsqu'il s'agit de traiter de grands espaces d'hypothèses. Malgré cette limitation, l'apprentissage bayésien est considéré comme optimal tant que le prior est correct, fournissant des informations significatives aux utilisateurs.

Dans cette conférence, l'instructeur explique le concept d'apprentissage bayésien approximatif comme solution au problème de traçabilité avec l'apprentissage bayésien. Le maximum de vraisemblance et le maximum a posteriori sont des approximations couramment utilisées dans l'apprentissage statistique, mais elles présentent leurs propres faiblesses, telles que le surajustement et des prédictions moins précises que l'apprentissage bayésien. La conférence couvre également le problème d'optimisation résultant de la maximisation de la vraisemblance, la quantité de données nécessaires pour différents problèmes et l'importance des prochaines diapositives pour le devoir du cours. L'instructeur conclut en soulignant que l'algorithme convergera vers la meilleure hypothèse dans l'espace donné, même si certains ratios ne sont pas réalisables.

  • 00:00:00 Dans cette section de la conférence, le professeur présente le sujet de l'apprentissage statistique, qui implique l'utilisation des statistiques et de la théorie des probabilités pour capturer et réduire l'incertitude lors de l'apprentissage. L'idée est d'utiliser des distributions de probabilité pour quantifier l'incertitude et de les mettre à jour au fur et à mesure que l'apprentissage progresse. Le cours propose également un examen des distributions de probabilité et du concept de distribution de probabilité conjointe sur plusieurs variables aléatoires. En fin de compte, l'apprentissage statistique aide à expliquer et à justifier les algorithmes, y compris la régularisation, d'un point de vue statistique.

  • 00:05:00 Dans cette section, le conférencier explique comment utiliser la règle de marginalisation pour extraire une distribution particulière d'une distribution conjointe. Il donne un exemple où une distribution conjointe sur trois variables de conditions météorologiques, de maux de tête et une probabilité pour chaque jour est donnée. Il démontre le calcul des probabilités à l'aide de distributions marginales, montrant comment il est possible de trouver une probabilité conjointe ou les probabilités de scénarios météorologiques ou de maux de tête spécifiques. En utilisant cette méthode, il arrive à la partie du mal de tête ou du soleil qui arrive au point vingt huit, montrant ainsi comment extraire une distribution spécifique d'une distribution conjointe.

  • 00: 10: 00 Dans cette section, le concept de probabilité conditionnelle est discuté, qui est désigné par la probabilité d'une variable compte tenu d'une autre variable. La barre verticale représente la référence pour la fraction et le numérateur représente les mondes dans lesquels les deux variables sont vraies. Une représentation graphique est utilisée pour expliquer ce concept où le rapport du nombre de personnes ayant les deux variables est pris en considération. Ce concept est utilisé pour déterminer les occurrences rares d'événements tels que la probabilité d'avoir un mal de tête compte tenu de la grippe.

  • 00: 15: 00 Dans cette section, l'orateur explique comment calculer les probabilités conditionnelles à l'aide de méthodes de comptage et de visualisation. L'équation générale de la probabilité conditionnelle est une fraction de deux zones représentant le nombre de mondes avec des variables spécifiques. Le concept de probabilités conjointes et de probabilités marginales est introduit et l'équation de la règle en chaîne est expliquée, ce qui nous permet de factoriser une distribution conjointe en une probabilité conditionnelle et une probabilité marginale. L'orateur met également en garde contre l'erreur courante consistant à supposer que la probabilité d'avoir la grippe étant donné un mal de tête est la même que la probabilité d'avoir un mal de tête étant donné la grippe, et explique pourquoi cela est incorrect.

  • 00:20:00 Dans cette section, l'orateur explore la probabilité conditionnelle dans le contexte du diagnostic d'une maladie basée sur les symptômes. L'ordre des arguments dans une probabilité conditionnelle est important car le côté gauche est ce qui est estimé et le côté droit est le contexte. L'orateur illustre cela avec l'exemple du calcul de la probabilité d'avoir la grippe étant donné un mal de tête. La probabilité conjointe d'avoir la grippe et un mal de tête est calculée à l'aide de la règle de la chaîne, puis la probabilité conditionnelle est obtenue en divisant la probabilité conjointe par la probabilité marginale d'avoir un mal de tête. Un autre exemple est donné avec les trois variables aléatoires de mal de tête, d'ensoleillement et de froid. Les probabilités conditionnelles de maux de tête et de froid en cas d'ensoleillement sont calculées ainsi que la probabilité conditionnelle inverse d'ensoleillement en cas de maux de tête et de froid.

  • 00: 25: 00 Dans cette section du cours, l'instructeur explique le calcul des probabilités conjointes pour plusieurs événements dans un contexte spécifique et explique pourquoi les probabilités peuvent ne pas correspondre à une dans certaines situations. Les exemples donnés impliquent la probabilité d'avoir mal à la tête et un rhume, que la journée soit ensoleillée ou non. L'instructeur insiste ensuite sur l'importance de considérer tous les résultats sur le côté gauche de la barre verticale afin de déterminer si les probabilités doivent se résumer à un, et met en garde contre l'erreur courante consistant à supposer que le changement du contexte des événements entraînera en probabilités qui totalisent un.

  • 00:30:00 Dans cette section, l'instructeur explique la règle de Bayes, qui est utilisée pour l'apprentissage automatique et l'inférence. La règle de Bayes permet de calculer la relation entre deux probabilités conditionnelles via des arguments interchangeables. Il est utilisé avec une distribution a priori qui capture l'incertitude initiale, suivie de l'ensemble de preuves ou de données utilisé pour réviser la distribution a priori afin d'obtenir la distribution a posteriori. Cette règle peut également être utilisée pour mesurer la probabilité d'obtenir certains ensembles de données et peut être un outil efficace d'apprentissage en révisant les distributions qui quantifient l'incertitude. L'équation de la règle de Bayes consiste à multiplier l'a priori par la probabilité et une constante au lieu de le diviser par la preuve.

  • 00:35:00 Dans cette section du cours, l'orateur explique que la propriété de la preuve est une constante de normalisation du point de vue de l'apprentissage. Il a pour but de normaliser le numérateur afin que les nombres résultants soient compris entre 0 et 1. Le processus d'apprentissage bayésien donne une distribution a posteriori, mais en pratique, ce qui est souhaité est une hypothèse à utiliser pour faire des prédictions. Pour ce faire, une combinaison pondérée d'hypothèses est utilisée pour faire des prédictions en les pondérant selon leur probabilité a posteriori correspondante.

  • 00: 40: 00 Dans cette section, le concept d'utilisation de la distribution a posteriori pour définir des poids pour différentes hypothèses d'apprentissage automatique est discuté. Un exemple d'utilisation de l'apprentissage bayésien pour estimer le rapport des saveurs dans un sac de bonbons est donné, où la distribution a priori est une supposition faite au début, et la preuve correspond aux données obtenues en mangeant les bonbons. La distribution postérieure est utilisée pour réduire l'incertitude et en savoir plus sur le rapport des saveurs. La croyance initiale est subjective et peut être basée sur une supposition éclairée.

  • 00:45:00 Dans cette section de la conférence, l'orateur discute de l'apprentissage bayésien pour estimer le rapport des saveurs dans un sac de bonbons. La distribution de vraisemblance est calculée sur la base de l'hypothèse que les bonbons sont distribués de manière identique et indépendante. En utilisant le théorème de Bayes et en multipliant l'a priori par la vraisemblance, la distribution a posteriori est obtenue, donnant les probabilités a posteriori pour chaque hypothèse. L'orateur montre graphiquement les distributions a posteriori et explique comment la probabilité de l'hypothèse avec tout ce qui est citron vert domine lorsque tous les bonbons consommés jusqu'à présent sont du citron vert.

  • 00: 50: 00 Dans cette section de la vidéo sur l'apprentissage statistique, le présentateur discute des résultats d'une expérience de sac de bonbons où des bonbons sont tirés au hasard d'un sac et leurs saveurs sont notées. L'hypothèse sur le rapport de saveur du sac est mise à jour sur la base de l'observation et la probabilité est calculée. On observe que la probabilité d'une hypothèse que le sac ne contienne que des cerises tombe à zéro lorsqu'un citron vert est observé, tandis que la probabilité d'une hypothèse de 75% de citron vert et 25% de cerise augmente avec le citron vert mais redescend après quatre bonbons. Le présentateur explique également que la probabilité initiale choisie pour chaque hypothèse représente la croyance antérieure et que la sélection est subjective en fonction de la croyance de l'expert. Enfin, le présentateur souligne l'importance de faire des prédictions à l'aide de la distribution a posteriori afin de fournir des informations significatives aux utilisateurs.

  • 00:55:00 Dans cette section de la conférence, l'orateur discute de l'apprentissage bayésien et de ses propriétés. L'apprentissage bayésien est considéré comme optimal tant que la loi a priori est correcte et fournit un moyen raisonné de faire des prédictions. De plus, il est généralement immunisé contre le surajustement, qui est un problème important dans l'apprentissage automatique. Cependant, le principal inconvénient de l'apprentissage bayésien est qu'il est généralement insoluble, en particulier lorsqu'il s'agit de grands espaces d'hypothèses. Cela rend problématique le calcul de la distribution a posteriori et de la prédiction.

  • 01:00:00 Dans cette section, le concept d'apprentissage bayésien approximatif est présenté comme une solution au problème de traçabilité avec l'apprentissage bayésien. Le maximum a-postérieur est une approximation courante qui consiste à sélectionner l'hypothèse avec la probabilité la plus élevée dans la suite et à faire des prédictions sur cette base. Cette approche peut contrôler mais pas éliminer le surajustement et est moins précise que la prédiction bayésienne car elle repose sur une seule hypothèse. La vraisemblance maximale est une autre approximation qui consiste à sélectionner l'hypothèse qui correspond le mieux aux données et n'utilise pas de probabilités a priori, ce qui la rend plus simple mais moins précise que l'apprentissage bayésien. Les deux approximations résolvent le problème d'insoluble mais le remplacent par des problèmes d'optimisation.

  • 01:05:00 Dans cette section de la vidéo, l'instructeur explique le concept de maximum de vraisemblance, qui est l'hypothèse qui correspond le mieux aux données. Cependant, cela peut inclure tout ajuster, y compris le bruit, ce qui peut entraîner un surajustement. Bien que la maximisation de la vraisemblance puisse simplifier les calculs, elle conduit à des prédictions moins précises que les prédictions bayésiennes et MAP. Le problème d'optimisation qui découle de la maximisation de la vraisemblance peut encore être insoluble, mais de nombreux algorithmes du cours maximiseront la vraisemblance d'un point de vue statistique. Enfin, l'instructeur aborde la question de la quantité de données nécessaires pour différents problèmes, qui appartient au domaine de la théorie de l'apprentissage et est subjective à la taille de l'espace des hypothèses.

  • 01:10:00 Dans cette section, l'orateur conclut la conférence mais mentionne qu'il couvrira quelques diapositives supplémentaires dans la prochaine conférence qui seront importantes pour le devoir. Il mentionne également que même si certains des rapports ne sont pas réalisables, l'algorithme convergera toujours vers l'hypothèse qui est la meilleure pour faire une prédiction dans l'espace donné.
 

CS480/680 Cours 5 : Régression linéaire statistique



CS480/680 Cours 5 : Régression linéaire statistique

Dans cette conférence sur la régression linéaire statistique, le professeur aborde de nombreux sujets, à commencer par le concept de maximum de vraisemblance et les distributions de vraisemblance gaussienne pour les données bruitées et corrompues. Ils expliquent l'utilisation des techniques du maximum de vraisemblance pour trouver les poids qui donnent la probabilité maximale pour tous les points de données dans l'ensemble de données. La conférence se penche ensuite sur l'idée du maximum a posteriori (MAP), de la gaussienne sphérique et de la matrice de covariance. L'oratrice aborde également l'utilisation de l'information a priori et la régularisation. L'erreur attendue dans la régression linéaire est ensuite décomposée en deux termes : l'un tenant compte du bruit et l'autre dépendant du vecteur de poids, W, qui peut ensuite être décomposé en biais et variance. Le cours se termine par une discussion sur l'utilisation de l'apprentissage bayésien pour le calcul de la distribution a posteriori. Dans l'ensemble, la conférence couvre un large éventail de sujets liés à la régression linéaire statistique et fournit des informations précieuses sur l'optimisation des modèles afin de réduire les erreurs de prédiction.

La conférence se concentre sur la régression bayésienne, qui estime une distribution a posteriori qui converge vers le véritable ensemble de poids à mesure que davantage de points de données sont observés. La distribution a priori se révèle être une distribution sur des paires de W zéro et W1 et est une distribution de lignes. Après avoir observé un point de données, la distribution postérieure est calculée à l'aide des distributions a priori et de vraisemblance, ce qui donne une croyance mise à jour sur la position de la ligne. Pour faire des prédictions, une combinaison pondérée des prédictions des hypothèses est prise sur la base de la distribution postérieure, conduisant à une prédiction gaussienne avec une moyenne et une variance données par des formules spécifiques. L'astuce pour obtenir une prédiction ponctuelle réelle est de prendre la moyenne de la prédiction gaussienne.

  • 00: 00: 00 Dans cette section, le concept de vraisemblance maximale et d'apprentissage maximal de la vision de l'adversaire dans le contexte de la régression linéaire est introduit. Les données sont supposées provenir de mesures bruitées et corrompues. La sortie observée est une version corrompue de la sortie de la fonction sous-jacente avec du bruit ajouté. Gaussien est supposé dénoter le bruit. Une distribution de vraisemblance est exprimée pour déterminer la probabilité de mesurer une certaine sortie pour chaque entrée dans l'ensemble de données. Cette compréhension aide à faire de meilleurs choix pour la régularisation.

  • 00:05:00 Dans cette section du cours, le professeur discute de la distribution gaussienne dans le contexte de la régression linéaire. Ils expliquent qu'en supposant que la fonction sous-jacente est linéaire et déterministe, la distribution résultante est gaussienne avec une moyenne égale à W transpose X et une variance équivalente à Sigma carré. Ils dessinent ensuite un graphique de la distribution gaussienne pour illustrer que la probabilité de mesurer des valeurs autour de la moyenne est plus élevée, la largeur de la courbe étant déterminée par le carré Sigma. Le professeur note qu'il s'agit de la fonction de vraisemblance et que nous pouvons utiliser des techniques de vraisemblance maximale pour trouver le W qui donne la probabilité maximale pour tous les points de données de notre ensemble de données.

  • 00: 10: 00 Dans cette section, le conférencier explique comment sélectionner le meilleur modèle de régression linéaire statistique, en commençant par optimiser la probabilité des Y observés en fonction des X d'entrée spécifiques et d'un niveau de bruit avec la variance Sigma. Le conférencier montre ensuite une dérivation de la façon de simplifier et de redimensionner cette expression à un objectif convexe en prenant le logarithme naturel et en supprimant les facteurs non pertinents. Le résultat est le problème original des moindres carrés, démontrant l'approche intuitive pour minimiser la distance entre les points et la ligne en régression linéaire.

  • 00: 15: 00 Dans cette section, l'orateur discute de la perspective statistique et de la manière de trouver le W qui donnerait la plus grande probabilité d'observer les mesures en supposant un modèle avec un bruit gaussien. Le problème d'optimisation est mathématiquement équivalent, ce qui donne une plus grande confiance dans cette approche. Supprimer Sigma de chaque terme de la sommation équivaut mathématiquement à le retirer de la sommation, et cela permet de supposer que le même bruit est présent pour chaque mesure lorsque W est sélectionné. L'orateur mentionne également qu'il est important d'avoir un modèle pour le bruit afin de trouver la meilleure solution et d'estimer Sigma sur la base d'expériences répétées pour le maintenir fixe. La distribution postérieure est calculée en trouvant le W qui a la probabilité la plus élevée dans le postérieur en calculant le postérieur comme le produit du prior par la vraisemblance et une constante de normalisation.

  • 00: 20: 00 Dans cette section de la conférence, l'instructeur discute du concept de maximum a posteriori (MAP) et de la façon dont il diffère du maximum de vraisemblance. La MAP consiste à inclure la distribution a priori dans le calcul pour affiner la distribution de l'hypothèse, ce qui réduit l'incertitude. L'instructeur explique comment définir une distribution a priori gaussienne pour le vecteur de poids (W) et comment calculer la PDF de la gaussienne multivariée. L'instructeur fournit également un exemple de dessin de courbes de niveau pour illustrer la forme de la distribution gaussienne.

  • 00:25:00 Dans cette section du cours, l'instructeur explique le concept d'une gaussienne sphérique et son lien avec la matrice de covariance. Les entrées diagonales de la matrice de covariance représentent la variance de chaque poids, tandis que les entrées hors diagonale représentent la covariance entre les poids. L'instructeur montre ensuite comment trouver le maximum de la postérieure à l'aide d'une dérivation, en supposant que l'inverse de la matrice de covariance est égal à lambda multiplié par la matrice d'identité. De cette manière, l'expression est équivalente au problème des moindres carrés régularisé, le terme de pénalité étant lambda fois la norme au carré de W. Le terme de régularisation peut maintenant être interprété d'une nouvelle manière, en précisant qu'il provient de la distribution a priori et que minimiser la norme de W revient à rapprocher les poids de la moyenne de la distribution.

  • 00:30:00 Dans cette section, l'orateur discute de l'utilisation d'informations a priori pour choisir une matrice de covariance dans la régression linéaire statistique. S'il existe des informations suggérant que les solutions doivent être proches de zéro, alors un a priori de moyenne nulle est utilisé avec une matrice de covariance définie par une distribution en forme de cloche avec un certain étalement. Maximiser la vraisemblance équivaut à minimiser l'objectif régularisé avec le terme de pénalité lors de l'utilisation de cet a priori. Dans les situations où la gaussienne n'a pas une forme sphérique, mais une forme plus générale, le rayon de chaque dimension est différent, ce qui signifie qu'il existe des valeurs différentes dans les entrées diagonales. Il est raisonnable de supposer qu'une matrice de covariance a une forme diagonale, avec la même largeur dans toutes les directions, ce qui a tendance à bien fonctionner dans la pratique.

  • 00: 35: 00 Dans cette section, l'orateur explique comment les approches de minimisation de la perte au carré avec un terme organisationnel et de maximisation de l'hypothèse a posteriori peuvent conduire à des résultats de perte potentiellement différents. La section analyse la fonction de perte et décompose la perte attendue en deux termes différents. Le choix de lambda impacte la solution et donc la perte attendue. L'orateur montre ensuite la dérivation mathématique de la façon dont un W donné peut conduire à une perte attendue et comment cette perte peut être décomposée en deux termes différents. L'analyse est basée sur un échantillon de données et la distribution sous-jacente, et les résultats peuvent être utilisés pour comprendre la perte attendue d'un W donné et l'impact de la variation de lambda.

  • 00:40:00 Dans cette section du cours, l'orateur explique la dérivation de l'erreur attendue dans un modèle de régression linéaire. L'erreur attendue est décomposée en deux termes : un qui tient compte du bruit et un autre qui dépend du vecteur de poids, W. Ce deuxième terme peut être encore développé pour montrer qu'il peut être décomposé en le carré du biais et la variance . Le biais mesure la différence moyenne entre la sortie du modèle et la véritable fonction sous-jacente approximée, tandis que la variance mesure la variabilité des sorties du modèle autour de leur moyenne. En comprenant les contributions du biais et de la variance à l'erreur attendue, les data scientists peuvent mieux optimiser leurs modèles afin de réduire l'erreur de prédiction.

  • 00:45:00 Dans cette section du cours, le professeur explique la décomposition de la perte attendue en trois termes : bruit, variance et biais au carré. Cela conduit à un graphique où l'axe des abscisses est lambda, le poids du terme de régularisation dans l'affectation. Lorsque lambda augmente, l'erreur diminue initialement puis augmente à nouveau. La perte attendue est composée du bruit plus la variance plus le biais au carré. Le graphique montre que la courbe de la variance plus le biais au carré est la somme des courbes individuelles de la variance et du biais au carré. La validation croisée est utilisée pour trouver la meilleure valeur lambda, qui peut contrôler l'erreur obtenue, tandis que la différence entre la perte attendue et la perte réelle est le bruit présent dans tous les cas.

  • 00: 50: 00 Dans cette section, le conférencier donne un exemple de régression non linéaire pour illustrer comment différentes courbes obtenues en appliquant un apprentissage a posteriori maximal avec différents ensembles de données sont liées au biais et à la variance. Le conférencier explique que lorsque le lambda diminue, le biais diminue et la variance augmente. L'objectif est de trouver un lambda qui donne le meilleur compromis entre biais et variance, comme le montre la courbe. Le professeur mentionne également que l'erreur est mesurée en termes de distance au carré et que lambda est un paramètre utilisé dans la régularisation.

  • 00: 55: 00 Dans cette section, le conférencier discute de l'idée de minimiser les distances au carré et d'ajouter un terme de pénalité, où lambda est le poids du terme de pénalité. La variation de lambda influence le biais et la variance, conduisant à différentes valeurs optimales de W, et la perte attendue peut être considérée comme une fonction de lambda. L'apprentissage bayésien consiste à calculer la distribution a posteriori en commençant par un a priori et en réduisant l'incertitude grâce à l'apprentissage automatique. La distribution postérieure est calculée en multipliant un a priori gaussien et une vraisemblance gaussienne, ce qui donne une distribution a posteriori gaussienne.

  • 01:00:00 Dans cette section, le concept de régression bayésienne est expliqué à l'aide d'une distribution a priori gaussienne dans l'espace des w, qui peut représenter une ligne. La distribution a priori se révèle être une distribution sur des paires de w naught et w1 et est une distribution de lignes. Ensuite, après avoir observé un seul point de données, une distribution a posteriori est calculée en multipliant les distributions a priori et de vraisemblance. La distribution postérieure résultante est allongée le long de la crête et quelque peu ronde, et devient ainsi la croyance mise à jour sur la position de la ligne.

  • 01:05:00 cette section, le conférencier explique comment l'apprentissage bayésien estime une distribution a posteriori qui converge vers le véritable ensemble de poids à mesure que davantage de points de données sont observés. Les lignes rouges représentent des échantillons de la distribution a posteriori correspondante, qui est une distribution par rapport aux poids qui définissent une ligne correspondante dans l'espace de données. Cependant, il reste à savoir comment faire des prédictions basées sur la distribution a posteriori finale.

  • 01:10:00 Dans cette section, l'orateur explique comment faire des prédictions à l'aide de l'apprentissage bayésien, qui consiste à prendre une combinaison pondérée des prédictions faites par chaque hypothèse. La prédiction est faite pour une nouvelle entrée et les poids sont déterminés par la distribution a posteriori. Le locuteur utilise un postérieur gaussien et une vraisemblance pour arriver à une prédiction gaussienne, avec une moyenne et une variance données par des formules spécifiques. Enfin, une astuce courante pour obtenir une prédiction ponctuelle réelle consiste à prendre la moyenne de la prédiction gaussienne.
 

CS480/680 Cours 6 : Outils pour les enquêtes (Paulo Pacheco)



CS480/680 Cours 6 : Outils pour les enquêtes (Paulo Pacheco)

Dans cette vidéo, Paulo Pacheco présente deux outils académiques pour les enquêtes : Google Scholar et RefWorks. Il explique comment rechercher des articles universitaires et les trier par citations à l'aide de Google Scholar, et suggère de filtrer les articles plus anciens pour les plus récents. Pacheco souligne l'importance de l'exportation et de la gestion des citations et présente RefWorks comme outil pour cette tâche. Il fournit également des conseils pour accéder aux publications universitaires, y compris l'utilisation de recherches créatives par mots-clés et nécessitant potentiellement un accès au réseau universitaire ou un VPN.

  • 00:00:00 Dans cette section, Paulo Pacheco présente deux outils pour mener des enquêtes : Google Scholar et RefWorks de la bibliothèque. Il explique comment Google Scholar peut être utilisé pour rechercher des articles universitaires et les classer approximativement par citations. Il suggère également comment filtrer les anciens articles et se concentrer sur les plus récents. Pacheco souligne l'importance de l'exportation et de la gestion des citations pour les travaux universitaires et mentionne RefWorks comme un outil qui peut aider dans ce processus.

  • 00:05:00 Dans cette section, le conférencier discute de divers outils et conseils pour accéder aux publications universitaires, notamment via Google Scholar et la bibliothèque de l'Université de Waterloo. Il explique comment Google Scholar peut être utilisé pour trouver des articles pertinents et les trier par année ou par nombre de citations, et note également que l'accès aux textes intégraux peut nécessiter un accès au réseau universitaire ou l'utilisation d'un VPN. De plus, il suggère d'utiliser une recherche créative par mot-clé comme "ensembles de données impressionnants pour le TAL" ou "liens impressionnants pour la vision par ordinateur" pour trouver de l'inspiration et des ressources de haute qualité.
 

CS480/680 Cours 6 : Ensembles de données Kaggle et compétitions



CS480/680 Cours 6 : Ensembles de données Kaggle et compétitions

La conférence traite de Kaggle, une communauté permettant aux praticiens de la science des données de participer à des compétitions sponsorisées en utilisant des ensembles de données fournis pour un prix en espèces, offrant des noyaux pour la formation de modèles d'apprentissage automatique et l'extraction de caractéristiques de données, et une vaste sélection de près de 17 000 ensembles de données à utiliser dans la conception d'algorithmes. Le conférencier note également que les référentiels GitHub de l'entreprise peuvent fournir des ensembles de données, des codes et des articles publiés précieux pour les concours.

  • 00:00:00 Dans cette section, le conférencier parle de Kaggle, une communauté de science des données où les praticiens de la science des données peuvent participer à des compétitions sponsorisées par des entreprises privées où ils fournissent un ensemble de données et un prix en espèces. Les participants peuvent télécharger les données, former des algorithmes d'apprentissage automatique et soumettre des prédictions au concours pour gagner si leurs prédictions sont les meilleures pour l'ensemble de données. Kaggle fournit également des noyaux, des extraits de code soumis par différents utilisateurs qui sont utiles pour l'extraction de fonctionnalités ou la formation d'un type particulier de modèle sur certaines données. En plus des compétitions et des noyaux, Kaggle fournit près de 17 000 ensembles de données qui couvrent toutes les disciplines auxquelles vous pouvez penser. Les utilisateurs peuvent magasiner un peu pour trouver un ensemble de données qui peut répondre aux hypothèses dont ils ont besoin pour concevoir un algorithme.

  • 00: 05: 00 Dans cette section, l'orateur discute de certaines sources à partir desquelles on peut trouver des ensembles de données pour diverses compétitions. Il mentionne Kaggle comme une excellente source d'ensembles de données. Il suggère également d'examiner les référentiels GitHub de l'entreprise où des codes payants et des articles publiés sont disponibles, ainsi que des données pouvant être utilisées pour exécuter le code. Cela peut être une ressource précieuse pour obtenir des ensembles de données de haute qualité.
 

CS480/680 Cours 6 : Normaliser les flux (Priyank Jaini)



CS480/680 Cours 6 : Normaliser les flux (Priyank Jaini)

La vidéo fournit une introduction à la normalisation des flux dans les modèles génératifs profonds, une technique qui apprend une fonction pour transformer une distribution en une autre, dans le but de transformer une distribution connue en une distribution d'intérêt inconnue. La vidéo aborde également les projets de recherche possibles liés à la normalisation des flux, y compris la réalisation d'une enquête sur différents articles et progrès liés à la normalisation des flux et l'analyse de la transformation d'une seule gaussienne en un mélange de gaussiennes. Le conférencier encourage l'exploration des nombreuses applications différentes des flux de normalisation.

  • 00:00:00 Dans cette section, l'orateur propose une introduction à la normalisation des flux dans les modèles génératifs profonds. L'apprentissage d'une distribution est un aspect clé de l'apprentissage automatique, et l'orateur explique que la normalisation des flux est une technique qui apprend une fonction pour transformer une distribution en une autre. L'objectif est de transformer une distribution connue, telle qu'une distribution gaussienne, en une distribution d'intérêt inconnue. En pratique, un réseau de neurones est utilisé pour cette transformation et la recherche s'est concentrée sur la conception de réseaux de neurones pour obtenir la distribution souhaitée.

  • 00:05:00 Dans cette section, le conférencier discute des projets de recherche possibles liés à la normalisation des flux, qui est un sujet brûlant en apprentissage automatique qui a beaucoup retenu l'attention ces dernières années. Une idée de projet est de mener une enquête sur les différents articles et avancées liés à la normalisation des flux, qui pourraient potentiellement être publiables. Une autre idée est d'analyser la transformation d'une seule gaussienne en un mélange de gaussiennes en utilisant certaines fonctions et comment cela peut être étendu à d'autres distributions telles que les distributions exponentielles et T d'étudiant. Le conférencier met également en évidence des questions théoriquement ouvertes dans la capture du comportement à queue lourde sur les marchés des capitaux financiers. Dans l'ensemble, le conférencier encourage l'exploration des nombreuses applications différentes de la normalisation des flux et invite les étudiants intéressés à les contacter pour plus de connaissances sur le t
Raison: