Apprentissage Automatique et Réseaux Neuronaux - page 71

 

8.1 Introduction au sur-ajustement et au sous-ajustement (L08 : Évaluation du modèle, partie 1)



8.1 Introduction au sur-ajustement et au sous-ajustement (L08 : Évaluation du modèle, partie 1)

Bonne journée tout le monde! J'espère que vous allez tous bien. J'ai des nouvelles passionnantes à partager avec vous aujourd'hui, alors allons-y.

Tout d'abord, j'ai fini de noter vos propositions de projets et je dois dire que je suis vraiment ravi des idées et des plans que j'ai vus. Il est évident que chacun d'entre vous a beaucoup réfléchi à ses projets et a une vision claire pour les semaines à venir jusqu'à ce que les présentations et les rapports des projets soient dus à la mi-décembre. Je suis vraiment impressionné par le niveau de détail et de réflexion qui a été apporté à vos propositions.

Cependant, si l'un d'entre vous ressent le besoin de commentaires ou de clarifications supplémentaires, ou si vous souhaitez des conseils sur l'exploration de techniques supplémentaires, n'hésitez pas à me contacter. Je suis plus qu'heureux de vous fournir une assistance et un soutien supplémentaires de toutes les manières possibles. Envoyez-moi simplement un e-mail ou planifiez une réunion, et je serai là pour vous aider.

Passant à d'autres bonnes nouvelles, nous avons conclu avec succès la conférence sur les méthodes d'ensemble, ce qui signifie qu'il est temps de se lancer dans un sujet nouveau et passionnant. Dans la prochaine série de conférences, nous nous concentrerons sur l'évaluation des modèles. Contrairement aux conférences précédentes où nous avons présenté divers classificateurs et algorithmes d'apprentissage automatique, cette fois, nous explorerons comment évaluer équitablement les performances de ces algorithmes.

Tout au long de cette nouvelle série, nous aborderons un éventail de sujets. Nous commencerons par comprendre les concepts de sous-ajustement et de surajustement et leur relation avec la décomposition du biais et de la variance d'une fonction de perte. Nous approfondirons ensuite les méthodes de validation croisée qui nous permettent de comparer efficacement les modèles. De plus, nous discuterons des techniques permettant de comparer différents algorithmes d'apprentissage automatique afin de déterminer leurs performances sur des ensembles de données spécifiques. Il est essentiel de faire la différence entre la sélection de modèle et la sélection d'algorithme, et nous explorerons cette distinction plus en détail.

Sans plus tarder, commençons par l'introduction à l'évaluation de modèles et plongeons plus profondément dans le monde du surajustement et du sous-ajustement. Dans cette conférence (huitième conférence), nous discuterons de la décomposition du biais et de la variance et de sa relation avec le surajustement et le sous-ajustement. Nous analyserons la décomposition du biais et de la variance de la perte d'erreur quadratique (pertinente pour la régression) et de la perte 01 (pertinente pour la classification) afin d'acquérir une compréhension globale de ces concepts. De plus, nous aborderons différents types de biais en apprentissage automatique, allant au-delà du biais statistique couvert dans la décomposition.

Avant de nous plonger dans le matériel de cours, prenons un peu de recul et récapitulons brièvement où nous en sommes dans le cours. Nous avons couvert l'introduction, les aspects informatiques tels que Python, NumPy et scikit-learn, ainsi que les méthodes basées sur des arbres. Nous avons également discuté de la pertinence des méthodes basées sur les arbres et de la popularité des méthodes d'ensemble, en particulier les forêts boostées et aléatoires, dans l'industrie. Maintenant, en nous concentrant sur l'évaluation des modèles, nous allons explorer divers sous-thèmes, notamment les intervalles de confiance, la validation croisée, la sélection de modèles, la sélection d'algorithmes et les mesures de performance. Vers la fin, nous aborderons la réduction de la dimensionnalité et l'apprentissage non supervisé.

Je tiens à vous assurer que ce cours sera plus court que le précédent sur les méthodes d'ensemble, car il est relativement concis. Néanmoins, il couvre des concepts cruciaux qui nous aideront à mieux comprendre l'évaluation des modèles. Plongeons-nous donc dans les six sous-thèmes qui composent la conférence huit : surajustement, sous-ajustement, décomposition des biais et de la variance, relation avec le surajustement et le sous-ajustement, décomposition des biais et de la variance de la perte 01, et un aperçu des différents types de biais dans l'apprentissage automatique.

Tout au long de cette conférence, je vous encourage à faire une pause et à réfléchir aux questions que je pose, au-delà des quiz. Il est toujours utile de faire une pause et de formuler vos propres pensées avant de considérer mon point de vue sur la question. S'engager avec le matériel de cette manière améliorera votre expérience d'apprentissage.

  1. Sur-ajustement et sous-ajustement : dans l'apprentissage automatique, le surajustement se produit lorsqu'un modèle fonctionne extrêmement bien sur les données d'apprentissage, mais ne parvient pas à se généraliser à de nouvelles données invisibles. D'autre part, le sous-ajustement se produit lorsqu'un modèle est trop simple et ne parvient pas à capturer les modèles sous-jacents dans les données.

Le surajustement peut être causé par des modèles trop complexes et comportant trop de paramètres par rapport à la quantité de données d'apprentissage disponibles. Cela conduit le modèle à ajuster le bruit dans les données d'apprentissage au lieu des vrais modèles sous-jacents. Le sous-ajustement, en revanche, se produit lorsque le modèle n'est pas suffisamment complexe pour capturer les modèles dans les données.

  1. Décomposition du biais et de la variance : le biais et la variance sont deux sources d'erreur dans les modèles d'apprentissage automatique. Le biais mesure la distance entre les prédictions et les valeurs réelles en moyenne lorsque le modèle est entraîné sur différents ensembles d'entraînement. La variance, en revanche, mesure la variation des prédictions pour une entrée donnée lorsque le modèle est entraîné sur différents ensembles d'entraînement.

Le biais et la variance peuvent être décomposés mathématiquement. L'erreur quadratique attendue d'un modèle peut être décomposée en biais quadratique, variance et erreur irréductible. Le biais carré mesure la différence moyenne entre les prédictions du modèle et les vraies valeurs. La variance mesure la variabilité des prédictions du modèle pour une entrée donnée. L'erreur irréductible représente le bruit inhérent aux données qui ne peut être réduit par aucun modèle.

  1. Relation avec le surajustement et le sous-ajustement : Le compromis biais-variance est étroitement lié au surajustement et au sous-ajustement. Le surajustement est souvent associé à un faible biais et à une variance élevée. Le modèle s'adapte très bien aux données d'apprentissage, mais il ne se généralise pas aux nouvelles données car il est trop sensible aux petites fluctuations de l'ensemble d'apprentissage.

Le sous-ajustement, en revanche, est associé à un biais élevé et à une faible variance. Le modèle est trop simple et ne peut pas capturer les modèles sous-jacents dans les données, ce qui entraîne de mauvaises performances à la fois sur les données de formation et de test.

  1. Décomposition du biais et de la variance de la perte 01 : Jusqu'à présent, nous avons discuté de la décomposition du biais et de la variance à l'aide de la perte d'erreur au carré, qui est couramment utilisée dans les problèmes de régression. Cependant, dans les problèmes de classification, nous utilisons généralement la perte 01, qui mesure la proportion d'instances mal classées.

La décomposition biais-variance de la perte 01 est similaire à celle de la perte d'erreur au carré, mais elle implique des mathématiques plus complexes. Le biais carré mesure la différence attendue dans le taux d'erreur de classification entre les prédictions du modèle et les véritables étiquettes. La variance mesure la variabilité du taux d'erreur de classification pour un intrant donné.

  1. Vue d'ensemble des différents types de biais dans l'apprentissage automatique : au-delà du biais statistique abordé dans la décomposition biais-variance, il existe d'autres types de biais dans l'apprentissage automatique :
  • Biais d'échantillonnage : il se produit lorsque les données d'apprentissage ne sont pas représentatives de la population réelle ou ont une distribution asymétrique. Cela peut conduire à un modèle qui fonctionne bien sur les données de formation mais ne parvient pas à se généraliser à la population plus large.
  • Biais algorithmique : Il fait référence aux biais qui peuvent résulter des algorithmes eux-mêmes. Par exemple, certains algorithmes peuvent être plus sujets aux biais en fonction des données d'entraînement auxquelles ils sont exposés ou des fonctionnalités qu'ils prennent en compte.
  • Biais cognitif : Il fait référence aux biais qui peuvent découler du processus de prise de décision humaine, tels que le jugement subjectif ou les biais inconscients dans l'étiquetage des données ou la sélection des fonctionnalités.

Comprendre ces différents types de biais est crucial pour construire des modèles d'apprentissage automatique équitables et fiables.

Cela conclut les principaux sujets abordés dans la leçon huit. Comme vous pouvez le voir, le surajustement, le sous-ajustement, le biais et la variance sont des concepts interconnectés qui jouent un rôle crucial dans l'évaluation du modèle. Il est important de trouver un équilibre entre complexité et généralisabilité pour éviter de sur-ajuster ou de sous-ajuster vos modèles. De plus, être conscient des différents types de biais peut aider à répondre aux considérations d'équité et d'éthique dans l'apprentissage automatique.

8.1 Intro to overfitting and underfitting (L08: Model Evaluation Part 1)
8.1 Intro to overfitting and underfitting (L08: Model Evaluation Part 1)
  • 2020.11.03
  • www.youtube.com
This video gives a brief overview of the topics to be covered in the model evaluation lectures. It will then start by giving a brief introduction to overfitt...
 

8.2 Intuition derrière le biais et la variance (L08 : Évaluation du modèle, partie 1)



8.2 Intuition derrière le biais et la variance (L08 : Évaluation du modèle, partie 1)

Bonjour à tous! J'espère que tu vas bien. J'ai des nouvelles passionnantes à partager avec vous tous. Tout d'abord, j'ai terminé la tâche de notation de vos propositions de projet. Permettez-moi d'exprimer ma joie de lire toutes vos brillantes idées et plans pour le reste du semestre. C'est vraiment impressionnant de voir que chacun d'entre vous a une feuille de route bien définie pour les semaines à venir menant aux présentations et aux rapports du projet.

Si l'un d'entre vous ressent le besoin de commentaires supplémentaires ou a besoin d'éclaircissements sur n'importe quel aspect, n'hésitez pas à me contacter par e-mail ou par tout autre moyen. Je suis plus qu'heureux de vous fournir des conseils supplémentaires et des pointeurs vers des techniques supplémentaires qui pourraient être pertinentes pour vos projets.

Passons maintenant à la prochaine bonne nouvelle. Nous avons terminé avec succès le cours sur les méthodes d'ensemble, et il est temps de plonger dans un sujet nouveau et passionnant. Dans la prochaine série de conférences, nous explorerons le sujet de l'évaluation des modèles. Contrairement aux conférences précédentes, où nous avons présenté divers classificateurs et algorithmes d'apprentissage automatique, cette fois, nous nous concentrerons sur l'évaluation équitable de ces algorithmes.

Les conférences sur l'évaluation des modèles couvriront plusieurs aspects. Nous commencerons par comprendre les concepts de sous-ajustement et de sur-ajustement et leur relation avec le biais et la décomposition de la variance dans une fonction de perte. Ensuite, nous explorerons les méthodes de validation croisée qui nous permettent de comparer efficacement les modèles. Plus tard, nous discuterons des techniques pour comparer différents algorithmes d'apprentissage automatique et leurs performances sur des ensembles de données spécifiques.

Il est important de noter que la sélection du modèle, qui implique le choix d'un algorithme bien ajusté, sera également discutée plus en détail. Nous examinerons en quoi elle diffère de l'évaluation du modèle. Alors, commençons notre voyage par une introduction à l'évaluation des modèles et continuons à développer nos connaissances à partir de là.

Avant de nous plonger dans le nouveau sujet, prenons un moment pour récapituler nos progrès dans ce cours. Nous avons commencé par une introduction et couvert des aspects informatiques importants tels que Python, NumPy et scikit-learn. Nous avons également exploré les méthodes basées sur les arbres, ce qui a suscité des discussions intéressantes sur leur pertinence dans l'industrie.

Maintenant, alors que nous entrons dans la phase d'évaluation du modèle, nous allons explorer plusieurs sous-thèmes liés au sous-ajustement et au surajustement. Dans cette conférence particulière (Leçon huit), nous nous concentrerons sur la décomposition du biais et de la variance et son lien avec le surajustement et le sous-ajustement. Nous examinerons l'impact des composantes de biais et de variance sur les performances de généralisation d'un modèle.

De plus, nous explorerons la décomposition du biais et de la variance de la perte 0-1, qui est plus pertinente pour les problèmes de classification. Cette analyse nous permettra de mieux comprendre le surajustement et le sous-ajustement dans le contexte des tâches de classification.

Pour conclure cette conférence, nous aborderons brièvement différents types de biais dans l'apprentissage automatique au-delà du biais statistique discuté précédemment.

Maintenant, portons notre attention sur les principaux concepts de sur-ajustement et de sous-ajustement. En machine learning, notre but ultime est de développer des modèles (régression ou classification) démontrant de bonnes performances de généralisation. Cela signifie que les modèles doivent bien fonctionner sur des données invisibles, qui proviennent généralement de l'ensemble de test. Bien que nous considérions également les performances sur l'ensemble de test, cela sert d'estimation des performances de généralisation sur des données invisibles.

En l'absence d'ajustement ou d'entraînement du modèle, nous nous attendons à ce que l'erreur d'entraînement soit similaire à l'erreur de test. Cependant, lorsque nous ajustons le modèle à l'ensemble d'apprentissage, nous observons souvent que l'erreur d'apprentissage est inférieure à l'erreur de test. Ceci est le résultat d'un surajustement, où le modèle devient trop étroitement adapté aux données d'entraînement, y compris le bruit, conduisant à une estimation optimiste des performances.

À l'inverse, le sous-ajustement se produit lorsque le modèle ne parvient pas à capturer les modèles sous-jacents dans les données, ce qui entraîne des erreurs d'entraînement et de test élevées. Dans ce cas, le modèle manque.

une complexité suffisante pour représenter la véritable relation entre les caractéristiques et la variable cible.

Pour mieux comprendre le surajustement et le sous-ajustement, considérons le compromis biais-variance. Le biais fait référence à l'erreur introduite par l'approximation d'un problème du monde réel avec un modèle simplifié. Un modèle à biais élevé a tendance à simplifier à l'excès les modèles sous-jacents dans les données et peut entraîner un sous-ajustement. D'autre part, la variance fait référence à l'erreur introduite par la sensibilité du modèle aux fluctuations des données d'apprentissage. Un modèle à variance élevée capture le bruit et les variations aléatoires dans les données d'apprentissage, ce qui entraîne un surajustement.

Le compromis biais-variance peut être illustré en décomposant l'erreur de test attendue en trois composantes : l'erreur irréductible, le terme de biais et le terme de variance. L'erreur irréductible représente le bruit inhérent aux données qui ne peut être réduit par aucun modèle. Le terme de biais mesure l'erreur introduite par l'approximation d'un problème du monde réel avec un modèle simplifié, et le terme de variance mesure l'erreur causée par la sensibilité du modèle aux fluctuations des données d'apprentissage.

Mathématiquement, nous pouvons exprimer l'erreur de test attendue comme suit :

Erreur de test attendue = Erreur irréductible + Biais ^ 2 + Variance

Idéalement, nous voulons trouver un équilibre entre le biais et la variance qui minimise l'erreur de test attendue. Cependant, la réduction d'un composant entraîne souvent une augmentation de l'autre. Ce compromis est crucial dans la sélection et l'évaluation du modèle.

Dans le contexte des problèmes de classification, nous pouvons également examiner la décomposition biais-variance de la perte 0-1, qui est une fonction de perte courante utilisée dans les tâches de classification. La perte 0-1 mesure l'erreur comme la proportion d'instances mal classées. La décomposition biais-variance de la perte 0-1 donne un aperçu des sources d'erreur dans les modèles de classification.

Au-delà du biais statistique, il existe d'autres types de biais qui peuvent affecter les modèles d'apprentissage automatique. Ces biais peuvent provenir de diverses sources, notamment le biais d'échantillonnage, le biais de mesure et le biais algorithmique. Comprendre ces biais est essentiel pour construire des systèmes d'apprentissage automatique équitables et fiables.

Dans la prochaine conférence, nous approfondirons la validation croisée, une technique puissante pour estimer les performances de généralisation d'un modèle. La validation croisée nous permet d'évaluer les performances d'un modèle sur des données invisibles en simulant le processus de formation et de test sur différents sous-ensembles de données. Nous explorerons différents types de méthodes de validation croisée, telles que la validation croisée k-fold et la validation croisée stratifiée, et discuterons de leurs avantages et limites.

C'est tout pour la conférence d'aujourd'hui. Je vous encourage à revoir le matériel couvert et à venir préparé avec toutes les questions que vous pourriez avoir pour notre prochaine session. Merci et passez une bonne journée!

8.2 Intuition behind bias and variance (L08: Model Evaluation Part 1)
8.2 Intuition behind bias and variance (L08: Model Evaluation Part 1)
  • 2020.11.04
  • www.youtube.com
This video provides some intuition behind the terms bias and variance in the context of bias-variance decomposition and machine learning.-------This video is...
 

8.3 Décomposition biais-variance de l'erreur quadratique (L08 : évaluation du modèle, partie 1)



8.3 Décomposition biais-variance de l'erreur quadratique (L08 : évaluation du modèle, partie 1)

Dans la conférence précédente, nous avons acquis une certaine intuition sur le biais et la variance et avons brièvement abordé la décomposition biais-variance d'une fonction de perte. Maintenant, dans cette conférence, nous allons approfondir la décomposition biais-variance en nous concentrant sur la perte d'erreur au carré. Commencer par la perte d'erreur au carré le rend plus simple et plus intuitif avant d'explorer sa relation avec le surajustement et le sous-ajustement. De plus, nous discuterons brièvement de la décomposition biais-variance de la perte 0-1, qui est un sujet plus controversé avec des travaux récents qui lui sont consacrés. Cependant, nous examinerons d'abord le cas de l'erreur quadratique car il fournit une compréhension plus simple.

Pour récapituler brièvement, le biais et la variance ont été abordés plus en détail dans la vidéo précédente, mais il est avantageux de passer un moment à récapituler le paramètre. Nous examinons l'estimateur ponctuel moins la prédiction, qui représente la cible prévue pour un modèle donné et un ensemble d'apprentissage spécifique. L'attente est prise sur différents ensembles d'apprentissage tirés de la même distribution ou population. Cette attente représente la prédiction moyenne pour un point de données donné dans l'ensemble de test.

Le biais mesure la distance entre la prédiction moyenne et la vraie valeur cible, tandis que la variance quantifie l'écart entre chaque prédiction individuelle et la prédiction moyenne. Le terme de variance est mis au carré pour ne pas tenir compte du signe et se concentrer sur la dispersion globale des prédictions autour de la moyenne.

La perte d'erreur au carré peut être représentée par (thêta - chapeau thêta) ^ 2, où thêta est la valeur réelle et thêta chapeau est la valeur prédite pour un point de données spécifique. Dans cette conférence, nous nous concentrerons sur la décomposition biais-variance de la perte d'erreur quadratique, en ne considérant que les termes de biais et de variance et en ignorant le terme de bruit.

Pour procéder à la décomposition biais-variance, nous introduisons une notation et une configuration pour le scénario. Nous considérons une vraie fonction qui génère les étiquettes (y), et nous avons une hypothèse (h) comme modèle, qui se rapproche de la vraie fonction génératrice de données. Nous utilisons y hat pour représenter une prédiction. Avec ces termes, nous pouvons exprimer la perte d'erreur au carré comme (y - y chapeau) ^ 2. Pour éviter toute confusion avec le symbole d'attente (E), nous notons l'erreur au carré par (s).

Maintenant, décomposons l'erreur quadratique en composants de biais et de variance. Pour y parvenir, nous employons une astuce mathématique consistant à insérer et à soustraire l'espérance de la prédiction. En faisant cela, nous développons l'expression quadratique et la séparons en trois termes : (y^2, -2yy hat, y hat^2).

Ensuite, nous appliquons l'espérance aux deux côtés de l'équation. L'application de l'espérance au premier terme donne y^2, qui reste inchangé puisque y est une constante. L'espérance du second terme, -2yy hat, est nulle puisque nous soustrayons la même valeur (espérance de y hat) à plusieurs reprises. Quant au troisième terme, l'espérance de y hat^2 représente la valeur moyenne des prédictions.

Après avoir appliqué l'espérance, il nous reste deux termes : le biais au carré et la variance. Le biais au carré est (y - E[y hat])^2, qui mesure la différence entre la vraie étiquette et la prédiction moyenne. La variance est E[(y hat - E[y hat])^2], quantifiant l'écart quadratique moyen des prédictions individuelles par rapport à la prédiction moyenne.

Pour démontrer l'élimination du terme -2yy hat lors de l'application de l'attente, nous décomposons les étapes. L'application de l'attente à -2yy hat donne 2E[yy hat]. En développant davantage l'expression, nous constatons que l'espérance de yy hat est égale à E[y]E[y hat] puisque y est une constante. Par conséquent, l'espérance de -2yy hat se simplifie en -2E[y]E[y hat].

En soustrayant ce terme de la ou des erreur(s) quadratique(s), on obtient :

s = y^2 - 2aa chapeau + y chapeau^2 = y^2 - 2aa chapeau + y chapeau^2 - 2E[y]E[y chapeau] + 2E[y]E[y chapeau]

Maintenant, réorganisons les termes :

s = (y - E[y chapeau])^2 + 2(E[y]E[y chapeau] - yy chapeau)

Nous pouvons encore simplifier l'expression en reconnaissant que E[y]E[y hat] est une valeur constante, notée c. Par conséquent, nous avons :

s = (y - E[y chapeau])^2 + 2(c - yy chapeau)

Enfin, concentrons-nous sur le second terme, 2(c - yy hat). Ce terme peut être décomposé comme suit :

2(c - chapeau aa) = 2c - chapeau 2aa

Le premier terme, 2c, est une constante et ne dépend pas de la prédiction y hat. Le deuxième terme, -2yy hat, représente l'interaction entre la véritable étiquette y et la prédiction y hat.

Maintenant, nous pouvons résumer la décomposition biais-variance de la perte d'erreur au carré comme suit :

s = (y - E[y chapeau])^2 + 2c - 2yy chapeau

Le premier terme, (y - E[y hat])^2, correspond au carré du biais. Il mesure l'écart entre le vrai label y et la prédiction moyenne E[y hat].

Le deuxième terme, 2c, est une constante et représente le carré du biais. Il n'est pas affecté par le choix de la prédiction y hat.

Le troisième terme, -2yy hat, représente la variance. Il capte la variabilité des prédictions individuelles y hat autour de leur moyenne E[y hat]. Elle est directement influencée par le choix de la prédiction y hat.

Par conséquent, nous pouvons conclure que la perte d'erreur au carré peut être décomposée en un terme de biais au carré, un terme de biais au carré constant et un terme de variance.

Comprendre la décomposition biais-variance nous aide à mieux comprendre le comportement d'un modèle. Un biais élevé indique un sous-ajustement, où le modèle n'est pas en mesure de capturer les modèles sous-jacents dans les données. Une variance élevée indique un surajustement, où le modèle est trop sensible aux données d'apprentissage et ne parvient pas à bien généraliser aux données invisibles.

En analysant les composants de biais et de variance, nous pouvons prendre des décisions éclairées sur la complexité du modèle, les techniques de régularisation et les stratégies de collecte de données pour optimiser les performances de nos modèles.

Dans la prochaine conférence, nous étendrons la décomposition biais-variance à la perte 0-1 et discuterons de ses implications.

8.3 Bias-Variance Decomposition of the Squared Error (L08: Model Evaluation Part 1)
8.3 Bias-Variance Decomposition of the Squared Error (L08: Model Evaluation Part 1)
  • 2020.11.04
  • www.youtube.com
In this video, we decompose the squared error loss into its bias and variance components.-------This video is part of my Introduction of Machine Learning cou...
 

8.4 Biais et variance vs sur-ajustement et sous-ajustement (L08 : évaluation du modèle, partie 1)



8.4 Biais et variance vs sur-ajustement et sous-ajustement (L08 : évaluation du modèle, partie 1)

Dans cette vidéo, mon objectif est d'établir un record pour la vidéo la plus courte de ce cours. Je veux rester concis et ne pas m'éterniser sur le sujet trop longtemps. Je n'ai que deux diapositives, donc cela ne prendra pas beaucoup de temps. Dans cette vidéo, nous allons explorer la relation entre la décomposition biais-variance et les concepts de sous-ajustement et de surajustement.

Commençons par regarder le graphique montré plus tôt dans cette conférence. Veuillez noter qu'il s'agit d'un simple croquis et non basé sur des chiffres réels. En pratique, la relation entre ces termes peut être bruyante lorsqu'il s'agit d'ensembles de données du monde réel. Le graphique illustre la perte d'erreur quadratique tracée par rapport à la capacité du modèle, qui se rapporte à sa complexité ou sa capacité à s'adapter aux données de formation.

La capacité fait référence à la capacité du modèle à s'adapter à l'ensemble de formation. Une capacité plus élevée signifie que le modèle est plus capable d'ajuster les données. Par exemple, dans les modèles paramétriques comme la régression, la capacité est souvent déterminée par le nombre de paramètres ou de termes. À mesure que la capacité augmente, l'erreur d'apprentissage diminue car un modèle plus complexe peut mieux s'adapter aux données d'apprentissage.

Cependant, avoir une faible erreur d'apprentissage ne garantit pas de bonnes performances sur les nouvelles données. Il est possible de surajuster les données d'apprentissage en les ajustant trop étroitement, ce qui peut entraîner une augmentation de l'erreur sur les nouvelles données, appelée erreur de généralisation. L'erreur de généralisation peut être estimée à l'aide d'un jeu de test indépendant. Initialement, à mesure que la capacité augmente, l'erreur de généralisation s'améliore dans une certaine mesure. Mais après avoir atteint un certain point, l'erreur recommence à augmenter, indiquant un surajustement.

L'écart entre l'erreur d'apprentissage et l'erreur de généralisation représente le degré de surajustement. À mesure que la capacité du modèle augmente, l'écart augmente car le modèle s'ajuste trop étroitement aux données, y compris le bruit dans les données. Le degré de surajustement indique à quel point le modèle surajuste les données d'apprentissage et ne parvient pas à bien généraliser aux nouvelles données.

Relions maintenant ces concepts au biais et à la variance. Dans le graphique, j'ai ajouté les termes biais et variance en rouge. Lorsque la capacité du modèle augmente, sa variance augmente également. Ceci peut être observé dans le cas des arbres de décision profonds par rapport aux arbres de décision courts. Les modèles avec une variance plus élevée sont plus sujets au surajustement. Plus la variance est élevée, plus le degré de surajustement est important, ce qui est représenté par l'écart entre l'erreur d'apprentissage et l'erreur de généralisation.

Inversement, plus la variance augmente, plus le biais diminue. Un modèle plus complexe a généralement un biais plus faible. Le graphique peut sembler montrer que le biais diminue puis augmente à nouveau, mais ce n'est que le résultat d'un mauvais dessin. En réalité, le biais diminue asymptotiquement lorsque la variance augmente lorsque la capacité du modèle augmente.

D'autre part, lorsque le modèle a une faible capacité (comme un modèle simple), il sous-ajuste les données, ce qui entraîne de mauvaises performances à la fois sur les ensembles d'apprentissage et de test. Ceci est associé à un biais élevé. Le sous-ajustement se produit lorsque le modèle est trop simpliste pour capturer les modèles sous-jacents dans les données.

Pour résumer, un biais élevé est corrélé à un sous-ajustement, tandis qu'une variance élevée est corrélée à un surajustement. Dans la vidéo suivante, nous explorerons brièvement la décomposition biais-variance de la perte 0-1, qui est plus pertinente pour les tâches de classification. Bien qu'il soit moins intuitif que de décomposer la perte d'erreur au carré, il fournit des informations sur les composants de biais et de variance dans un contexte de classification.

8.4 Bias and Variance vs Overfitting and Underfitting (L08: Model Evaluation Part 1)
8.4 Bias and Variance vs Overfitting and Underfitting (L08: Model Evaluation Part 1)
  • 2020.11.04
  • www.youtube.com
This brief video discusses the connection between bias & variance and overfitting & underfitting.-------This video is part of my Introduction of Machine Lear...
 

8.5 Décomposition biais-variance de la perte 0/1 (L08 : évaluation du modèle, partie 1)


8.5 Décomposition biais-variance de la perte 0/1 (L08 : évaluation du modèle, partie 1)

Dans cette discussion, nous avons approfondi la décomposition biais-variance de la perte d'erreur au carré et sa relation avec le surajustement et le sous-ajustement. Maintenant, nous allons nous concentrer sur la décomposition biais-variance de la perte 0/1, qui est un peu plus complexe en raison de sa nature par morceaux. La perte 0/1 attribue une valeur de 0 si la véritable étiquette correspond à l'étiquette prédite, et 1 sinon. L'analyse de cette fonction de perte est plus délicate car ce n'est pas une fonction continue.

Pour explorer la décomposition biais-variance dans le contexte de la perte 0/1, nous nous référerons aux travaux de Pedro Domingo et Common Dieterich. L'article de Pedro Domingo, "The Unified Bias Variance Decomposition", visait à unifier diverses décompositions biais-variance liées à la perte 0/1. Plusieurs auteurs ont proposé différentes décompositions, mais chacune d'elles présente des lacunes importantes.

Dans ce cours, nous nous concentrerons principalement sur l'intuition derrière le pont entre la décomposition biais-variance et la perte 0/1. Nous discuterons brièvement des travaux de combinatoire de 1995 et de l'explication de Pedro Domingo sur ces travaux. Pour une compréhension plus détaillée, vous pouvez vous référer aux articles référencés.

Commençons par revoir la perte d'erreur au carré, que nous avons définie comme la différence au carré entre la valeur réelle et la valeur prédite. Auparavant, nous avons examiné l'espérance de cette perte sur différents ensembles d'apprentissage et l'avons décomposée en termes de biais et de variance. Maintenant, nous allons introduire une notation généralisée utilisant la fonction L pour représenter la perte et prendre l'espérance de cette fonction.

Lors de l'examen de la décomposition biais-variance de la perte d'erreur au carré, nous l'avons décomposée en termes de biais et de variance. Le terme de biais, noté Bias(Y), représente la différence entre la véritable étiquette (Y) et la prédiction moyenne (E[Y_hat]). Le terme de variance, noté Var(Y_hat), mesure la variabilité des prédictions autour de la prédiction moyenne. Ces termes capturent dans quelle mesure les prédictions s'écartent de la véritable étiquette et dans quelle mesure elles se dispersent, respectivement.

Maintenant, nous allons définir un nouveau terme appelé prédiction principale. Dans le cas de la perte d'erreur quadratique, la prédiction principale est la prédiction moyenne sur différents ensembles d'apprentissage. Cependant, lorsqu'il s'agit de la perte 0/1, la prédiction principale est obtenue en prenant le mode des prédictions, c'est-à-dire la prédiction la plus fréquente. Cette distinction est cruciale pour comprendre la décomposition biais-variance dans le contexte de la classification.

Explorons comment le biais et la variance peuvent être définis en termes de perte 0/1. Nous nous référerons à la version nettoyée de la diapositive précédente. A droite, nous introduisons le terme de biais. Dans les articles de Kong et Dieterich, le biais est défini comme 1 si la prédiction principale (E[Y_hat]) n'est pas égale à la vraie étiquette (Y), et 0 sinon. Cette définition indique si la prédiction principale correspond ou non à la véritable étiquette.

Ensuite, concentrons-nous sur le cas où le biais est nul, indiquant que la prédiction principale correspond à la véritable étiquette. Dans ce scénario, la perte est égale à la variance. Par définition, la perte représente la probabilité que la prédiction ne corresponde pas à la véritable étiquette. Ainsi, nous pouvons interpréter la variance comme la probabilité que la prédiction (Y_hat) ne soit pas égale à la prédiction principale (E[Y_hat]). Cette probabilité reflète la variabilité des prédictions lorsque le biais est nul.

Maintenant, plongeons dans le cas où le biais est un, ce qui est un peu plus compliqué. Nous commençons par réécrire la perte comme un moins la probabilité que la prédiction corresponde à la véritable étiquette. Cela équivaut à un moins la précision. Nous considérerons deux aspects : lorsque Y n'est pas égal à la prédiction principale et lorsque Y est égal à la prédiction principale.

Lorsque Y n'est pas égal à la prédiction principale, la perte est égale à un, indiquant une mauvaise classification. Dans ce cas, le terme de variance ne contribue pas à la perte car la prédiction principale est différente de la véritable étiquette et la variabilité des prédictions n'est pas pertinente. La totalité de la perte peut être attribuée au terme de biais, qui capture le fait que la prédiction principale ne correspond pas à la véritable étiquette.

D'autre part, lorsque Y est égal à la prédiction principale, la perte est égale à un moins la probabilité que toutes les autres prédictions soient différentes de la prédiction principale. Cette probabilité représente la variabilité des prédictions lorsque le biais est de un. Par conséquent, le terme de variance tient compte de la perte dans ce cas, reflétant l'incertitude des prédictions autour de la prédiction principale.

Pour résumer, dans la décomposition biais-variance de la perte 0/1, le terme de biais capture l'erreur de classification erronée lorsque la prédiction principale ne correspond pas à la véritable étiquette. Le terme de variance tient compte de la variabilité des prédictions lorsque la prédiction principale correspond à la vraie étiquette.

Il est important de noter que la décomposition biais-variance pour la perte 0/1 est plus nuancée et complexe par rapport à la perte d'erreur au carré en raison de la nature discrète de la fonction de perte. Les termes de biais et de variance sont définis sur la base du concept de prédiction principale et capturent différents aspects de la performance de la classification.

Comprendre le compromis biais-variance dans le contexte de la perte 0/1 est crucial pour évaluer et améliorer les modèles de classification. En analysant les composants de biais et de variance, nous pouvons mieux comprendre les sources d'erreur et prendre des décisions éclairées pour atténuer les problèmes de sous-ajustement ou de surajustement.

Si vous êtes intéressé par une exploration plus détaillée de la décomposition biais-variance pour la perte 0/1, je vous recommande de lire l'article de Pedro Domingo "The Unified Bias Variance Decomposition" et les travaux connexes de Kong et Dieterich. Ces articles fournissent des explications approfondies et des formalismes mathématiques pour la décomposition.

Le compromis biais-variance est un concept fondamental de l'apprentissage automatique qui concerne la capacité du modèle à trouver un équilibre entre le sous-ajustement et le surajustement. Le terme de biais représente l'erreur due aux hypothèses ou aux simplifications du modèle, conduisant à un scénario de sous-ajustement dans lequel le modèle est trop simple pour capturer les modèles sous-jacents dans les données. D'autre part, le terme de variance représente l'erreur due à la sensibilité du modèle aux petites fluctuations des données d'apprentissage, ce qui entraîne un scénario de surajustement dans lequel le modèle est trop complexe et capture le bruit plutôt que des modèles généralisables.

Dans le cas de la perte 0/1, le terme de biais capture l'erreur de classification erronée lorsque la prédiction principale est différente de la véritable étiquette. Un biais élevé indique que le modèle fait constamment des prédictions incorrectes et est incapable de capturer les vrais modèles sous-jacents dans les données. Cela se produit souvent lorsque le modèle est trop simple ou n'a pas la complexité nécessaire pour saisir la complexité du problème.

Le terme de variance, quant à lui, capture la variabilité des prédictions lorsque la prédiction principale correspond à la véritable étiquette. Il reflète la sensibilité du modèle à différents échantillons de données d'apprentissage et l'instabilité de ses prédictions. Une variance élevée indique que le modèle est trop sensible aux petits changements dans les données d'apprentissage et qu'il est probablement surajusté. Cela signifie que le modèle peut bien fonctionner sur les données de formation mais ne parvient pas à généraliser aux données invisibles.

Idéalement, nous voulons trouver un modèle qui atteint un équilibre entre le biais et la variance, minimisant les deux types d'erreurs. Cependant, il y a souvent un compromis entre les deux. La diminution du biais peut augmenter la variance et vice versa. C'est ce qu'on appelle le compromis biais-variance.

Pour trouver le bon équilibre, différentes techniques peuvent être employées. Les méthodes de régularisation, telles que la régularisation L1 ou L2, peuvent aider à réduire la complexité du modèle et à contrôler la variance. La validation croisée peut être utilisée pour évaluer les performances du modèle sur différents sous-ensembles de données et identifier un surajustement potentiel. Les méthodes d'ensemble, comme le bagging ou le boosting, peuvent également être utilisées pour réduire la variance en combinant plusieurs modèles.

Comprendre le compromis biais-variance est crucial pour la sélection du modèle et le réglage des hyperparamètres. Il nous permet d'évaluer les performances de généralisation du modèle et de prendre des décisions éclairées pour améliorer sa précision et sa fiabilité.

8.5 Bias-Variance Decomposition of the 0/1 Loss (L08: Model Evaluation Part 1)
8.5 Bias-Variance Decomposition of the 0/1 Loss (L08: Model Evaluation Part 1)
  • 2020.11.05
  • www.youtube.com
This video discusses the tricky topic of decomposing the 0/1 loss into bias and variance terms.-------This video is part of my Introduction of Machine Learni...
 

8.6 Différentes utilisations du terme « biais » (L08 : Modèle d'évaluation, partie 1)



8.6 Différentes utilisations du terme « biais » (L08 : Modèle d'évaluation, partie 1)

La conférence n'était pas particulièrement passionnante car elle abordait le sujet de la décomposition des biais et de la variance dans l'apprentissage automatique. L'orateur a reconnu la lourdeur du sujet. Cependant, il y avait un dernier point important que l'orateur voulait aborder concernant les différentes formes de biais dans l'apprentissage automatique.

Le terme "biais d'apprentissage automatique" a été expliqué comme un terme surchargé, ce qui signifie qu'il est utilisé pour désigner différentes choses dans différents contextes. Dans un précédent cours d'apprentissage automatique enseigné par le conférencier, l'unité de biais et les réseaux de neurones ont été discutés, mais cela était différent du biais statistique discuté dans cette conférence. Dans le contexte de l'apprentissage automatique, le biais fait référence aux préférences ou aux restrictions de l'algorithme d'apprentissage automatique, également connu sous le nom de biais inductif.

L'orateur a donné un exemple d'algorithme d'arbre de décision pour illustrer le biais inductif. Les arbres de décision favorisent les petits arbres par rapport aux grands arbres. Si deux arbres de décision ont les mêmes performances sur un ensemble d'apprentissage, l'algorithme préférera l'arbre le plus petit et arrêtera de développer l'arbre si aucune amélioration ne peut être apportée. Cette préférence pour les arbres plus petits est un exemple de biais inductif affectant un algorithme d'arbre de décision.

L'orateur a fait référence à un article de Dieterich et Khan qui oppose le biais d'apprentissage automatique au biais statistique. Les biais appropriés et inappropriés ont été discutés par rapport au biais absolu. Les biais inappropriés ne contiennent aucune bonne approximation de la fonction cible, ce qui signifie que l'algorithme n'est pas bien adapté au problème. D'autre part, des biais appropriés permettent de bonnes approximations de la fonction cible.

Le biais relatif a été décrit comme étant trop fort ou trop faible. Un biais trop fort peut ne pas exclure de bonnes approximations mais préférer des hypothèses plus faibles à la place. A l'inverse, un biais trop faible considère trop d'hypothèses, conduisant potentiellement à un surajustement.

Le conférencier a partagé un exemple d'étude de simulation impliquant des modèles d'arbre de décision pour démontrer l'interaction entre le biais et la variance. L'étude a évalué le taux d'erreur moyen et a constaté que certaines erreurs étaient dues à un biais tandis que d'autres étaient dues à la variance.

Un autre type important de biais discuté était le biais d'équité, qui fait référence aux disparités démographiques dans les systèmes algorithmiques qui sont répréhensibles pour des raisons sociétales. Les modèles d'apprentissage automatique peuvent traiter certaines données démographiques de manière injuste, et ce biais peut provenir d'ensembles de données déséquilibrés ou d'autres facteurs. L'orateur a recommandé de se référer au Fair ML Book pour plus d'informations sur l'équité dans l'apprentissage automatique.

L'orateur a brièvement mentionné un projet sur lequel ils ont travaillé impliquant de cacher des informations biométriques douces à partir d'images de visage tout en maintenant la précision de la correspondance. L'objectif était de protéger la vie privée en empêchant les algorithmes d'extraire des informations de genre à partir d'images de visage. L'orateur a évalué les performances de leur système et des algorithmes commerciaux d'appariement des visages, notant des biais dans le classificateur de genre binaire du logiciel commercial basé sur la couleur de la peau.

L'orateur a souligné l'importance de minimiser les biais et d'être conscient de la façon dont les classificateurs fonctionnent sur différentes données démographiques. Ils ont souligné la nécessité de techniques telles que le suréchantillonnage pour éliminer les biais et garantir des résultats plus équitables.

La conférence a couvert diverses formes de biais dans l'apprentissage automatique, notamment le biais inductif, le biais statistique et le biais d'équité. Les exemples et les discussions ont mis en lumière les défis et les considérations impliqués dans l'atténuation des biais et la promotion de l'équité dans les algorithmes d'apprentissage automatique.

8.6 Different Uses of the Term "Bias" (L08: Model Evaluation Part 1)
8.6 Different Uses of the Term "Bias" (L08: Model Evaluation Part 1)
  • 2020.11.05
  • www.youtube.com
This video discusses the different uses of the term "bias" in machine learning by introducing the concepts of machine learning bias and fairness bias.-------...
 

9.1 Introduction (L09 Model Eval 2 : Intervalles de confiance)



9.1 Introduction (L09 Model Eval 2 : Intervalles de confiance)

Bonjour à tous! Aujourd'hui, nous avons une conférence très engageante et informative à venir. Contrairement à la conférence précédente, qui abordait le sujet plutôt sec de la configuration et de la décomposition biais-variance, cette session promet d'être plus passionnante. Nous discuterons de diverses techniques de rééchantillonnage et effectuerons des simulations sur différents ensembles de données pour observer comment le rééchantillonnage affecte la formation des algorithmes. En divisant un ensemble de données en ensembles d'apprentissage et de test, nous réduisons la taille d'apprentissage disponible, ce qui a un impact potentiel sur les performances du modèle.

De plus, nous explorerons les intervalles de confiance et différentes méthodes pour les construire. Cela comprend l'utilisation d'intervalles d'approximation normaux et de diverses techniques d'amorçage. Les intervalles de confiance ont gagné en importance dans l'apprentissage automatique, les récentes soumissions d'articles nécessitant leur inclusion. Les examinateurs prennent également les intervalles de confiance plus au sérieux maintenant. Ils fournissent une attente dans le domaine et s'avèrent utiles non seulement pour les examinateurs, mais également pour les autres lecteurs examinant vos modèles.

Maintenant, plongeons dans les sujets de conférence. Nous commencerons par une introduction, suivie de la méthode d'exclusion pour l'évaluation du modèle. Ensuite, nous explorerons comment la méthode d'exclusion peut être utilisée pour la sélection de modèles. À l'avenir, nous nous plongerons dans la construction d'intervalles de confiance à l'aide de différentes techniques, en commençant par l'intervalle d'approximation normal.

Les méthodes de rééchantillonnage seront également au centre des préoccupations. Nous analyserons la méthode d'exclusion répétée, où la méthode d'exclusion est appliquée aux versions rééchantillonnées de l'ensemble d'apprentissage. De plus, nous examinerons les intervalles de confiance empiriques, qui reposent sur des techniques de rééchantillonnage. Ici, nous rencontrerons la technique de bootstrap familière discutée dans la conférence sur le modèle d'ensachage et d'ensemble.

Une fois que nous aurons compris comment créer des intervalles de confiance empiriques à l'aide de la méthode du bootstrap, nous explorerons deux versions améliorées : le bootstrap au point 632 et le bootstrap au point 632 plus. Il est important de noter le contexte de cette conférence dans le cadre plus large de l'évaluation des modèles. Nous n'introduirons pas de nouveaux algorithmes d'apprentissage automatique, mais nous nous concentrerons plutôt sur les techniques essentielles pour comparer et sélectionner des modèles.

Ces techniques sont cruciales car il est difficile de déterminer quel algorithme d'apprentissage automatique fonctionne bien sur un ensemble de données donné. Nous avons souvent besoin d'essayer et de comparer de nombreux algorithmes pour trouver celui qui est le plus performant. De plus, l'évaluation des performances des modèles est essentielle pour le développement d'applications telles que la reconnaissance d'images sur les iPhones, où la prédiction précise des étiquettes d'image est cruciale.

Outre l'estimation des performances de généralisation pour les données invisibles, nous comparons également différents modèles. En utilisant le même algorithme et le même ensemble d'apprentissage, nous pouvons obtenir plusieurs modèles avec différents paramètres d'hyperparamètres. Nous comparons ces modèles pour sélectionner le meilleur. De plus, nous pouvons utiliser différents algorithmes et souhaiter évaluer leurs performances sur des types de données spécifiques, tels que des images ou du texte.

Pour sélectionner le meilleur modèle, nous pouvons soit estimer avec précision les performances de généralisation absolues, soit classer les modèles sans valeurs de performances absolues. Cette dernière approche permet d'éviter les biais introduits lors de l'utilisation répétée du même ensemble de tests. Un système de classement nous permet de sélectionner le meilleur modèle sans nous fier à des estimations précises des performances de généralisation.

Dans les conférences à venir, nous aborderons les techniques de validation croisée, les tests statistiques pour l'évaluation des modèles et les mesures d'évaluation au-delà de la précision, telles que les courbes de précision, de rappel et de caractéristique de fonctionnement du récepteur (ROC).

Ces conférences sont essentielles car elles fournissent les moyens de comparer différents algorithmes d'apprentissage automatique et de sélectionner le modèle le plus approprié. Bien qu'ils n'introduisent pas de nouveaux algorithmes, ils offrent des informations et des techniques pratiques pour évaluer les performances des modèles.

En résumé, notre conférence d'aujourd'hui couvrira les techniques de rééchantillonnage, les intervalles de confiance et leur pertinence dans l'apprentissage automatique. À la fin de cette série de conférences, vous aurez une compréhension complète de l'évaluation des modèles et des outils nécessaires pour prendre des décisions éclairées en apprentissage automatique. Commençons notre exploration de ces sujets!

9.1 Introduction (L09 Model Eval 2: Confidence Intervals)
9.1 Introduction (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.11
  • www.youtube.com
This first video goes over the contents being covered in L09 (issues with the holdout method, resampling methods, and confidence intervals). Then, it introdu...
 

9.2 Évaluation Hold-out (L09 Model Eval 2 : Intervalles de confiance)



9.2 Évaluation Hold-out (L09 Model Eval 2 : Intervalles de confiance)

Dans cette vidéo, nous discuterons de la méthode d'exclusion pour l'évaluation du modèle. Bien que cette méthode ne soit pas nouvelle, il y a des aspects intéressants que nous n'avons pas explorés auparavant. La méthode d'exclusion consiste à diviser l'ensemble de données en un ensemble d'apprentissage et un ensemble de test. L'ensemble d'apprentissage est utilisé pour former ou ajuster le modèle, tandis que l'ensemble de test est utilisé pour évaluer les performances du modèle.

Cependant, il y a quelques considérations à garder à l'esprit. Premièrement, l'erreur de l'ensemble d'apprentissage est une estimation biaisée de manière optimiste de l'erreur de généralisation. Cela signifie que l'erreur d'apprentissage peut ne pas estimer de manière fiable les performances du modèle, car il pourrait surajuster les données d'apprentissage. D'autre part, l'ensemble de test fournit une estimation non biaisée de l'erreur de généralisation s'il est indépendant de l'ensemble d'apprentissage. Cependant, d'un point de vue conceptuel, l'ensemble de test peut être biaisé de manière pessimiste. Ce biais survient parce que lorsque nous divisons l'ensemble de données en ensembles d'apprentissage et de test, nous perdons des données précieuses. Même avec un petit ensemble de données, la suppression de 30 % des données pour l'évaluation peut avoir un impact significatif sur les performances du modèle.

Pour illustrer ce propos, prenons un exemple simple. Imaginez que nous ayons un ensemble de données composé de seulement 10 points de données. Si nous supprimons 30 % des données pour l'évaluation, le modèle sera formé sur seulement 70 % des données. Ces données d'entraînement limitées peuvent entraîner une diminution des performances du modèle, car les modèles d'apprentissage automatique bénéficient généralement de plus de données. Si nous traçons une courbe d'apprentissage, nous observons généralement qu'à mesure que la taille de l'ensemble de données augmente, les performances de généralisation s'améliorent. Par conséquent, retenir une partie importante des données pour l'évaluation peut aggraver le modèle.

Malgré cet inconvénient, l'évaluation du modèle est nécessaire. Dans le milieu universitaire, nous rapportons généralement les performances de l'ensemble de test et considérons que notre tâche est terminée. Cependant, dans l'industrie, nous formons souvent le modèle sur l'ensemble de données après l'avoir évalué sur l'ensemble de test. Cela nous permet de rendre compte avec précision des performances du modèle aux parties prenantes, telles que les chefs de projet. Mais la formation sur l'ensemble de données complet peut entraîner un biais pessimiste dans l'estimation des performances de l'ensemble de tests. Par exemple, si le modèle atteint une précision de 95 % sur l'ensemble de test, l'entraînement sur l'ensemble de données complet peut améliorer les performances du modèle à 96 %. Dans ce cas, l'estimation initiale d'une précision de 95 % est biaisée de manière pessimiste.

L'utilisation de la méthode holdout seule n'est pas toujours idéale. Il a des limites, comme ne pas tenir compte de la variance dans les données de formation. Lorsque nous divisons les données de manière aléatoire, différentes divisions peuvent entraîner des performances variables du modèle. Cette variabilité rend l'estimation de l'ensemble de test moins fiable car elle ne fournit qu'une estimation ponctuelle. De plus, la méthode d'exclusion ne tient pas compte de la possibilité d'un biais optimiste lorsque l'ensemble de test est utilisé plusieurs fois pour ajuster et comparer des modèles.

Pour mieux comprendre l'impact des biais, considérons le concept de biais pessimiste. En termes de sélection de modèles, un biais pessimiste de 10 % n'affecte pas le classement des modèles en fonction de la précision des prédictions. Supposons que nous ayons trois modèles : h2, h1 et h3. Même si toutes les estimations de précision sont biaisées de manière pessimiste de 10 %, le classement reste le même. L'objectif de la sélection des modèles est de choisir le meilleur modèle disponible, et un biais pessimiste constant dans tous les modèles ne modifie pas le classement relatif.

De même, il peut y avoir des cas où l'erreur de l'ensemble de test est biaisée de manière optimiste. Cela se produit lorsque le même ensemble de test est utilisé plusieurs fois pour régler et comparer différents modèles. L'utilisation répétée de l'ensemble de test peut entraîner un biais du survivant, où seuls les modèles qui fonctionnent bien sur l'ensemble de test sont pris en compte. Un exemple de ceci est le "Do CIFAR-10 classifiers generalize to CIFAR-10?" article, qui examine les biais de surajustement et d'optimisme chez les classificateurs formés et évalués sur l'ensemble de données d'images CIFAR-10.

En conclusion, bien que la méthode d'exclusion soit une approche couramment utilisée pour l'évaluation des modèles, elle a ses limites et ses biais potentiels. Pour surmonter ces limitations, des techniques alternatives ont été développées, telles que la validation croisée et le bootstrap.

La validation croisée est une méthode qui consiste à diviser l'ensemble de données en plusieurs sous-ensembles ou plis. Le modèle est formé sur une combinaison de ces plis et évalué sur le pli restant. Ce processus est répété plusieurs fois, chaque pli servant de jeu de test une fois. La validation croisée fournit une évaluation plus complète des performances du modèle car elle utilise différents sous-ensembles de données pour la formation et les tests. Il permet d'atténuer l'impact des fractionnements de données aléatoires et fournit une estimation plus fiable des performances de généralisation du modèle.

Le bootstrapping est une autre technique de rééchantillonnage qui répond aux limites de la méthode holdout. Cela implique un échantillonnage aléatoire de l'ensemble de données avec remplacement pour créer plusieurs échantillons bootstrap. Chaque échantillon bootstrap est utilisé comme ensemble d'apprentissage et les données restantes sont utilisées comme ensemble de test. En échantillonnant à plusieurs reprises avec remplacement, le bootstrap génère plusieurs fractionnements d'entraînement-test, permettant une évaluation plus robuste des performances du modèle.

La validation croisée et le bootstrap aident à atténuer les biais associés à la méthode d'exclusion. Ils fournissent des estimations plus fiables des performances du modèle en utilisant plus efficacement les données disponibles et en tenant compte de la variabilité des fractionnements entraînement-test.

Bien que la méthode d'exclusion soit une approche simple pour l'évaluation du modèle, elle présente des limites et des biais potentiels. Pour atténuer ces problèmes, des techniques telles que la validation croisée et le bootstrap offrent des estimations plus robustes et fiables des performances du modèle. Il est important de considérer ces méthodes alternatives en fonction des exigences et des contraintes spécifiques du problème à résoudre.

9.2 Holdout Evaluation (L09 Model Eval 2: Confidence Intervals)
9.2 Holdout Evaluation (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.11
  • www.youtube.com
The second video talks about using a test set for estimating the generalization performance of a model. Technically, an independent test set can provide an u...
 

9.3 Sélection du modèle d'exclusion (évaluation du modèle L09 2 : intervalles de confiance)



9.3 Sélection du modèle d'exclusion (évaluation du modèle L09 2 : intervalles de confiance)

Dans la vidéo précédente, nous avons discuté de la méthode d'exclusion pour l'évaluation du modèle. Maintenant, nous allons explorer comment nous pouvons modifier cette méthode pour la sélection du modèle. Pour récapituler, dans la vidéo précédente, nous avons divisé l'ensemble de données en un ensemble d'apprentissage et un ensemble de test. Nous avons formé un modèle sur l'ensemble de formation à l'aide d'un algorithme d'apprentissage automatique et de paramètres d'hyperparamètres fixes. Ensuite, nous avons évalué le modèle sur le jeu de test. De plus, nous adaptons éventuellement le modèle à l'ensemble de données complet pour exploiter davantage de données, dans l'espoir d'améliorer les performances.

Maintenant, nous visons à utiliser la méthode holdout pour la sélection du modèle, qui est étroitement liée au réglage des hyperparamètres. La sélection du modèle consiste à choisir le meilleur modèle parmi différents paramètres d'hyperparamètres. Dans le processus de réglage des hyperparamètres, nous générons plusieurs modèles, chacun correspondant à un paramètre d'hyperparamètre spécifique. La sélection du modèle nous aide à identifier le modèle avec le réglage d'hyperparamètre optimal.

Pour expliquer la méthode d'exclusion modifiée pour la sélection de modèle, décomposons les étapes. Tout d'abord, au lieu de diviser l'ensemble de données en un ensemble d'apprentissage et de test, nous le divisons en trois ensembles : un ensemble d'apprentissage, un ensemble de validation et un ensemble de test. Cette séparation nous permet d'avoir un jeu de données indépendant, le jeu de validation, pour la sélection du modèle.

Ensuite, nous considérons différents paramètres d'hyperparamètres et ajustons plusieurs modèles à l'aide des données d'apprentissage. Par exemple, nous pouvons utiliser un algorithme K-plus proche voisin avec des valeurs d'hyperparamètres de k = 3, k = 5 et k = 7, ce qui donne trois modèles.

L'étape de sélection des modèles consiste à évaluer ces modèles à l'aide de l'ensemble de validation. Étant donné que les modèles peuvent suradapter aux données d'apprentissage, il n'est pas approprié de sélectionner le meilleur modèle. Par conséquent, nous nous appuyons sur l'ensemble de validation indépendant pour évaluer les modèles. Nous calculons des métriques de performance, telles que la précision des prédictions, pour chaque modèle et sélectionnons celui qui offre les meilleures performances comme modèle optimal, correspondant aux meilleurs paramètres d'hyperparamètres.

Cependant, l'utilisation de l'ensemble de validation plusieurs fois pour la sélection du modèle peut introduire un biais, similaire au problème que nous avons rencontré avec l'ensemble de test dans la vidéo précédente. Pour obtenir une estimation impartiale des performances du modèle, nous réservons un jeu de test indépendant. Après avoir sélectionné le meilleur modèle, nous évaluons ses performances sur l'ensemble de test et rapportons les résultats.

Facultativement, avant l'évaluation finale, nous pouvons réajuster le modèle en utilisant les données combinées de formation et de validation. Cette étape exploite davantage de données pour potentiellement améliorer les performances du modèle. Enfin, nous évaluons le modèle final sur l'ensemble de test indépendant et rapportons ses performances. Bien que nous n'ayons pas d'ensemble de test pour évaluer davantage le modèle équipé des données combinées, on s'attend généralement à ce qu'il soit meilleur en raison de la quantité accrue de données.

En pratique, la méthode retenue pour la sélection du modèle peut varier et toutes les étapes ne sont pas strictement suivies. Certains praticiens évaluent directement le modèle sélectionné sur l'ensemble de test sans se recycler sur les données combinées. Néanmoins, l'idée clé est d'avoir des ensembles de données séparés pour la formation, la validation et les tests afin d'assurer une estimation impartiale des performances et de faciliter la sélection du meilleur modèle.

Dans la prochaine vidéo, nous approfondirons le concept d'intervalles de confiance.

9.3 Holdout Model Selection (L09 Model Eval 2: Confidence Intervals)
9.3 Holdout Model Selection (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.12
  • www.youtube.com
After discussing the holdout method for model evaluation in the previous video, this video covers the holdout method for model selection (aka hyperparameter ...
 

9.4 Intervalles de confiance ML par approximation normale (L09 Model Eval 2 : Intervalles de confiance)



9.4 Intervalles de confiance ML par approximation normale (L09 Model Eval 2 : Intervalles de confiance)

Dans cette vidéo, nous nous concentrons sur les intervalles de confiance, en particulier pour estimer l'erreur de classification ou la précision de la classification à partir d'un ensemble de tests. Nous utiliserons la méthode d'approximation normale, qui est l'approche la plus simple. Cependant, nous discuterons également de meilleures méthodes basées sur le rééchantillonnage dans les prochaines vidéos.

Actuellement, nous sommes dans la section de base, explorant les intervalles de confiance en utilisant la méthode d'approximation normale. Dans les vidéos suivantes, nous approfondirons différentes techniques de rééchantillonnage, en commençant par la méthode d'exclusion répétée, puis en passant à des méthodes telles que le bootstrap pour construire des intervalles de confiance empiriques, qui sont plus efficaces lorsqu'il s'agit de petits ensembles de données couramment rencontrés dans l'apprentissage automatique traditionnel.

Commençons par discuter de la distribution binomiale, que vous connaissez peut-être déjà dans d'autres classes de statistiques. La distribution binomiale fournit le nombre de succès, avec les paramètres n et p, représentant respectivement le nombre d'essais et la probabilité de succès. La moyenne de la distribution binomiale est donnée par n fois p. Par exemple, si nous avons 100 essais avec une probabilité de réussite de 33 %, la moyenne serait de 30.

Dans la figure de gauche, vous pouvez voir la fonction de densité de probabilité de la distribution binomiale pour différentes valeurs de p et n. Cette fonction de densité illustre la probabilité de différents nombres de succès. De plus, la variance de la distribution binomiale est calculée comme n fois p fois (1 - p), que nous utiliserons plus tard. Prenez un moment pour vous familiariser avec ce modèle.

Maintenant, connectons la distribution binomiale à l'apprentissage automatique. Nous pouvons considérer la défaite 0-1 comme un essai de Bernoulli, où nous avons deux possibilités : un classement correct (succès) et un classement incorrect (échec). Nous pouvons considérer une classification incorrecte comme un succès et une classification correcte comme un échec. Cette perspective s'aligne sur le concept de pile et face dans un tirage au sort. Pour estimer la probabilité de succès (c'est-à-dire une classification incorrecte), nous pouvons la calculer empiriquement en effectuant un grand nombre d'essais et en comptant le nombre de succès divisé par le nombre total d'essais. Le nombre moyen de succès est n fois p, ce qui correspond à la moyenne de la distribution binomiale.

La relation entre la perte 0-1 et la distribution binomiale nous aide à comprendre la notion d'erreur dans l'apprentissage automatique. Nous pouvons considérer la perte 0-1 comme un essai de Bernoulli et la véritable erreur comme la probabilité de prédictions correctes. Pour estimer l'erreur vraie, nous utilisons un ensemble de tests et calculons la proportion de prédictions incorrectes. Cette proportion représente l'erreur de classification, qui peut ensuite être divisée par la taille de l'ensemble de test pour obtenir une valeur comprise entre zéro et un.

Lors de la construction des intervalles de confiance, nous utilisons les mêmes méthodes que celles employées dans les intervalles de confiance à un échantillon d'autres classes statistiques. Un intervalle de confiance est un intervalle censé contenir le paramètre d'intérêt avec une certaine probabilité. Le niveau de confiance le plus courant est de 95 %, mais d'autres niveaux tels que 90 % ou 99 % peuvent également être utilisés. Le choix du niveau de confiance détermine la largeur de l'intervalle, des niveaux plus élevés entraînant des intervalles plus larges.

Pour définir formellement un intervalle de confiance, nous considérons plusieurs échantillons tirés à plusieurs reprises de la distribution supposée. Dans notre cas, nous supposons une distribution normale. Lors de la construction d'un intervalle de confiance à 95 % à l'aide de cette méthode, si nous devions construire un nombre infini d'intervalles basés sur un nombre infini d'échantillons, nous nous attendrions à ce que 95 % de ces intervalles contiennent le vrai paramètre.

Vous vous demandez peut-être pourquoi nous supposons que les données peuvent être tirées d'une distribution normale. La raison en est que la distribution binomiale ressemble à une distribution normale lorsque le nombre d'essais est important. Même pour un nombre relativement faible d'essais, les données présentent déjà une forme similaire à une distribution normale standard. C'est pourquoi nous utilisons l'approximation normale

méthode de construction des intervalles de confiance dans ce cas.

Plongeons maintenant dans les détails de la construction d'un intervalle de confiance pour l'erreur de classification à l'aide de la méthode d'approximation normale. Tout d'abord, nous devons calculer l'écart type de la distribution binomiale. Comme mentionné précédemment, la variance de la distribution binomiale est donnée par n fois p fois (1 - p). Par conséquent, l'écart type est la racine carrée de la variance.

Ensuite, nous déterminons le z-score correspondant au niveau de confiance souhaité. Le score z représente le nombre d'écarts types par rapport à la moyenne de la distribution normale standard. Pour un niveau de confiance de 95 %, le score z est d'environ 1,96. La formule générale pour calculer le score z est (x - μ) / σ, où x est le niveau de confiance souhaité, μ est la moyenne et σ est l'écart type.

Pour construire l'intervalle de confiance, nous commençons par le taux d'erreur estimé à partir de l'ensemble de test, qui représente notre estimation ponctuelle. Ensuite, nous soustrayons et ajoutons le produit du score z et de l'écart type de l'estimation ponctuelle. Cela nous donne respectivement les bornes inférieure et supérieure de l'intervalle de confiance. L'intervalle résultant représente la plage de valeurs dans laquelle nous nous attendons à ce que la véritable erreur de classification tombe avec le niveau de confiance spécifié.

Il est important de noter que la méthode d'approximation normale suppose que le nombre d'essais (taille de l'ensemble de test) est suffisamment grand. Si l'ensemble de test est petit, cette approximation peut ne pas être précise. Dans de tels cas, les méthodes de rééchantillonnage telles que le bootstrap peuvent fournir des intervalles de confiance plus fiables.

En résumé, la construction d'intervalles de confiance pour l'erreur de classification à l'aide de la méthode d'approximation normale implique les étapes suivantes :

  1. Calculez l'écart type de la distribution binomiale à l'aide de la formule sqrt(n * p * (1 - p)).
  2. Déterminez le score z correspondant au niveau de confiance souhaité.
  3. Calculez les limites inférieure et supérieure de l'intervalle de confiance en soustrayant et en ajoutant le produit du score z et l'écart type de l'estimation ponctuelle, respectivement.

Gardez à l'esprit que dans les vidéos suivantes, nous explorerons des méthodes plus avancées basées sur des techniques de rééchantillonnage, qui sont particulièrement utiles pour les petits ensembles de données. Ces méthodes fournissent des intervalles de confiance empiriques et sont souvent plus précises que la méthode d'approximation normale.

9.4 ML Confidence Intervals via Normal Approximation (L09 Model Eval 2: Confidence Intervals)
9.4 ML Confidence Intervals via Normal Approximation (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.12
  • www.youtube.com
This video talks about the simplest way for making confidence intervals for machine learning classifiers using the test set performance: normal approximation...
Raison: