Redes Neurais em IA e Deep Learning - página 71

 

8.6 Diferentes usos del término "sesgo" (L08: evaluación del modelo, parte 1)



8.6 Diferentes usos del término "sesgo" (L08: evaluación del modelo, parte 1)

La conferencia no fue particularmente emocionante, ya que profundizó en el tema de la descomposición del sesgo y la varianza en el aprendizaje automático. El orador reconoció lo tedioso del tema. Sin embargo, había un último punto importante que el orador quería abordar con respecto a las diferentes formas de sesgo en el aprendizaje automático.

El término "sesgo de aprendizaje automático" se explicó como un término sobrecargado, lo que significa que se usa para referirse a diferentes cosas en diferentes contextos. En un curso anterior de aprendizaje automático impartido por el orador, se discutieron la unidad de sesgo y las redes neuronales, pero eso era diferente del sesgo estadístico discutido en esta lección. En el contexto del aprendizaje automático, el sesgo se refiere a las preferencias o restricciones del algoritmo de aprendizaje automático, también conocido como sesgo inductivo.

El orador dio un ejemplo de un algoritmo de árbol de decisión para ilustrar el sesgo inductivo. Los árboles de decisión favorecen a los árboles más pequeños sobre los árboles más grandes. Si dos árboles de decisión tienen el mismo rendimiento en un conjunto de entrenamiento, el algoritmo preferirá el árbol más pequeño y dejará de hacer crecer el árbol si no se puede realizar ninguna mejora. Esta preferencia por árboles más pequeños es un ejemplo de sesgo inductivo que afecta a un algoritmo de árbol de decisión.

El orador se refirió a un artículo de Dieterich y Khan que contrasta el sesgo de aprendizaje automático con el sesgo estadístico. Los sesgos apropiados e inapropiados se discutieron en relación con el sesgo absoluto. Los sesgos inapropiados no contienen ninguna buena aproximación a la función objetivo, lo que significa que el algoritmo no se adapta bien al problema. Por otro lado, los sesgos apropiados permiten buenas aproximaciones a la función objetivo.

El sesgo relativo se describió como demasiado fuerte o demasiado débil. Un sesgo que es demasiado fuerte puede no descartar buenas aproximaciones, sino que prefiere hipótesis más pobres en su lugar. Por el contrario, un sesgo demasiado débil considera demasiadas hipótesis, lo que puede conducir a un sobreajuste.

El orador compartió un ejemplo de un estudio de simulación que involucra modelos de árboles de decisión para demostrar la interacción entre el sesgo y la varianza. El estudio evaluó la tasa de error promedio y encontró que algunos errores se debían al sesgo, mientras que otros se debían a la varianza.

Otro tipo importante de sesgo discutido fue el sesgo de equidad, que se refiere a las disparidades demográficas en los sistemas algorítmicos que son objetables por razones sociales. Los modelos de aprendizaje automático pueden tratar ciertos datos demográficos de manera injusta, y este sesgo puede deberse a conjuntos de datos desequilibrados u otros factores. El orador recomendó consultar el libro Fair ML para obtener más información sobre la equidad en el aprendizaje automático.

El orador mencionó brevemente un proyecto en el que trabajaron que consistía en ocultar información biométrica suave de las imágenes faciales y al mismo tiempo mantener la precisión de coincidencia. El objetivo era proteger la privacidad evitando que los algoritmos extrajeran información de género de las imágenes de rostros. El orador evaluó el rendimiento de su sistema y los algoritmos comerciales de comparación de rostros, observando sesgos en el clasificador de género binario del software comercial basado en el color de la piel.

El orador enfatizó la importancia de minimizar los sesgos y tener en cuenta cómo se desempeñan los clasificadores en diferentes datos demográficos. Destacaron la necesidad de técnicas como el sobremuestreo para abordar los sesgos y garantizar resultados más justos.

La conferencia abarcó varias formas de sesgo en el aprendizaje automático, incluido el sesgo inductivo, el sesgo estadístico y el sesgo de equidad. Los ejemplos y discusiones arrojan luz sobre los desafíos y las consideraciones involucradas en la mitigación del sesgo y la promoción de la equidad en los algoritmos de aprendizaje automático.

8.6 Different Uses of the Term "Bias" (L08: Model Evaluation Part 1)
8.6 Different Uses of the Term "Bias" (L08: Model Evaluation Part 1)
  • 2020.11.05
  • www.youtube.com
This video discusses the different uses of the term "bias" in machine learning by introducing the concepts of machine learning bias and fairness bias.-------...
 

9.1 Introducción (L09 Model Eval 2: Intervalos de Confianza)



9.1 Introducción (L09 Model Eval 2: Intervalos de Confianza)

¡Hola a todos! Hoy tenemos una conferencia muy interesante e informativa por delante. En contraste con la lección anterior, que profundizó en el tema bastante árido de la configuración y la descomposición de la varianza del sesgo, esta sesión promete ser más emocionante. Discutiremos varias técnicas de remuestreo y realizaremos simulaciones en diferentes conjuntos de datos para observar cómo el remuestreo afecta el entrenamiento de algoritmos. Al dividir un conjunto de datos en conjuntos de entrenamiento y prueba, reducimos el tamaño de entrenamiento disponible, lo que puede afectar el rendimiento del modelo.

Además, exploraremos los intervalos de confianza y los diferentes métodos para construirlos. Esto incluye el uso de intervalos de aproximación normales y varias técnicas de arranque. Los intervalos de confianza han ganado importancia en el aprendizaje automático, con presentaciones de documentos recientes que requieren su inclusión. Los revisores también se toman más en serio los intervalos de confianza ahora. Proporcionan una expectativa dentro del campo y resultan útiles no solo para los revisores sino también para otros lectores que examinan sus modelos.

Ahora, profundicemos en los temas de la conferencia. Comenzaremos con una introducción, seguida del método de exclusión para la evaluación del modelo. Luego, exploraremos cómo se puede emplear el método de exclusión para la selección del modelo. En el futuro, profundizaremos en la construcción de intervalos de confianza usando diferentes técnicas, comenzando con el intervalo de aproximación normal.

Los métodos de remuestreo también serán un enfoque clave. Analizaremos el método de exclusión repetida, donde el método de exclusión se aplica a versiones remuestreadas del conjunto de entrenamiento. Además, examinaremos los intervalos de confianza empíricos, que se basan en técnicas de remuestreo. Aquí, nos encontraremos con la conocida técnica de arranque discutida en la lección de modelo de embolsado y conjunto.

Una vez que comprendamos cómo crear intervalos de confianza empíricos utilizando el método de arranque, exploraremos dos versiones mejoradas: el arranque del punto 632 y el arranque del punto 632 más. Es importante tener en cuenta el contexto de esta conferencia dentro del marco más amplio de la evaluación de modelos. No presentaremos nuevos algoritmos de aprendizaje automático, sino que nos centraremos en técnicas esenciales para comparar y seleccionar modelos.

Estas técnicas son cruciales porque es un desafío determinar qué algoritmo de aprendizaje automático funciona bien en un conjunto de datos determinado. A menudo necesitamos probar y comparar numerosos algoritmos para encontrar el de mejor rendimiento. Además, evaluar el rendimiento del modelo es vital para desarrollar aplicaciones como el reconocimiento de imágenes en iPhones, donde la predicción precisa de las etiquetas de las imágenes es crucial.

Además de estimar el rendimiento de generalización de datos no vistos, también comparamos diferentes modelos. Al usar el mismo algoritmo y conjunto de entrenamiento, podemos obtener múltiples modelos con diferentes configuraciones de hiperparámetros. Comparamos estos modelos para seleccionar el mejor. Además, es posible que utilicemos diferentes algoritmos y queramos evaluar su desempeño en tipos de datos específicos, como imágenes o texto.

Para seleccionar el mejor modelo, podemos estimar con precisión el rendimiento de generalización absoluta o clasificar los modelos sin valores de rendimiento absolutos. El último enfoque ayuda a evitar los sesgos introducidos cuando se utiliza el mismo conjunto de pruebas varias veces. Un sistema de clasificación nos permite seleccionar el mejor modelo sin depender de estimaciones precisas del rendimiento de la generalización.

En las próximas conferencias, cubriremos técnicas de validación cruzada, pruebas estadísticas para la evaluación de modelos y métricas de evaluación más allá de la precisión, como precisión, recuperación y curvas de características operativas del receptor (ROC).

Estas conferencias son fundamentales porque proporcionan los medios para comparar diferentes algoritmos de aprendizaje automático y seleccionar el modelo más adecuado. Si bien no introducen nuevos algoritmos, ofrecen conocimientos prácticos y técnicas para evaluar el rendimiento del modelo.

En resumen, nuestra conferencia de hoy cubrirá las técnicas de remuestreo, los intervalos de confianza y su relevancia en el aprendizaje automático. Al final de esta serie de conferencias, tendrá una comprensión integral de la evaluación de modelos y las herramientas necesarias para tomar decisiones informadas en el aprendizaje automático. ¡Comencemos nuestra exploración de estos temas!

9.1 Introduction (L09 Model Eval 2: Confidence Intervals)
9.1 Introduction (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.11
  • www.youtube.com
This first video goes over the contents being covered in L09 (issues with the holdout method, resampling methods, and confidence intervals). Then, it introdu...
 

9.2 Evaluación de exclusión (L09 Model Eval 2: Intervalos de confianza)



9.2 Evaluación de exclusión (L09 Model Eval 2: Intervalos de confianza)

En este video, discutiremos el método de retención para la evaluación del modelo. Si bien este método no es nuevo, hay algunos aspectos interesantes que no hemos explorado antes. El método de retención implica dividir el conjunto de datos en un conjunto de entrenamiento y un conjunto de prueba. El conjunto de entrenamiento se usa para entrenar o ajustar el modelo, mientras que el conjunto de prueba se usa para evaluar el rendimiento del modelo.

Sin embargo, hay algunas consideraciones a tener en cuenta. Primero, el error del conjunto de entrenamiento es una estimación sesgada optimistamente del error de generalización. Esto significa que el error de entrenamiento puede no estimar de forma fiable el rendimiento del modelo porque podría estar sobreajustando los datos de entrenamiento. Por otro lado, el conjunto de prueba proporciona una estimación imparcial del error de generalización si es independiente del conjunto de entrenamiento. Sin embargo, desde una perspectiva conceptual, el conjunto de prueba puede tener un sesgo pesimista. Este sesgo surge porque cuando dividimos el conjunto de datos en conjuntos de entrenamiento y de prueba, perdemos datos valiosos. Incluso con un conjunto de datos pequeño, la eliminación del 30 % de los datos para la evaluación puede afectar significativamente el rendimiento del modelo.

Para ilustrar este punto, consideremos un ejemplo simple. Imagine que tenemos un conjunto de datos que consta de solo 10 puntos de datos. Si eliminamos el 30 % de los datos para la evaluación, el modelo se entrenará solo con el 70 % de los datos. Estos datos de entrenamiento limitados pueden conducir a una disminución del rendimiento del modelo porque los modelos de aprendizaje automático generalmente se benefician de más datos. Si trazamos una curva de aprendizaje, normalmente observamos que a medida que aumenta el tamaño del conjunto de datos, mejora el rendimiento de la generalización. Por lo tanto, retener una parte significativa de los datos para la evaluación puede empeorar el modelo.

A pesar de este inconveniente, es necesario evaluar el modelo. En el ámbito académico, generalmente informamos el rendimiento del conjunto de prueba y consideramos que nuestra tarea está completa. Sin embargo, en la industria, a menudo entrenamos el modelo en el conjunto de datos completo después de evaluarlo en el conjunto de prueba. Esto nos permite informar con precisión el rendimiento del modelo a las partes interesadas, como los directores de proyectos. Pero el entrenamiento en todo el conjunto de datos puede conducir a un sesgo pesimista en la estimación del rendimiento del conjunto de prueba. Por ejemplo, si el modelo logró una precisión del 95 % en el conjunto de prueba, el entrenamiento en el conjunto de datos completo podría mejorar el rendimiento del modelo al 96 %. En este caso, la estimación inicial del 95 % de precisión tiene un sesgo pesimista.

Usar el método de exclusión solo no siempre es ideal. Tiene limitaciones, como no tener en cuenta la variación en los datos de entrenamiento. Cuando dividimos los datos aleatoriamente, las diferentes divisiones pueden dar como resultado un rendimiento variable del modelo. Esta variabilidad hace que la estimación del conjunto de prueba sea menos confiable, ya que solo proporciona una estimación puntual. Además, el método de exclusión no considera la posibilidad de un sesgo optimista cuando el conjunto de prueba se usa varias veces para ajustar y comparar modelos.

Para comprender mejor el impacto de los sesgos, consideremos el concepto de sesgo pesimista. En términos de selección de modelos, un sesgo pesimista del 10 % no afecta la clasificación de los modelos en función de la precisión de la predicción. Supongamos que tenemos tres modelos: h2, h1 y h3. Incluso si todas las estimaciones de precisión tienen un sesgo pesimista del 10%, la clasificación sigue siendo la misma. El objetivo de la selección de modelos es elegir el mejor modelo disponible, y un sesgo pesimista constante en todos los modelos no altera la clasificación relativa.

De manera similar, puede haber casos en los que el error del conjunto de prueba tenga un sesgo optimista. Esto ocurre cuando el mismo equipo de prueba se usa varias veces para ajustar y comparar diferentes modelos. El uso repetido del conjunto de prueba puede dar lugar a un sesgo de supervivencia, en el que solo se tienen en cuenta los modelos que funcionan bien en el conjunto de prueba. Un ejemplo de esto es "¿Los clasificadores CIFAR-10 se generalizan a CIFAR-10?" artículo, que examina el sobreajuste y los sesgos optimistas en clasificadores entrenados y evaluados en el conjunto de datos de imágenes CIFAR-10.

En conclusión, si bien el método de exclusión es un enfoque comúnmente utilizado para la evaluación de modelos, tiene sus limitaciones y posibles sesgos. Para superar estas limitaciones, se han desarrollado técnicas alternativas, como la validación cruzada y el arranque.

La validación cruzada es un método que implica dividir el conjunto de datos en múltiples subconjuntos o pliegues. El modelo se entrena en una combinación de estos pliegues y se evalúa en el pliegue restante. Este proceso se repite varias veces, y cada pliegue sirve como conjunto de prueba una vez. La validación cruzada proporciona una evaluación más completa del rendimiento del modelo, ya que utiliza diferentes subconjuntos de datos para entrenamiento y prueba. Ayuda a mitigar el impacto de las divisiones aleatorias de datos y proporciona una estimación más confiable del rendimiento de generalización del modelo.

Bootstrapping es otra técnica de remuestreo que aborda las limitaciones del método de retención. Implica muestrear aleatoriamente el conjunto de datos con reemplazo para crear múltiples muestras de arranque. Cada muestra de arranque se usa como un conjunto de entrenamiento y los datos restantes se usan como un conjunto de prueba. Al muestrear repetidamente con reemplazo, el arranque genera múltiples divisiones de prueba de entrenamiento, lo que permite una evaluación más sólida del rendimiento del modelo.

Tanto la validación cruzada como el bootstrapping ayudan a aliviar los sesgos asociados con el método de exclusión. Proporcionan estimaciones más fiables del rendimiento del modelo al utilizar los datos disponibles de manera más eficiente y tener en cuenta la variabilidad en las divisiones de prueba de entrenamiento.

Si bien el método de exclusión es un enfoque sencillo para la evaluación del modelo, tiene limitaciones y sesgos potenciales. Para mitigar estos problemas, técnicas como la validación cruzada y el arranque ofrecen estimaciones más sólidas y confiables del rendimiento del modelo. Es importante considerar estos métodos alternativos según los requisitos específicos y las limitaciones del problema en cuestión.

9.2 Holdout Evaluation (L09 Model Eval 2: Confidence Intervals)
9.2 Holdout Evaluation (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.11
  • www.youtube.com
The second video talks about using a test set for estimating the generalization performance of a model. Technically, an independent test set can provide an u...
 

9.3 Selección del modelo de exclusión (Evaluación del modelo L09 2: Intervalos de confianza)



9.3 Selección del modelo de exclusión (Evaluación del modelo L09 2: Intervalos de confianza)

En el video anterior, discutimos el método de exclusión para la evaluación del modelo. Ahora, exploraremos cómo podemos modificar este método para la selección de modelos. Para recapitular, en el video anterior, dividimos el conjunto de datos en un conjunto de entrenamiento y un conjunto de prueba. Entrenamos un modelo en el conjunto de entrenamiento usando un algoritmo de aprendizaje automático y configuraciones de hiperparámetros fijos. Luego, evaluamos el modelo en el conjunto de prueba. Además, opcionalmente ajustamos el modelo a todo el conjunto de datos para aprovechar más datos, esperando un mejor rendimiento.

Ahora, nuestro objetivo es utilizar el método de retención para la selección del modelo, que está estrechamente relacionado con el ajuste de hiperparámetros. La selección del modelo implica elegir el mejor modelo entre diferentes configuraciones de hiperparámetros. En el proceso de ajuste de hiperparámetros, generamos múltiples modelos, cada uno correspondiente a una configuración de hiperparámetro específica. La selección del modelo nos ayuda a identificar el modelo con la configuración óptima de hiperparámetros.

Para explicar el método de reserva modificado para la selección de modelos, analicemos los pasos. Primero, en lugar de dividir el conjunto de datos en solo un conjunto de entrenamiento y prueba, lo dividimos en tres conjuntos: un conjunto de entrenamiento, un conjunto de validación y un conjunto de prueba. Esta separación nos permite tener un conjunto de datos independiente, el conjunto de validación, para la selección del modelo.

A continuación, consideramos diferentes configuraciones de hiperparámetros y ajustamos múltiples modelos usando los datos de entrenamiento. Por ejemplo, podemos usar un algoritmo de K-vecino más cercano con valores de hiperparámetros de k=3, k=5 y k=7, lo que da como resultado tres modelos.

El paso de selección del modelo implica evaluar estos modelos utilizando el conjunto de validación. Dado que los modelos pueden sobreajustarse a los datos de entrenamiento, no es adecuado para seleccionar el mejor modelo. Por lo tanto, confiamos en el conjunto de validación independiente para evaluar los modelos. Calculamos métricas de rendimiento, como la precisión de la predicción, para cada modelo y seleccionamos el que tiene el mejor rendimiento como modelo óptimo, correspondiente a la mejor configuración de hiperparámetros.

Sin embargo, usar el conjunto de validación varias veces para la selección del modelo puede generar un sesgo, similar al problema que encontramos con el conjunto de prueba en el video anterior. Para obtener una estimación imparcial del rendimiento del modelo, reservamos un conjunto de prueba independiente. Después de seleccionar el mejor modelo, evaluamos su desempeño en el conjunto de prueba e informamos los resultados.

Opcionalmente, antes de la evaluación final, podemos reajustar el modelo usando los datos combinados de entrenamiento y validación. Este paso aprovecha más datos para mejorar potencialmente el rendimiento del modelo. Finalmente, evaluamos el modelo final en el conjunto de prueba independiente e informamos su desempeño. Aunque no tenemos un conjunto de prueba para evaluar más a fondo el modelo ajustado con los datos combinados, generalmente se espera que sea mejor debido a la mayor cantidad de datos.

En la práctica, el método de exclusión para la selección del modelo puede variar y no se siguen estrictamente todos los pasos. Algunos profesionales evalúan directamente el modelo seleccionado en el conjunto de prueba sin volver a entrenar en los datos combinados. No obstante, la idea clave es tener conjuntos de datos separados para entrenamiento, validación y prueba para garantizar una estimación del rendimiento imparcial y facilitar la selección del mejor modelo.

En el siguiente video profundizaremos en el concepto de intervalos de confianza.

9.3 Holdout Model Selection (L09 Model Eval 2: Confidence Intervals)
9.3 Holdout Model Selection (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.12
  • www.youtube.com
After discussing the holdout method for model evaluation in the previous video, this video covers the holdout method for model selection (aka hyperparameter ...
 

9.4 Intervalos de confianza de ML mediante aproximación normal (L09 Model Eval 2: Intervalos de confianza)



9.4 Intervalos de confianza de ML mediante aproximación normal (L09 Model Eval 2: Intervalos de confianza)

En este video, nuestro enfoque está en los intervalos de confianza, específicamente para estimar el error de clasificación o la precisión de clasificación de un conjunto de prueba. Usaremos el método de aproximación normal, que es el enfoque más simple. Sin embargo, también discutiremos mejores métodos basados en el remuestreo en videos futuros.

Actualmente, estamos en la sección básica, explorando los intervalos de confianza utilizando el método de aproximación normal. En videos posteriores, profundizaremos en diferentes técnicas de remuestreo, comenzando con el método de retención repetida y luego pasando a métodos como el arranque para construir intervalos de confianza empíricos, que son más efectivos cuando se trata de conjuntos de datos más pequeños que se encuentran comúnmente en el aprendizaje automático tradicional.

Comencemos analizando la distribución binomial, con la que quizás ya esté familiarizado en otras clases de estadística. La distribución binomial proporciona el número de éxitos, con los parámetros n y p, que representan el número de intentos y la probabilidad de éxito, respectivamente. La media de la distribución binomial viene dada por n veces p. Por ejemplo, si tenemos 100 intentos con una probabilidad de éxito del 33 %, la media sería 30.

En la figura de la izquierda se puede ver la función de densidad de probabilidad de la distribución binomial para diferentes valores de p y n. Esta función de densidad ilustra la probabilidad de diferentes números de éxitos. Además, la varianza de la distribución binomial se calcula como n veces p veces (1 - p), que usaremos más adelante. Tómese un momento para familiarizarse con este modelo.

Ahora, conectemos la distribución binomial al aprendizaje automático. Podemos ver la derrota por 0-1 como una prueba de Bernoulli, donde tenemos dos posibilidades: clasificación correcta (éxito) y clasificación incorrecta (fracaso). Podemos considerar la clasificación incorrecta como un éxito y la clasificación correcta como un fracaso. Esta perspectiva se alinea con el concepto de cara y cruz en un lanzamiento de moneda. Para estimar la probabilidad de éxito (es decir, clasificación incorrecta), podemos calcularla empíricamente realizando una gran cantidad de intentos y contando el número de éxitos dividido por el número total de intentos. El número medio de éxitos es n veces p, que corresponde a la media de la distribución binomial.

La relación entre la pérdida 0-1 y la distribución binomial nos ayuda a comprender la noción de error en el aprendizaje automático. Podemos considerar la derrota por 0-1 como un ensayo de Bernoulli y el error verdadero como la probabilidad de acertar las predicciones. Para estimar el verdadero error, usamos un conjunto de prueba y calculamos la proporción de predicciones incorrectas. Esta proporción representa el error de clasificación, que se puede dividir por el tamaño del conjunto de prueba para obtener un valor entre cero y uno.

Cuando construimos intervalos de confianza, usamos los mismos métodos empleados en los intervalos de confianza de una muestra de otras clases de estadísticas. Un intervalo de confianza es un intervalo que se espera que contenga el parámetro de interés con cierta probabilidad. El nivel de confianza más común es el 95 %, pero también se pueden utilizar otros niveles como el 90 % o el 99 %. La elección del nivel de confianza determina el ancho del intervalo; los niveles más altos dan como resultado intervalos más amplios.

Para definir formalmente un intervalo de confianza, consideramos múltiples muestras extraídas repetidamente de la distribución asumida. En nuestro caso, asumimos una distribución normal. Al construir un intervalo de confianza del 95 % con este método, si tuviéramos que construir un número infinito de intervalos basados en un número infinito de muestras, esperaríamos que el 95 % de estos intervalos contuvieran el parámetro verdadero.

Quizás se pregunte por qué asumimos que los datos se pueden extraer de una distribución normal. La razón es que la distribución binomial se asemeja a una distribución normal cuando el número de intentos es grande. Incluso para un número relativamente pequeño de ensayos, los datos ya muestran una forma similar a una distribución normal estándar. Es por eso que empleamos la aproximación normal

método para construir intervalos de confianza en este caso.

Ahora, profundicemos en los detalles de la construcción de un intervalo de confianza para el error de clasificación utilizando el método de aproximación normal. Primero, necesitamos calcular la desviación estándar de la distribución binomial. Como se mencionó anteriormente, la varianza de la distribución binomial viene dada por n veces p veces (1 - p). Por lo tanto, la desviación estándar es la raíz cuadrada de la varianza.

A continuación, determinamos el puntaje z correspondiente al nivel de confianza deseado. La puntuación z representa el número de desviaciones estándar que se alejan de la media de la distribución normal estándar. Para un nivel de confianza del 95 %, la puntuación z es de aproximadamente 1,96. La fórmula general para calcular la puntuación z es (x - μ) / σ, donde x es el nivel de confianza deseado, μ es la media y σ es la desviación estándar.

Para construir el intervalo de confianza, comenzamos con la tasa de error estimada del conjunto de prueba, que representa nuestra estimación puntual. Luego, restamos y sumamos el producto de la puntuación z y la desviación estándar de la estimación puntual. Esto nos da los límites inferior y superior del intervalo de confianza, respectivamente. El intervalo resultante representa el rango de valores dentro del cual esperamos que caiga el verdadero error de clasificación con el nivel de confianza especificado.

Es importante tener en cuenta que el método de aproximación normal asume que el número de ensayos (tamaño del conjunto de prueba) es lo suficientemente grande. Si el conjunto de prueba es pequeño, esta aproximación puede no ser precisa. En tales casos, los métodos de remuestreo como el bootstrapping pueden proporcionar intervalos de confianza más confiables.

En resumen, la construcción de intervalos de confianza para el error de clasificación utilizando el método de aproximación normal implica los siguientes pasos:

  1. Calcule la desviación estándar de la distribución binomial usando la fórmula sqrt(n * p * (1 - p)).
  2. Determine la puntuación z correspondiente al nivel de confianza deseado.
  3. Calcule los límites inferior y superior del intervalo de confianza restando y sumando el producto de la puntuación z y la desviación estándar de la estimación puntual, respectivamente.

Tenga en cuenta que en videos posteriores, exploraremos métodos más avanzados basados en técnicas de remuestreo, que son particularmente útiles para conjuntos de datos más pequeños. Estos métodos proporcionan intervalos de confianza empíricos y suelen ser más precisos que el método de aproximación normal.

9.4 ML Confidence Intervals via Normal Approximation (L09 Model Eval 2: Confidence Intervals)
9.4 ML Confidence Intervals via Normal Approximation (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.12
  • www.youtube.com
This video talks about the simplest way for making confidence intervals for machine learning classifiers using the test set performance: normal approximation...
 

9.5 Remuestreo y retención repetida (Modelo L09 Eval 2: Intervalos de confianza)



9.5 Remuestreo y retención repetida (Modelo L09 Eval 2: Intervalos de confianza)

En este video, profundizaremos en el tema del remuestreo y discutiremos específicamente el método de retención repetida. Anteriormente, exploramos el método de exclusión regular, en el que el conjunto de datos se divide en conjuntos de entrenamiento y de prueba. También exploramos cómo se puede usar el método de aproximación normal para construir intervalos de confianza basados en el rendimiento estimado en el conjunto de prueba. Ahora, cambiaremos nuestro enfoque a los métodos de remuestreo, comenzando con el método de exclusión repetida.

Para proporcionar una ilustración visual, consideremos las curvas de aprendizaje. Las curvas de aprendizaje sirven como indicadores de si nuestro modelo se beneficiaría de datos de entrenamiento adicionales. En el gráfico, el eje x representa el tamaño del conjunto de entrenamiento, mientras que el eje y representa el rendimiento, medido como precisión. Sin embargo, la misma gráfica podría usarse para medir el error invirtiéndola. El rendimiento que se muestra aquí se basa en el conjunto de datos de dígitos escritos a mano de Amnistía, pero solo se utilizó un subconjunto de 5000 imágenes para acelerar el cálculo. De estas 5000 imágenes, 3000 se asignaron para entrenamiento y 1500 se reservaron como conjunto de prueba. También se creó otro conjunto de datos que consta de 3500 imágenes, y a partir de él se construyeron conjuntos de entrenamiento de diferentes tamaños.

Cada punto de datos en el gráfico corresponde a un tamaño de conjunto de entrenamiento específico, mientras que el tamaño del conjunto de prueba permanece constante en 1500. La tendencia observada es que a medida que disminuye el tamaño del conjunto de entrenamiento, aumenta la precisión del entrenamiento. Sin embargo, a medida que aumenta el tamaño del conjunto de entrenamiento, la precisión del entrenamiento disminuye. Una posible explicación de esta tendencia es que con un conjunto de entrenamiento más pequeño, es más fácil para el modelo memorizar los datos, incluidos los valores atípicos o el ruido. A medida que crece el tamaño del conjunto de entrenamiento, se vuelve más difícil memorizar los datos debido a la presencia de valores atípicos más diversos. Sin embargo, un conjunto de entrenamiento más grande facilita una mejor generalización, lo que conduce a un mejor rendimiento en el conjunto de prueba.

Vale la pena señalar que el gráfico se detiene en un tamaño de conjunto de entrenamiento de 3500, ya que no había un conjunto de datos más grande disponible. El conjunto de prueba, que se muestra en rojo, permaneció fijo en 1500 muestras. Al reservar estas muestras para realizar pruebas, se introdujo un sesgo pesimista porque es posible que el modelo no haya alcanzado su capacidad total. La capacidad se refiere al potencial del modelo para mejorar con más datos. En este caso, se utilizó un clasificador softmax simple, que es una regresión logística multinomial, con fines de eficiencia. Sin embargo, se podrían emplear otros clasificadores para experimentos similares.

En relación con las curvas de aprendizaje, es importante considerar el tamaño del conjunto de datos y su impacto en el rendimiento del clasificador. Aumentar el tamaño del conjunto de datos puede mejorar el rendimiento del clasificador, especialmente cuando las curvas de aprendizaje indican un error de prueba decreciente a medida que crece el tamaño del conjunto de entrenamiento. Por ejemplo, cuando se trabaja en un proyecto relacionado con la predicción de calificaciones de películas, la recopilación de más reseñas de películas de fuentes como IMDb puede mejorar el rendimiento del clasificador.

Durante el horario de oficina, los estudiantes a menudo preguntan sobre cómo mejorar el rendimiento del clasificador para sus proyectos. Mejorar un clasificador puede involucrar varias estrategias, como cambios de parámetros, selección de características o extracción de características. Sin embargo, aumentar el tamaño del conjunto de datos es un método simple pero efectivo que puede generar resultados positivos. Examinar las curvas de aprendizaje ayuda a determinar si más datos pueden beneficiar al modelo, en lugar de centrarse únicamente en ajustar los hiperparámetros.

Es importante reconocer el sesgo pesimista resultante de dividir el conjunto de datos en conjuntos de entrenamiento y de prueba. Al retener una parte sustancial de los datos para la prueba, es posible que el modelo no haya alcanzado todo su potencial debido a los datos de entrenamiento limitados. Una solución es reducir el tamaño del conjunto de prueba para abordar este sesgo. Sin embargo, reducir el tamaño del conjunto de prueba presenta otro desafío: un aumento en la varianza. La varianza de la estimación del rendimiento del modelo aumenta con conjuntos de prueba más pequeños, lo que puede conducir a estimaciones menos confiables.

Para mitigar estos desafíos, podemos emplear una técnica llamada validación cruzada de Monte Carlo, que implica repetir el método de retención varias veces y promediar los resultados. Esta técnica se conoce comúnmente como el método de retención repetida.

En el método de exclusión repetida, realizamos varias iteraciones del proceso de exclusión, en las que dividimos aleatoriamente el conjunto de datos en conjuntos de entrenamiento y de prueba. Cada iteración utiliza una división aleatoria diferente, lo que garantiza que se utilicen diferentes subconjuntos de datos para el entrenamiento y las pruebas en cada iteración. Repitiendo este proceso varias veces, podemos obtener múltiples estimaciones de rendimiento para nuestro modelo.

La principal ventaja del método de exclusión repetida es que proporciona una estimación más robusta y confiable del rendimiento del modelo en comparación con una única división de exclusión. Dado que cada iteración usa una división aleatoria diferente, podemos capturar la variabilidad en el rendimiento debido a la aleatoriedad en los datos. Esto nos ayuda a obtener una estimación más precisa del rendimiento real del modelo en datos no vistos.

Una vez que tenemos las estimaciones de rendimiento de cada iteración, podemos calcular el rendimiento promedio y usarlo como nuestra estimación final. Además, también podemos calcular la varianza o la desviación estándar de las estimaciones de rendimiento para tener una idea de la variabilidad de los resultados.

Es importante tener en cuenta que en el método de retención repetida, los conjuntos de prueba y entrenamiento deben estar separados en cada iteración para garantizar que el modelo se evalúe en datos no vistos. Además, el tamaño de los conjuntos de entrenamiento y prueba debe determinarse en función del tamaño del conjunto de datos disponible y el equilibrio deseado entre los datos de entrenamiento y evaluación.

El método de retención repetida es particularmente útil cuando el conjunto de datos es lo suficientemente grande como para permitir múltiples divisiones aleatorias. Ayuda a proporcionar una evaluación más sólida del rendimiento del modelo y puede ser especialmente beneficioso cuando se trabaja con datos limitados.

En resumen, el método de exclusión repetida es una técnica de remuestreo que consiste en repetir el proceso de exclusión varias veces con diferentes divisiones aleatorias del conjunto de datos. Ayuda a obtener estimaciones de rendimiento más fiables y a capturar la variabilidad en el rendimiento del modelo. Al promediar los resultados de las iteraciones de exclusión repetidas, podemos obtener una mejor estimación del rendimiento real del modelo.

9.5 Resampling and Repeated Holdout (L09 Model Eval 2: Confidence Intervals)
9.5 Resampling and Repeated Holdout (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.13
  • www.youtube.com
This video talks about learning curves and how to assess whether a model can benefit from more data. Then it covers the repeated holdout method.-------This v...
 

9.6 Intervalos de confianza Bootstrap (Modelo L09 Eval 2: Intervalos de confianza)



9.6 Intervalos de confianza Bootstrap (Modelo L09 Eval 2: Intervalos de confianza)

¡Bienvenido de nuevo! Ahora hemos llegado a las partes más interesantes de esta conferencia. En este video, nuestro enfoque estará en los intervalos de confianza empíricos utilizando el método de arranque. Como resumen rápido, hemos discutido previamente el método de arranque cuando hablamos de los métodos de embolsado. En el embolsado, extrajimos muestras de arranque del conjunto de entrenamiento. Pero, ¿alguna vez te has preguntado por qué se llama el método 'bootstrap'?

Bueno, el término 'bootstrap' se originó a partir de la frase 'levantarse por los propios medios', que se usaba en sentido figurado para describir una tarea imposible. De hecho, el método de arranque es una técnica desafiante, ya que implica estimar la distribución de muestreo a partir de una sola muestra. Entonces, en cierto modo, metafóricamente estamos tratando de levantarnos con nuestras propias botas al intentar esta difícil tarea.

Con el tiempo, el significado de 'arranque' se amplió para incluir el concepto de mejorar uno mismo a través de un esfuerzo riguroso y sin ayuda. Sin embargo, en el contexto del método bootstrap, nos centramos únicamente en la técnica en sí y no en las connotaciones políticas asociadas con 'levantarse por los propios medios'.

Ahora, profundicemos en el método bootstrap y cómo nos permite estimar la distribución de muestreo y la incertidumbre de nuestras estimaciones de rendimiento. El método bootstrap, introducido por primera vez por Bradley Efron en 1979, es una técnica de remuestreo utilizada para estimar una distribución de muestreo cuando solo tenemos acceso a un único conjunto de datos.

Para comprender el concepto, imagine que solo tiene un conjunto de datos y desea utilizarlo para estimar varias estadísticas de muestra. Estas estadísticas pueden ser cualquier cosa de interés, como la media de la muestra, la desviación estándar, R-cuadrado o correlaciones. El método bootstrap nos permite generar nuevos conjuntos de datos mediante el muestreo repetido del conjunto de datos original, simulando el proceso de extracción de muestras de la población. Es importante tener en cuenta que el muestreo se realiza con reemplazo, a diferencia del método de retención repetida, que muestrea sin reemplazo.

Al dibujar estas muestras de arranque y calcular la estadística muestral deseada, como la media muestral, podemos observar que la distribución de las medias muestrales sigue una distribución normal. La desviación estándar de esta distribución, conocida como el error estándar de la media, se puede estimar a partir de la desviación estándar de la muestra dividida por la raíz cuadrada del tamaño de la muestra.

El método bootstrap nos permite construir intervalos de confianza estimando la desviación estándar y usándola para determinar la incertidumbre asociada con nuestras estimaciones de desempeño. Los intervalos de confianza proporcionan un rango de valores plausibles para el parámetro de población real. En el caso del método bootstrap, calculamos la desviación estándar empíricamente y la utilizamos para calcular los intervalos de confianza.

Ahora, comprendamos los pasos involucrados en el procedimiento de arranque. Primero, extraemos una muestra con reemplazo del conjunto de datos original. A continuación, calculamos la estadística de muestra deseada utilizando esta muestra de arranque. Repetimos estos dos pasos una gran cantidad de veces, generalmente recomendado alrededor de 200 o más, para obtener una distribución de estadísticas de muestra. La desviación estándar de esta distribución sirve como una estimación del error estándar de la estadística muestral. Finalmente, podemos usar el error estándar para calcular los intervalos de confianza, que proporcionan una medida de la incertidumbre en torno a nuestra estimación de rendimiento.

Cuando se trata de evaluar el rendimiento de un clasificador mediante el método de arranque, podemos modificar ligeramente el enfoque. Considere un conjunto de datos de tamaño n. En este caso, realizamos p rondas de arranque, donde en cada ronda extraemos una muestra de arranque del conjunto de datos original. Luego ajustamos un modelo a cada una de estas muestras de arranque y calculamos la precisión en las muestras fuera de la bolsa, que son las muestras no incluidas en la muestra de arranque. Promediando las precisiones de todas las rondas de arranque, obtenemos la precisión de arranque. Este enfoque aborda el problema del sobreajuste al evaluar el modelo en datos no vistos, en lugar de las muestras utilizadas para el entrenamiento. Además, la precisión de arranque proporciona una medida de la variabilidad del rendimiento del modelo.

Para resumir los pasos involucrados en la evaluación del desempeño de un clasificador utilizando el método de arranque:

  1. Seleccione aleatoriamente una muestra de arranque de tamaño n (con reemplazo) del conjunto de datos original.
  2. Entrene a un clasificador en la muestra de arranque.
  3. Evalúe el clasificador capacitado en las muestras fuera de la bolsa (muestras no incluidas en la muestra de arranque) y calcule la precisión.
  4. Repita los pasos 1-3 para una gran cantidad de rondas de arranque (p veces).
  5. Calcule la precisión promedio en todas las rondas de arranque para obtener la precisión de arranque.

La precisión de arranque puede servir como una estimación del rendimiento del clasificador en datos no vistos y proporciona una medida de la incertidumbre asociada con la estimación del rendimiento. Además, puede ayudar a evaluar la estabilidad y robustez del clasificador.

Al utilizar el método de arranque, podemos obtener información valiosa sobre el rendimiento de nuestros modelos y estimar la incertidumbre asociada con nuestras estimaciones de rendimiento. Esta técnica es especialmente útil cuando tenemos datos limitados y queremos aprovechar al máximo el conjunto de datos disponible. El método bootstrap nos permite aproximar la distribución de muestreo, construir intervalos de confianza y evaluar el desempeño de los clasificadores de manera efectiva.

En conclusión, el método bootstrap es una poderosa técnica de remuestreo que nos permite estimar la distribución del muestreo y evaluar la incertidumbre de las estimaciones de rendimiento utilizando un solo conjunto de datos. Proporciona un enfoque práctico para abordar varios desafíos estadísticos y ha encontrado aplicaciones en una amplia gama de campos, incluido el aprendizaje automático, las estadísticas y el análisis de datos. Al comprender e implementar el método de arranque, podemos mejorar nuestra capacidad para tomar decisiones informadas y sacar conclusiones confiables a partir de datos limitados.

9.6 Bootstrap Confidence Intervals (L09 Model Eval 2: Confidence Intervals)
9.6 Bootstrap Confidence Intervals (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.13
  • www.youtube.com
This video talks about the Leave One Out Bootstrap (i.e., computing the model performances on out-of-bag samples) for constructing confidence intervals.-----...
 

9.7 Los métodos Bootstrap .632 y .632+ (L09 Model Eval 2: Intervalos de confianza)



9.7 Los métodos Bootstrap .632 y .632+ (L09 Model Eval 2: Intervalos de confianza)

En este video, profundizaremos en los temas tratados en el video anterior. En el video anterior, cubrimos el método bootstrap, específicamente el bootstrap out-of-bag, que se usa para construir intervalos de confianza empíricos. En este video, exploraremos dos técnicas avanzadas de bootstrapping: el bootstrap 0.632 y el bootstrap 0.632+. Estas técnicas están relacionadas y sus orígenes se explicarán más adelante en este video.

Para recapitular brevemente el procedimiento de arranque, comenzamos con un conjunto de datos y creamos muestras de arranque mediante el muestreo con reemplazo. Para cada muestra de bootstrap, ajustamos un modelo y evaluamos su rendimiento en las muestras listas para usar. En el video anterior, también demostramos cómo implementar este procedimiento en Python, utilizando un enfoque orientado a objetos.

En el video actual, el presentador presenta una implementación de código que simplifica el proceso. Han creado una clase llamada "BootstrapOutOfBag" que toma la cantidad de rondas de arranque y una semilla aleatoria como entrada. Esta clase proporciona un método llamado "dividir" que divide el conjunto de datos en subconjuntos de entrenamiento y prueba. Los subconjuntos de entrenamiento corresponden a las muestras de arranque, mientras que los subconjuntos de prueba representan las muestras listas para usar. Al iterar sobre estas divisiones, el presentador demuestra cómo realizar el procedimiento de arranque y evaluar el rendimiento del modelo.

Luego, el presentador presenta otra implementación llamada "bootstrap_0.632_score". Esta implementación permite a los usuarios calcular convenientemente las puntuaciones de arranque o out-of-bag. Al proporcionar el clasificador, el conjunto de entrenamiento, el número de divisiones y la semilla aleatoria, los usuarios pueden calcular la precisión media y obtener intervalos de confianza utilizando el método de percentiles.

A continuación, el video aborda una deficiencia del método de arranque directo, que se conoce como sesgo pesimista. Bradley Efron propuso la estimación de 0,632 como una forma de abordar este sesgo. El sesgo pesimista surge porque las muestras de arranque contienen menos puntos de datos únicos en comparación con el conjunto de datos original. De hecho, solo el 63,2% de los puntos de datos en las muestras de arranque son únicos. El presentador explica los cálculos de probabilidad detrás de esta figura y proporciona una visualización para ilustrar cómo se comporta para diferentes tamaños de muestra.

Para superar el sesgo pesimista, el video presenta el método de arranque 0.632. Este método combina la precisión de las muestras fuera de la bolsa y las muestras de arranque en cada ronda. La precisión en cada ronda se calcula como la suma de dos términos: la precisión fuera de la bolsa y la precisión de reposición. La precisión fuera de la bolsa representa el rendimiento de las muestras que no se incluyeron en la muestra de arranque, mientras que la precisión de resustitución mide el rendimiento de los mismos datos utilizados para ajustar el modelo.

Al combinar estos dos términos, el método de arranque de 0,632 tiene como objetivo proporcionar una estimación menos sesgada del rendimiento del modelo. Este método aborda la naturaleza excesivamente optimista de la precisión de la resustitución al incorporar la precisión fuera de la bolsa.

En conclusión, este video se basa en los conceptos discutidos en el video anterior al presentar técnicas avanzadas de arranque: el arranque 0.632 y el arranque 0.632+. Estos métodos tienen como objetivo mitigar el sesgo pesimista del arranque fuera de la bolsa al considerar las precisiones de la muestra tanto fuera de la bolsa como de arranque. El video proporciona implementaciones de código y explicaciones para facilitar la comprensión y la aplicación de estas técnicas.

9.7 The .632 and .632+ Bootstrap methods (L09 Model Eval 2: Confidence Intervals)
9.7 The .632 and .632+ Bootstrap methods (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.13
  • www.youtube.com
In this video, we discuss the .632 bootstrap, which addresses the pessimistic bias of the OOB bootstrap covered in the previous video. Then, we discuss the ....
 

10.1 Descripción general de la lección de validación cruzada (L10: Evaluación del modelo 3)


10.1 Descripción general de la lección de validación cruzada (L10: Evaluación del modelo 3)

¡Hola a todos! La semana pasada, profundizamos en el importante tema de la evaluación de modelos, donde discutimos varios aspectos, como la evaluación del rendimiento del modelo y la construcción de intervalos de confianza. Sin embargo, nuestra exploración de la evaluación de modelos aún no está completa, ya que hay otros conceptos esenciales que debemos cubrir. En la práctica, no se trata solo de evaluar un modelo específico; también necesitamos encontrar un buen modelo en primer lugar que podamos evaluar.

En esta lección, nos centraremos en las técnicas de validación cruzada, que incluyen métodos para ajustar hiperparámetros y comparar modelos resultantes de diferentes configuraciones de hiperparámetros. Este proceso se conoce como selección de modelos. Nuestro énfasis principal hoy estará en la validación cruzada.

Tenemos muchos temas que cubrir esta semana, pero no se preocupe, cada tema es relativamente corto. Permítanme proporcionar una descripción general de lo que discutiremos en esta lección y en la siguiente:

  1. Técnicas de validación cruzada para la evaluación de modelos: exploraremos la validación cruzada de K-fold y otras técnicas relacionadas para evaluar el rendimiento del modelo. Demostraré ejemplos de código usando Python y scikit-learn.

  2. Validación cruzada para la selección de modelos: discutiremos cómo usar la validación cruzada para seleccionar el mejor modelo, incluido el ajuste de hiperparámetros. Le mostraré cómo realizar la selección de modelos mediante la búsqueda en cuadrícula y la búsqueda aleatoria en scikit-learn.

  3. La ley de la parsimonia: exploraremos el concepto del método de un error estándar, que combina la idea de la validación cruzada de K-fold con el principio de mantener los modelos simples. También proporcionaré ejemplos de código para el método de un error estándar y la validación cruzada repetida de K-fold, que es similar al método de retención repetida discutido en las conferencias anteriores.

Antes de profundizar en la validación cruzada, repasemos rápidamente los hiperparámetros y aclaremos su diferencia con los parámetros del modelo. Luego procederemos a discutir la validación cruzada de K-fold para la evaluación del modelo y otras técnicas relacionadas. Examinaremos la implementación práctica de estas técnicas usando Python y scikit-learn. Finalmente, extenderemos nuestra discusión a la validación cruzada para la selección de modelos, destacando la distinción entre evaluación de modelos y selección de modelos.

También he preparado una descripción general basada en una extensa investigación y lectura, categorizando diferentes técnicas basadas en tareas y problemas específicos. Esta categorización nos ayudará a navegar por las diferentes técnicas y comprender cuándo usar cada una. Es importante tener en cuenta que las recomendaciones proporcionadas en la descripción general están sujetas a más discusión, en la que participaremos durante las próximas conferencias.

Eso resume la descripción general de la conferencia. Ahora, procedamos con una reintroducción a los hiperparámetros, seguida de una exploración detallada de la validación cruzada.

10.1 Cross-validation Lecture Overview (L10: Model Evaluation 3)
10.1 Cross-validation Lecture Overview (L10: Model Evaluation 3)
  • 2020.11.18
  • www.youtube.com
This video goes over the topics we are going to cover in this lecture: cross-validation and model selection. Also, it gives a big-picture overview discussing...
 

10.2 Hiperparámetros (L10: Evaluación del modelo 3)



10.2 Hiperparámetros (L10: Evaluación del modelo 3)

Antes de profundizar en la validación cruzada, tomemos un momento para analizar los hiperparámetros. Es posible que ya esté familiarizado con el concepto, pero si no, esto le servirá como un resumen útil. Los hiperparámetros se pueden considerar como los parámetros de ajuste o la configuración de un modelo o algoritmo. Son las opciones que ajustas manualmente para optimizar el rendimiento de tu modelo. Para ilustrar esto, consideremos el clasificador vecino más cercano K, un modelo no paramétrico.

Los modelos no paramétricos, a diferencia de los modelos paramétricos, no tienen una estructura predefinida. En su lugar, confían en el conjunto de entrenamiento para definir la estructura del modelo. Por ejemplo, en K-vecinos más cercanos, los parámetros del modelo son esencialmente los propios ejemplos de entrenamiento. Por lo tanto, alterar el conjunto de entrenamiento, como agregar o quitar ejemplos, puede afectar significativamente la estructura del modelo. Otro ejemplo de un modelo no paramétrico es el árbol de decisión, donde el número de divisiones en el árbol depende de los ejemplos de entrenamiento, en lugar de una estructura predefinida.

Ahora, concentrémonos específicamente en los hiperparámetros del algoritmo K-vecino más cercano. Estos hiperparámetros incluyen opciones como el número de vecinos (K) y la métrica de distancia utilizada (por ejemplo, Manhattan o distancia euclidiana). Estas opciones deben configurarse antes de ejecutar el modelo y no se aprenden de los datos. En este curso, exploraremos técnicas como la búsqueda en cuadrícula o la búsqueda aleatoria para ayudar con el ajuste de hiperparámetros. Sin embargo, es importante tener en cuenta que probar diferentes valores para los hiperparámetros no es un proceso para ajustarlos a los datos, sino una experimentación iterativa para encontrar la mejor configuración.

Para proporcionar más ejemplos, consulte las definiciones de hiperparámetros en scikit-learn. Al inicializar un clasificador de árboles de decisión, los hiperparámetros pueden incluir la medida de impurezas (p. ej., Gini o entropía), la profundidad del árbol para la poda previa y el número mínimo de muestras por hoja, entre otros. Todos estos se consideran hiperparámetros.

En particular, no todas las opciones son hiperparámetros, pero todos los hiperparámetros son opciones. Por ejemplo, el estado aleatorio o semilla aleatoria, que determina la aleatoriedad en el modelo, no es un hiperparámetro. Es algo que no debe manipularse para mejorar el modelo, ya que cambiar la semilla aleatoria para un mejor rendimiento se consideraría injusto.

Ahora, contrastemos los hiperparámetros con los parámetros del modelo. Por ejemplo, echemos un breve vistazo a la regresión logística, que puede verse como un modelo lineal y sirve como introducción tanto al aprendizaje automático clásico como al aprendizaje profundo. En la regresión logística, las entradas son características, incluido un término de intersección para tener en cuenta el sesgo. Los pesos del modelo, que se determinan en función del número de características, forman la estructura del modelo. Inicialmente, estos pesos se pueden establecer en cero o en valores aleatorios pequeños, y luego se actualizan iterativamente para minimizar la función de pérdida (p. ej., el error cuadrático medio en la regresión lineal).

En la regresión logística, se aplica una función no lineal, típicamente la función logística o función sigmoidea, a la entrada neta (la suma ponderada de las entradas) para aplastarla en un rango entre cero y uno. Esta salida se puede interpretar como la probabilidad de pertenencia a la clase en la clasificación binaria. Los pesos se ajustan para minimizar la pérdida, que se calcula comparando la probabilidad de pertenencia a la clase predicha con la etiqueta de clase real (0 o 1). La regresión logística también emplea técnicas de regularización, como la regularización L1 o L2, que agregan un término de penalización basado en el tamaño de los pesos para evitar el sobreajuste. La fuerza de regularización (lambda) es un hiperparámetro que debe configurar el usuario.

En resumen, los parámetros del modelo, como los pesos (W) en la regresión logística, se aprenden de los datos de entrenamiento, mientras que los hiperparámetros, como la fuerza de regularización (lambda), los determina el usuario y no se aprenden de los datos. Los parámetros del modelo son las variables internas del modelo que se actualizan durante el proceso de entrenamiento para optimizar el rendimiento, mientras que los hiperparámetros son configuraciones externas que controlan el comportamiento del modelo y deben establecerse antes del entrenamiento.

El proceso de encontrar los valores óptimos para los hiperparámetros se conoce como ajuste de hiperparámetros. Es un paso importante en el aprendizaje automático, ya que puede tener un gran impacto en el rendimiento de un modelo. Sin embargo, encontrar los mejores valores de hiperparámetros no es una tarea sencilla y, a menudo, requiere experimentación y evaluación de diferentes combinaciones.

Un enfoque común para el ajuste de hiperparámetros es la búsqueda en cuadrícula, donde se especifica un conjunto predefinido de valores para cada hiperparámetro, y todas las combinaciones posibles se evalúan mediante validación cruzada. La validación cruzada es una técnica utilizada para evaluar el rendimiento de un modelo al dividir los datos en múltiples subconjuntos (pliegues), entrenar el modelo en algunos pliegues y evaluarlo en el pliegue restante. Esto ayuda a estimar el rendimiento del modelo en datos no vistos y reduce el riesgo de sobreajuste.

Otro enfoque es la búsqueda aleatoria, donde se muestrean combinaciones aleatorias de valores de hiperparámetros de distribuciones específicas. Esto puede ser útil cuando el espacio de búsqueda de hiperparámetros es grande, ya que permite explorar un rango más amplio de valores sin evaluar exhaustivamente todas las combinaciones posibles.

Además de la búsqueda en cuadrícula y la búsqueda aleatoria, existen técnicas más avanzadas para el ajuste de hiperparámetros, como la optimización bayesiana, que utiliza modelos probabilísticos para guiar el proceso de búsqueda, y algoritmos genéticos, que imitan el proceso de selección natural para desarrollar el mejor conjunto de hiperparámetros.

Vale la pena señalar que el ajuste de hiperparámetros puede ser computacionalmente costoso, especialmente para modelos complejos o grandes conjuntos de datos. Por lo tanto, a menudo se realiza junto con técnicas como la validación cruzada para hacer el uso más eficiente de los datos disponibles.

Los hiperparámetros son las configuraciones u opciones de un modelo que deben establecerse antes del entrenamiento, mientras que los parámetros del modelo son las variables internas que se aprenden de los datos durante el entrenamiento. El ajuste de hiperparámetros es el proceso de encontrar los mejores valores para estas configuraciones y es crucial para optimizar el rendimiento del modelo. Las técnicas como la búsqueda en cuadrícula, la búsqueda aleatoria, la optimización bayesiana y los algoritmos genéticos se utilizan comúnmente para el ajuste de hiperparámetros.

10.2 Hyperparameters (L10: Model Evaluation 3)
10.2 Hyperparameters (L10: Model Evaluation 3)
  • 2020.11.18
  • www.youtube.com
This video recaps the concept of hyperparameters using k-nearest neighbors and logistic regression as examples.-------This video is part of my Introduction o...
Razón de la queja: