¿Qué alimentar a la entrada de la red neuronal? Tus ideas... - página 58

[Eliminado]  
Forester #:

La generalización es más bien un subaprendizaje. Es decir, lo recordaban, pero no con absoluta exactitud (también involucraban a los vecinos en ello...). Casi como un escolar con "C"))

Pero si memorizamos algo definido por una ley (por ejemplo, la ley de Ohm), no habrá sobreaprendizaje, es más fácil que haya infraaprendizaje si hay pocos ejemplos y un número infinito de ellos.

En el caso del trading, donde los patrones son casi inexistentes y ruidosos, una memorización absolutamente precisa junto con ruido dará lugar a una pérdida.
Por alguna razón a esto se le ha llamado sobreaprendizaje. La memorización precisa no es perjudicial en sí misma, como en el caso del aprendizaje de patrones. En cambio, memorizar ruido/basura no es beneficioso.
La generalización es un equilibrio entre menos y más :) Un ejemplo de la vida: aprendí bien la fórmula de Maxwell, pero no conseguí aplicarla en la práctica, esto es sobreaprendizaje. Sabía que existía la fórmula de Maxwell, pero no recordaba cómo estaba escrita, pero en la práctica se acordó de ella, la volvió a leer y la aplicó. Esto es generalización (aprendizaje) y no años perdidos en la universidad.
 
¿Qué hay de malo en la definición habitual de aprendizaje: asignar valores específicos a los parámetros del modelo?
[Eliminado]  
Aleksey Nikolayev #:
¿Qué hay de malo en la definición habitual de aprendizaje: asignar valores específicos a los parámetros del modelo?
Puede preguntárselo al propio modelo :)

La definición habitual de aprendizaje como asignación de valores específicos a los parámetros del modelo puede ser insuficiente por varias razones:

  1. Incompletitud de la descripción del proceso: el aprendizaje de modelos implica no sólo la asignación de valores a los parámetros, sino también el proceso de optimización de dichos parámetros a partir de los datos. Este proceso puede incluir la selección de un algoritmo de optimización, el ajuste de hiperparámetros, la selección de una función de pérdida y otros aspectos que no quedan cubiertos por la simple asignación de valores.

  2. Ignorar la dinámica del aprendizaje: el entrenamiento de un modelo es un proceso dinámico que puede implicar muchas iteraciones y pasos. La simple asignación de valores no capta esta naturaleza iterativa, en la que los parámetros se ajustan gradualmente para minimizar el error.

  3. Falta de contexto de los datos: la formación de modelos se basa en datos y el proceso de formación implica analizar e interpretar esos datos. La simple asignación de valores no tiene en cuenta cómo se utilizan los datos para entrenar el modelo y cómo afectan a los parámetros finales.

  4. No se tiene en cuenta la generalización: el objetivo del entrenamiento de un modelo no es sólo minimizar el error en los datos de entrenamiento, sino también la capacidad del modelo para generalizar sus conocimientos a datos nuevos y desconocidos. La simple asignación de valores no tiene en cuenta este aspecto de la generalización.

  5. Ignorar la validación y las pruebas: el proceso de entrenamiento también implica validar y probar el modelo para evaluar su rendimiento y evitar el sobreentrenamiento. La simple asignación de valores no tiene en cuenta estos importantes pasos.

Así pues, una definición más completa del aprendizaje de modelos debería incluir un proceso de optimización de parámetros basado en los datos, teniendo en cuenta la dinámica del aprendizaje, el contexto de los datos, la capacidad de generalización y las fases de validación y prueba.

[Eliminado]  
En general, me pregunto por qué valiosos expertos se ponen a discutir un tema complejo e interesante sin estar orientados en él :)
 
Forester #:

Sobre la formación...


Hace un par de años me encontré con esta expresión en un sitio común (no técnico): bases de datos basadas en redes neuronales. En general, estuve de acuerdo con este término para mí.



Yo mismo hago árboles - una base de datos basada en árboles también es aplicable. 1 hoja en un árbol = 1 fila en una base de datos. Diferencias:



1 fila en la base de datos contiene sólo 1 ejemplo de los datos almacenados en la base de datos. 1 hoja contiene:



1) 1 ejemplo y todos los ejemplos exactamente iguales (al dividir el árbol lo más posible hasta la última diferencia) o

2) 1 ejemplo y exactamente los mismos ejemplos + los ejemplos más parecidos si la división se detiene antes.
Esto se denomina generalización de ejemplos. Los ejemplos similares son definidos de forma diferente por los distintos algoritmos a la hora de seleccionar las divisiones del árbol.

Ventajas de los árboles sobre las bases de datos: generalización y búsqueda rápida de la hoja deseada - no es necesario recorrer un millón de filas, se puede llegar a la hoja a través de varias divisiones.

La agrupación también generaliza. Kmeans - por proximidad de los ejemplos al centro del cluster, otros métodos de forma diferente.

Las redes neuronales son más difíciles de entender y comprender, pero en esencia también son una base de datos, aunque no tan obvias como las hojas y los clusters.

En resumen: aprendizaje arbóreo = es memorizar/grabar ejemplos, igual que una base de datos. Si detienes la división/aprendizaje antes de la memorización más precisa posible,memorizas con generalización.

Por supuesto, Andrew quiere plantear que el aprendizaje es optimización. No, es memorización. Pero la optimización también está presente. Se puede optimizar a través de variaciones con profundidad de aprendizaje, métodos de división, etc. Cada paso de la optimización entrenará un modelo diferente. Pero aprender no es optimizar. Es memorización.
Si supieras cuántas tonterías has dicho con una mirada inteligente.

Pero no tengo tiempo ni ganas de explicarlo.
 
Forester #:

Sobre la formación...


Hace un par de años me encontré con esta expresión en un sitio común (no técnico): bases de datos basadas en redes neuronales. En general, estuve de acuerdo con este término para mí.



Yo mismo hago árboles - una base de datos basada en árboles también es aplicable. 1 hoja en un árbol = 1 fila en una base de datos. Diferencias:



1 fila en la base de datos contiene sólo 1 ejemplo de los datos almacenados en la base de datos. 1 hoja contiene:



1) 1 ejemplo y todos los ejemplos exactamente iguales (al dividir el árbol lo más posible hasta la última diferencia) o

2) 1 ejemplo y exactamente los mismos ejemplos + los ejemplos más parecidos si la división se detiene antes.
Esto se denomina generalización de ejemplos. Los ejemplos similares son definidos de forma diferente por los distintos algoritmos a la hora de seleccionar las divisiones del árbol.

Ventajas de los árboles sobre las bases de datos: generalización y búsqueda rápida de la hoja deseada - no es necesario recorrer un millón de filas, se puede llegar a la hoja a través de varias divisiones.

La agrupación también generaliza. Kmeans - por proximidad de los ejemplos al centro del cluster, otros métodos de forma diferente.

Las redes neuronales son más difíciles de entender y comprender, pero en esencia también son una base de datos, aunque no tan obvias como las hojas y los clusters.

En resumen: aprendizaje arbóreo = es memorizar/grabar ejemplos, igual que una base de datos. Si detienes la división/aprendizaje antes de la memorización más precisa posible,memorizas con generalización.

Por supuesto, Andrew quiere plantear que el aprendizaje es optimización. No, es memorización. Pero la optimización también está presente. Se puede optimizar a través de variaciones con profundidad de aprendizaje, métodos de división, etc. Cada paso de la optimización entrenará un modelo diferente. Pero aprender no es optimizar. Es memorización.

¿Y cómo se determina la calidad del aprendizaje?
 
Andrey Dik #:

y ¿cómo se determina la calidad de la enseñanza?

La máxima calidad de aprendizaje se obtendrá con una memorización absolutamente precisa, es decir, con un registro completo de todos los datos de la base de datos, o con el entrenamiento de un árbol hasta la última división posible o con una agrupación con número de clusters = número de ejemplos.

Los árboles que dejen de dividirse antes o que se agrupen con menos conglomerados generalizarán y fusionarán los datos en hojas/conglomerados. Serán modelos poco entrenados, pero en presencia de ruido pueden tener más éxito que los modelos con recuperación exacta.

Hubo un ejemplo al principio de la rama MO con la enseñanza a un andamio de la tabla de multiplicar. Como no se le dio un número infinito de opciones posibles para el entrenamiento, el bosque produce a veces respuestas exactas, pero sobre todo respuestas aproximadas. Es evidente que no está suficientemente entrenado. Pero es capaz de generalizar, encontrando y promediando las respuestas más cercanas a las correctas de los árboles individuales.

Cuando se aprende con ruido, es difícil evaluar la calidad. Sobre todo si el ruido es mucho mayor que los patrones, como en el comercio.

Para ello inventaron la evaluación en muestras de validación y prueba, la validación cruzada, el jacking forward, etc.
[Eliminado]  
Forester #:

La máxima calidad del entrenamiento se obtendrá con una memorización absolutamente precisa, es decir, cuando todos los datos estén completamente registrados en la base de datos, o cuando se entrene un árbol hasta la última división o agrupación posible con un número de agrupaciones = número de ejemplos.

Los árboles que dejen de dividirse antes o que se agrupen con menos clusters generalizarán y fusionarán los datos en hojas/clusters. Serán modelos poco entrenados, pero en presencia de ruido pueden tener más éxito que los modelos con recuperación exacta.

Hubo un ejemplo al principio de la rama MO con la enseñanza a un andamio de la tabla de multiplicar. Como no se le proporcionó un número infinito de opciones posibles para el entrenamiento, el bosque produce a veces respuestas exactas, pero sobre todo respuestas aproximadas. Evidentemente, está poco entrenado. Pero es capaz de generalizar, encontrando y promediando las respuestas más cercanas a las correctas de los árboles individuales.

El aprendizaje con ruido es difícil de evaluar. Sobre todo si el ruido es mucho mayor que los patrones, como en el comercio.

Maximizar la calidad del entrenamiento es maximizar la calidad de las predicciones sobre nuevos datos. A nadie le interesan las predicciones sobre la muestra de entrenamiento, porque ya se conocen. Esto ya no es aprendizaje, sino aproximación. No se llama aprendizaje a la aproximación.

Por ejemplo, un MLP de dos capas es un aproximador universal que puede aproximar cualquier función arbitraria con cualquier precisión. ¿Significa eso que está entrenado con la máxima calidad? Por supuesto que no. De lo contrario, no se estarían inventando otras arquitecturas de redes neuronales que son mejores en el aprendizaje exacto, no en el ajuste, para tareas específicas.

Débil, aunque parece que llevas mucho tiempo con el tema.
 
Aleksey Nikolayev #:
¿Qué tiene de malo la definición habitual de aprendizaje: asignar valores específicos a los parámetros del modelo?

No capta la esencia.



Puedes asignar cualquier tipo de galimatías y tonterías. Si partimos de lo contrario (memorizar/recordar), entonces el aprendizaje es la identificación de ciertos patrones a través de los cuales puedes crear o identificar nuevos conocimientos. Como ejemplo: Chat escribe poemas sobre un tema arbitrario.

 
Maxim Dmitrievsky #:
Maximizar la calidad del entrenamiento es maximizar la calidad de las predicciones sobre los nuevos datos. A nadie le interesan las predicciones sobre la muestra de entrenamiento, porque ya se conocen. Eso no es aprendizaje, es aproximación. No se llama aprendizaje a la aproximación.

Por ejemplo, un MLP de dos capas es un aproximador universal que puede aproximar cualquier función arbitraria con cualquier precisión. ¿Significa eso que está entrenado con la máxima calidad? Por supuesto que no. De lo contrario, no inventaríamos otras arquitecturas de redes neuronales que son mejores aprendiendo, no ajustando, para tareas específicas.
Así que hay que decidirse.

La aproximación no es aprendizaje, pero la neurónica es un aproximador...

¿La neurónica no entrena?


Uno cree que la base de datos es un clasificador, el otro se confunde con la aproximación....

¿Qué son expertos? 😀