Discusión sobre el artículo "Entrenamos un perceptrón multicapa usando el algoritmo de Levenberg-Marquardt"

MetaQuotes 2025.05.27 07:41

Artículo publicado Entrenamos un perceptrón multicapa usando el algoritmo de Levenberg-Marquardt:

Este artículo le presentaremos una implementación del algoritmo Levenberg-Marquardt para el entrenamiento de redes neuronales de propagación directa. Asimismo, realizaremos un análisis comparativo del rendimiento usando algoritmos de la biblioteca scikit-learn Python. También discutiremos preliminarmente los métodos de aprendizaje más sencillos como el descenso de gradiente, el descenso de gradiente con impulso y el descenso de gradiente estocástico.

El objetivo de este artículo será ofrecer a los tráders en activo un algoritmo eficaz para entrenar redes neuronales, una variante del método de optimización newtoniano conocido como algoritmo de Levenberg-Marquardt. Se trata de uno de los algoritmos más rápidos para entrenar redes neuronales de propagación directa, al que solo puede plantar cara el algoritmo Broyden-Fletcher-Goldfarb-Shanno (L-BFGS).

Los métodos de optimización estocástica, como el descenso de gradiente estocástico (SGD) y Adam, resultan muy adecuados para el entrenamiento offline cuando la red neuronal se reentrena durante largos periodos de tiempo. Si un tráder que utiliza redes neuronales quiere que el modelo se adapte rápidamente a unas condiciones comerciales en cambio constante, necesitará reentrenar la red online en cada nueva barra, o tras un breve periodo de tiempo. En tal caso, los algoritmos que, además de información sobre el gradiente de la función de pérdida, también usan información adicional sobre las segundas derivadas parciales, lo cual permitirá encontrar el mínimo local de la función de pérdida en unas pocas épocas de entrenamiento.

De momento, que yo sepa, no existe ninguna implementación de acceso abierto del algoritmo Levenberg-Marquardt en MQL5. Así que ha llegado la hora de llenar este vacío, y también de repasar brevemente los algoritmos de optimización más conocidos y sencillos, como el descenso de gradiente, el descenso de gradiente con impulso y el descenso de gradiente estocástico. Al final del artículo, realizaremos algunas pruebas de rendimiento del algoritmo Levenberg-Marquardt y de algoritmos de la biblioteca de aprendizaje automático scikit-learn.

Autor: Evgeniy Chernish

Andrey Dik 2024.11.08 08:07 #1

Gracias por el interesante artículo.

Es una pena que haya pocas explicaciones sobre los códigos.

Y algo falla en el código python, he instalado todas las librerías, pero da lo siguiente en la terminal:

learning time = 1228.5106182098389
solver = lbfgs
loss = 0.0024399556870102
iter = 300
C:\Users\User\AppData\Local\Programs\Python\Python39\lib\site-packages\sklearn\neural_network\_multilayer_perceptron.py:545: ConvergenceWarning: lbfgs failed to converge (status=1): in '' (0,0)
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT. in '' (0,0)
Increase the number of iterations (max_iter) or scale the data as shown in: in '' (0,0)
https://scikit-learn.org/stable/modules/preprocessing.html in '' (0,0)
self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter) in '' (0,0)
Traceback (most recent call last): in '' (0,0)
plt.plot(np.log(pd.DataFrame(clf.loss_curve_))) in 'SklearnMLP.py' (59,0)
AttributeError: 'MLPRegressor' object has no attribute 'loss_curve_' in 'SklearnMLP.py' (59,0)

Una cosa más, el script SD en algunos casos dibuja tal cosa:

Es decir, el algo se atasca en, aparentemente, una simple fecha.

Otros códigos también producen resultados de convergencia muy diferentes. Por lo tanto, es deseable dar gráficos de una serie de pruebas independientes, las imágenes de pruebas únicas nos dicen poco (prácticamente nada).

[¡AVISO CERRADO!] Cualquier pregunta Indicador estocástico. Una observación Grial. El rompecabezas es

Evgeniy Chernish 2024.11.08 08:52 #2

Gracias por los comentarios.

En python. No es un error, avisa de que el algoritmo se ha parado porque hemos llegado al límite de iteración. Es decir, el algoritmo se ha parado antes de alcanzar el valor tol = 0.000001. Y luego avisa de que el optimizador lbfgs no tiene atributo "loss_curve", es decir, datos de la función de pérdida. Para adam y sgd sí, pero para lbfgs por alguna razón no. Probablemente debería haber hecho un script para que cuando se inicie lbfgs no pida esta propiedad para no confundir a la gente.

Sobre SD. Dado que empezamos cada vez desde diferentes puntos en el espacio de parámetros, los caminos a la solución también serán diferentes. He hecho muchas pruebas, a veces realmente se necesitan más iteraciones para converger. He intentado dar un número medio de iteraciones. Puede aumentar el número de iteraciones y verá que el algoritmo converge al final.

Discusión sobre el artículo Aprendizaje automático en el Pregunta sobre la optimización

Andrey Dik 2024.11.08 09:32 #3

Evgeniy Chernish #:

En SD. Como empezamos cada vez desde un punto diferente en el espacio de parámetros, los caminos para converger a una solución también serán diferentes. He hecho muchas pruebas, a veces realmente toma más iteraciones para converger. He intentado dar un número medio de iteraciones. Puede aumentar el número de iteraciones y verá que el algoritmo converge al final.

A eso me refiero. Es la robustez, o, la reproducibilidad de los resultados. Cuanto mayor sea la dispersión de los resultados, más cerca estará el algoritmo de RND para un problema dado.

He aquí un ejemplo de cómo funcionan tres algoritmos diferentes. ¿Cuál es el mejor? A menos que realice una serie de pruebas independientes y calcule la media de los resultados (idealmente, calcule y compare la varianza de los resultados finales), es imposible comparar.

Discusión sobre el artículo ¡Veinticuatro, y ni un Aprendizaje automático en el

Evgeniy Chernish 2024.11.08 09:52 #4

Andrey Dik #:

A eso me refiero. Es la estabilidad, o, la reproducibilidad de los resultados. Cuanto mayor sea la dispersión de los resultados, más cerca estará el algoritmo de RND para un problema determinado.

Aquí tienes un ejemplo de cómo funcionan tres algoritmos diferentes. ¿Cuál es el mejor? A menos que realice una serie de pruebas independientes y calcule la media de los resultados (idealmente, calcule y compare la varianza de los resultados finales), es imposible comparar.

Entonces es necesario definir el criterio de evaluación.

Puede tomar como criterio el tiempo y el resultado máximo (o mínimo si quiere encontrar el mínimo de la función).

Establezca el número de reinicios.

Registre el máximo alcanzado para este número de reinicios y el tiempo empleado en ello.

Realiza una serie de pruebas de este tipo, pongamos 1000.

Y calcule la media y la varianza de esta serie, es decir, la media y la varianza del máximo.

No lo he hecho tan a fondo casi a la construcción de la densidad de distribución de los resultados, es imposible cubrir todo en un artículo.

Densidad de la serie Aprendizaje automático en el Una vez hice una

[Eliminado] 2024.11.08 11:43 #5

El artículo es estupendo sin pruebas adicionales y se ajusta a las conclusiones comunes sobre algoritmos :) Esto permite llegar rápidamente a un acuerdo y pasar al siguiente tema.

Andrey Dik 2024.11.08 11:44 #6

Evgeniy Chernish #:
A continuación, es necesario definir el criterio de evaluación.

Podemos tomar como criterio el tiempo y el resultado máximo (o mínimo si necesitamos encontrar el mínimo de la función).

Establecer el número de reinicios.

Registre el máximo alcanzado para este número de reinicios y el tiempo empleado en ello.

Realiza una serie de pruebas de este tipo, pongamos 1000.

Y calcula la media y la varianza de esta serie, es decir, la media y la varianza del máximo.

No lo he hecho tan a fondo casi a la construcción de la densidad de distribución de los resultados, es imposible cubrir todo en un artículo.

No, en este caso no tienes que tomarte tantas molestias, pero si estás comparando diferentes métodos, podrías añadir un ciclo más (pruebas independientes) y trazar los gráficos de las pruebas individuales. Quedaría muy claro quién converge, lo estable que es y cuántas iteraciones tarda. Y así resultó ser "como la otra vez", cuando el resultado es genial, pero sólo una vez entre un millón.

De todos modos, gracias, el artículo me ha dado algunas ideas interesantes.

EURUSD - Tendencias, previsiones Trabajar juntos Discusión sobre el artículo

Nuevo comentario