La etiqueta del mercado o los buenos modales en un campo de minas - página 81

 
Al hacer este redondeo, no olvides dividir por 2 el número de valores iguales a cero en la distribución.
 
Sí, lo tengo (+/-0).
 
Neutron >> :

La cuestión es que no estoy escribiendo las estadísticas para la misma muestra de entrenamiento, sino que estoy cambiando una muestra a la vez en cada ciclo. Por lo tanto, los resultados de la formación no coinciden entre sí. No recuerdo por qué lo hice, pero no cambia la esencia. Aparentemente, quería mostrar los procesos cuasi estacionarios del mercado y reflejar su influencia en la velocidad de aprendizaje.

Este es el aspecto de los resultados al promediar 10 experimentos con la misma muestra de entrenamiento (fig. izquierda):

Se puede ver que no hay variación estadística para los pesos con inicialización cero.

La figura de la derecha se basa en una arquitectura de red con 12 entradas, 5 neuronas en la capa oculta y 1 neurona en la salida y con una muestra de entrenamiento de 120 muestras, es decir, es una copia de su caso. Las estadísticas se obtuvieron a partir de 50 experimentos numéricos independientes. Además, todo funciona correctamente.

No, utilicé la primera diferencia de precio de apertura como entrada (pensé que estaba claro por el contexto). Está claro que la media es cero. Predice la amplitud y el signo de la siguiente diferencia.

En cuanto al teorema, me ha gustado. Pero, ¡se relaciona con nuestras redes como un caso especial!

Has demostrado el caso degenerado para la longitud de la muestra de entrenamiento que tiende a infinito. Realmente, en este caso para el vector de datos de entrada que representa el SV con MO cero obtenemos pesos cero - ¡la mejor previsión para mañana para el SV integrado es el valor actual de hoy! Pero, una vez que tomamos una muestra de entrenamiento de longitud finita, los pesos entrenados tenderán al equilibrio, minimizando el cuadrado del error. Como ejemplo para demostrar esta afirmación, tomemos el caso de SLAE (el mismo NS). En este caso, los pesos están definidos de forma única, el error de entrenamiento en la muestra de entrenamiento es idénticamente igual a cero (el número de incógnitas es igual al número de ecuaciones) y los pesos (coeficientes en las incógnitas) obviamente no son iguales a cero.

Estoy de acuerdo con su comentario sobre mi teorema. Es cierto que la reducción del número de conjuntos en el conjunto de entrenamiento desviará los pesos de los ceros. Pero creo que el teorema es aplicable a las redes, porque para calcular la correlación no necesito utilizar un número infinito de conjuntos de entrenamiento. La media estadística R(m)=E{x[i]x[i+m]} se calcula como la suma(x[i]x[i+m]) de los datos disponibles. El teorema es significativo porque muestra que la red tendrá poder predictivo sólo si estas sumas (correlaciones) son significativamente diferentes de cero; de lo contrario, los pesos convergerán a ceros. Por eso es importante encontrar datos de entrenamiento con una correlación no nula entre las entradas y las salidas. Aquellas entradas que tienen una baja correlación pueden ser descartadas ya que no ayudarán a la red en las predicciones.

Por lo que tengo entendido, su error de entrenamiento en los gráficos anteriores no se divide por 2 ni por el número de conjuntos de entrenamiento. ¿Es eso correcto? Me gustaría ejecutar sus entradas en mi red para asegurarme de que todo funciona correctamente. Podrías guardarlas en un archivo tal y como se alimentan las entradas y salidas de la red, y ponerlas aquí. Podrías utilizar tu red 5-4-1 con 40 muestras para reducir la cantidad de datos.

 

Asignaciones de los hombros de las series de construcción y de las transacciones para diferentes H


1. H = 1(una extensión)


2. Н = 4


3. Н = 15


 
gpwr >> :

Estoy de acuerdo con su comentario sobre mi teorema. En efecto, la reducción del número de conjuntos en la muestra de entrenamiento desviará los pesos de los ceros. Pero creo que el teorema es aplicable a las redes por la razón de que para calcular la correlación no es necesario utilizar un número infinito de conjuntos de entrenamiento. La media estadística R(m)=E{x[i]x[i+m]} se calcula como la suma(x[i]x[i+m]) de los datos disponibles. El teorema es significativo porque muestra que la red tendrá poder predictivo sólo si estas sumas (correlaciones) son significativamente diferentes de cero; de lo contrario, los pesos convergerán a ceros. Por eso es importante encontrar datos de entrenamiento con una correlación no nula entre las entradas y las salidas. Aquellas entradas que tienen una baja correlación pueden ser descartadas ya que no ayudarán a la red en las predicciones.

Por lo que tengo entendido, su error de entrenamiento en los gráficos anteriores no se divide por 2 ni por el número de conjuntos de entrenamiento. ¿Es eso correcto? Me gustaría ejecutar sus entradas en mi red para asegurarme de que todo funciona correctamente. Podrías guardarlas en un archivo tal y como se alimentan las entradas y salidas de la red, y ponerlas aquí. Puede utilizar su red 5-4-1 con 40 muestras para reducir los datos.

Se ha aumentado el número de épocas a 1000 y se ha modificado la configuración de iProp+ para que el paso de peso no se desvanezca rápidamente. También se ha eliminado la división del error de aprendizaje por 2*Número de épocas. Me da resultados más satisfactorios, más cercanos a Neutrón. El error de aprendizaje para los pesos aleatorios es 2-3 veces menor que para los pesos cero, lo que indica la presencia de correlación entre las entradas y las salidas. Pero sigue sin gustar que de la época 4 a la 70 el error de aprendizaje es casi invariable. Tenemos que mejorar el algoritmo de aprendizaje. Aunque la mayoría de los paquetes comerciales de NS utilizan iProp+ por lo que confío en este algoritmo. Eso deja a los lentos y complejos ML y BFGS.


 
gpwr >> :

Estoy de acuerdo con su comentario sobre mi teorema.


Ya que eres tan bueno en matemáticas, ¿por qué no intentas demostrar otro teorema sobre la dimensión óptima de la entrada de la red en los BPs del mercado (mejor no los BPs, sino las series de transacciones kagi)?

 
paralocus >> :

Ya que se te dan tan bien las matemáticas, ¿por qué no intentas demostrar otro teorema sobre el óptimo de la dimensión de entrada de la red en los PA de mercado (preferiblemente no en los PA, sino en una serie de operaciones de kagi)?

Lo intentaré.

 
gpwr писал(а) >>

Estoy de acuerdo con su comentario sobre mi teorema. En efecto, la reducción del número de conjuntos en el conjunto de entrenamiento desviará los pesos de los ceros. Pero creo que el teorema es aplicable a las redes, porque para calcular la correlación no necesito utilizar un número infinito de conjuntos de entrenamiento. La media estadística R(m)=E{x[i]x[i+m]} se calcula como la suma(x[i]x[i+m]) de los datos disponibles. El teorema es significativo porque muestra que la red tendrá poder predictivo sólo si estas sumas (correlaciones) son significativamente diferentes de cero; de lo contrario, los pesos convergerán a ceros. Por eso es importante encontrar datos de entrenamiento con una correlación no nula entre las entradas y las salidas. Las entradas que tienen una baja correlación pueden descartarse porque no ayudan a la red a hacer predicciones.

También existe una correlación no lineal entre las muestras. Lo coge el NS no lineal de la bicapa y no lo coge el discriminador lineal, el teorema del límite para el que has demostrado.

Por lo que he entendido su error de formación en diagramas dados no se divide por 2 o por el número de conjuntos. ¿Correcto? Me gustaría ejecutar sus datos de entrada en mi red para asegurarme de que todo funciona correctamente. Podrías guardarlas en un archivo tal y como se alimentan las entradas y salidas de la red, y ponerlas aquí. Puede utilizar su red 5-4-1 con 40 muestras para reducir los datos.

Abajo está el archivo con las entradas que utilicé.

Archivos adjuntos:
dif.zip  14 kb
 
Neutron >> :

También existe una correlación no lineal entre las muestras. Lo coge el NS no lineal de la bicapa y no lo coge el discriminador lineal, cuyo teorema límite has demostrado.

A continuación, se adjunta un archivo con los datos de entrada, que he utilizado.

>> Gracias. Hay mucho que hablar sobre la correlación no lineal. Dentro de un rato daré mi opinión al respecto. Mientras tanto, me intriga su interesante conclusión sobre la "chica del engranaje". El hecho de que la red no aprendida ("chica ternaria") muestre predicciones más precisas en datos fuera de muestra me alarma. La varianza del estado no aprendido es mucho mayor que la varianza del estado aprendido. Y si el estado aprendido es el mínimo global de entropía (error al cuadrado), entonces la varianza de dicho estado es cero, ya que sólo hay un mínimo global. Como hay muchos estados no inflados en la red, habrá muchas predicciones diferentes para los mismos datos de entrada. Se puede ver en sus gráficos. En definitiva, una conclusión interesante pero alarmante.

 

Aquí es donde yo mismo no tengo una comprensión completa.

De acuerdo con la declaración(Alexander Ezhov, Sergey Shumsky"Neurocomputing"), hay una longitud óptima, en la que el error de generalización Popt=w^2/d se minimiza, donde d es la dimensión de la entrada NS, w es el número de todos los parámetros sintonizables de NS. Así que, desde este punto de vista, el SN está sobreentrenado si P<Popt el SN "recuerda" la muestra de entrenamiento. La variante P>Popt tampoco es buena, porque a mayor duración, hay más probabilidad de que se produzca un cambio de tendencia en el mercado, lo que equivale a una disminución de las correlaciones entre las muestras.

Por otro lado, NS puede ser "arrastrado" al número excesivo de épocas de entrenamiento y como consecuencia, el error de generalización comenzará a crecer de nuevo, o no será arrastrado... En general, tenemos que realizar experimentos numéricos con un conjunto de estadísticas, ¡lo que en sí mismo es muy recursivo! Pero, hay que hacerlo. Esto facilitará mucho las cosas, para probar la ecuación anterior para la longitud óptima del vector de entrenamiento. gpwr, ¿quieres juguetear?

Razón de la queja: