Artículo: Previsión de precios con redes neuronales - página 13

 
Ulterior:

Dobrovo vam vremia sutok i izvinite za translit.

¡NO POR FAVOR!

 
Neutron:

Vale, pero me gustaría tener una teoría.

Este es el razonamiento en voz alta. Para una capa simple NS con un número de entradas N, tenemos N sinapsis cuyos pesos determinan de forma única el sistema N en el caso general de las ecuaciones no lineales. Está claro que para resolver un sistema de este tipo necesitamos una muestra de entrenamiento de N vectores, cada uno de ellos compuesto por N elementos. En este caso no funciona de otra manera. Con dos capas NS el número de entradas debe ser menor que el número total de vectores de entrenamiento N por n, donde n es el número de sinapsis en la segunda capa, por lo que la longitud de los vectores de entrenamiento tiene longitud N-n.

Para una NS de 3 capas, el orden de razonamiento es el mismo.

Así:

1. Partimos de la profundidad de inmersión que necesitamos y determinamos la dimensionalidad de la entrada NS.

2. A continuación, teniendo en cuenta la arquitectura (número de capas) de NS, contamos el número de sinapsis y obtenemos el tamaño óptimo de la muestra de entrenamiento.


El razonamiento es bueno, pero es empírico ... es decir, es difícil construir un algoritmo que dependa únicamente del tipo y la representación de los datos de entrada en ellos.

 
Sergey_Murzinov:

Una de las cosas más importantes (en mi opinión) es la preparación de los datos, para ello

1. Intenta reducir la correlación de entradas. En otras palabras, los insumos deben ser tan estadísticamente independientes como sea posible.

2. en la normalización de los vectores de entrada, es necesario lograr el aumento de la entropía - aumentando así la cantidad de la información sometida a NS en la preservación del mismo volumen de los datos de entrada.

Es obligatorio realizar una comprobación de la calidad de los datos, por ejemplo, mediante el método de Kolmogorov-Smirnov o/y con el exponente de Hurst.


Seleccionando la arquitectura de la red podemos reducir el error.

No estoy de acuerdo, cualquier transformación de los datos supone un cambio en la informatividad de la muestra inicial. ¿Dónde está el criterio para evaluar el criterio de cambio de datos? Creo que todo el mundo relacionado con la NS conoce el viejo chiste que ocurrió durante el siguiente boom de la NS. Cuando el ejército estadounidense intentó utilizar la NS para los sistemas de disparo tierra-tierra. Uno de los componentes era una red de reconocimiento de patrones, que tuvo mucho éxito en el aprendizaje, etc., pero por alguna razón reconoció los tanques en tiempo de lluvia, y cuando se le presentaron datos de una estructura de paisaje diferente, cometió un mal error. La razón era que la red había aprendido a reconocer bien un paisaje, pero no un tanque.


Si cambiamos los datos, el problema puede ser el mismo: la red seleccionará sólo las secuencias (modos) que pertenecen a la serie normalizadora, porque en principio podemos considerar el propio proceso de normalización como un componente de las fluctuaciones de la serie temporal.

 
Ahora he creado un NS no lineal de dos capas y veo que su capacidad de predicción es ligeramente superior a la del no lineal de una capa. Pero la dispersión de las predicciones es notablemente menor, lo cual es agradable. También puede observarse que el NS presenta unas propiedades de suavización notables cuando se aumenta el número de entradas. En mi caso, sin embargo, el número de vectores de entrenamiento aumenta proporcionalmente, tal vez la razón conduce a un aumento de la muestra de entrenamiento. Es necesario separar estos efectos de alguna manera...
 

Esto muestra los resultados de la prueba de la capacidad de predicción de los dos NS.


La figura muestra en rojo la serie temporal original (RT), en azul la predicción a 1 bar adelante de la red lineal de una capa, y en verde la red no lineal de dos capas. La profundidad de la inmersión es la misma en ambos casos. Se puede observar que para este caso artificial hay un marcado residuo de los datos predichos en la sección de tendencia de la PA. Me pregunto si mis colegas experimentados observan este efecto y, si es así, con qué podría estar relacionado.

 

rip писал (а):


No estoy de acuerdo, cualquier conversión de datos supone un cambio en la información de la muestra original. ¿Dónde está el criterio para evaluar el criterio de cambio de datos? Creo que todos los implicados en NS conocen el viejo chiste que ocurrió durante el siguiente boom de NS. Cuando el ejército estadounidense intentó utilizar la NS para los sistemas de disparo tierra-tierra. Uno de los componentes era una red de reconocimiento de patrones, que tuvo mucho éxito en el aprendizaje, etc., pero por alguna razón reconoció los tanques en tiempo de lluvia, y cuando se le presentaron datos de una estructura de paisaje diferente, cometió un mal error. La razón era que la red había aprendido a reconocer bien un paisaje, pero no un tanque.


Si cambiamos los datos, el problema puede ser el mismo: la red sólo elegirá secuencias (modos) que pertenezcan a la serie normalizadora, porque en principio podemos considerar el propio proceso de normalización como un componente de las fluctuaciones de la serie temporal.

No se dice que me alegre. Esta es la opinión que mantiene la mayoría. Me alegro.

 
Sergey_Murzinov:

rip escribió (a):


No estoy de acuerdo, cualquier transformación de los datos, es un cambio en la informatividad de la muestra original. ¿Dónde está el criterio para evaluar el criterio de cambio de datos? Creo que todos los implicados en la NS conocen un viejo chiste que ocurrió durante el siguiente boom de la NS. Cuando el ejército estadounidense intentó utilizar la NS para los sistemas de disparo tierra-tierra. Uno de los componentes era una red de reconocimiento de patrones, que tuvo mucho éxito en el aprendizaje, etc., pero por alguna razón reconoció los tanques en tiempo de lluvia, y cuando se le presentaron datos de una estructura de paisaje diferente, cometió un mal error. La razón era que la red había aprendido a reconocer bien un paisaje, pero no un tanque.


Si cambiamos los datos, el problema puede ser el mismo: la red sólo elegirá secuencias (modos) que pertenezcan a la serie normalizadora, porque en principio podemos considerar el propio proceso de normalización como un componente de las fluctuaciones de la serie temporal.

No se dice que me alegre. Esta es la opinión que mantiene la mayoría. Me alegro.

La opinión es una opinión, pero en la práctica es diferente. He intentado utilizar el algoritmo genético para optimizar la arquitectura de la red - da resultados interesantes, pero tarda mucho en calcularse.

 

He aquí otra comparación del poder predictivo de la red.


Se trata de un trabajo de predicción de un NS no lineal de una capa (línea azul) y de un NS no lineal de dos capas. Aquí parece preferible la capa única.

Es interesante comparar los resultados de estas pruebas con los de otras arquitecturas NS. ¿Puede alguien publicar sus resultados para comparar?

 

rip писал (а):


La opinión es la opinión, pero en la práctica es diferente. Intenté usar el algoritmo genético para optimizar la arquitectura de la red, el resultado es interesante - pero toma mucho tiempo para calcular.

Si unas 24 horas es mucho, entonces sí. Solo hay que tener en cuenta que cuando se trata de redes (operarlas) se hace una vez.

 

a Neutrón

No hay resultados hasta ahora, poco a poco se va cogiendo el tranquillo.

En cuanto al primer post (con la primera foto) tratando de entender lo que quieres decir. Personalmente, no he notado ningún retraso. Por el contrario, en las áreas en las que hay algún tipo de patrón, (la red) es bastante buena para identificarlo, y el error está justo en las rupturas de las tendencias (y aquí son aleatorias, o el tamaño de la muestra no es suficiente para establecer algún tipo de patrón en su aparición).

Razón de la queja: