Neuromantes, no paséis de largo :) necesito consejo - página 9

 
Figar0:

Aquí se discute punto por punto:

Gracias Sergey, lo has entendido.

2) Preprocesamiento de las entradas (la cuestión parece muy sencilla y bastante abierta, podemos discutir si se sabe qué y cómo se hace en este caso)

Nada extraordinario. Hay varios niveles, cada uno de ellos procesado por separado por el filtro Hodrick-Prescott sin picar.

3) Matemáticas de NS.

Varios experimentos han demostrado que los parámetros de la red tienen un efecto insignificante en los resultados dentro de ciertos límites. Demasiado poco lleva al sobreentrenamiento, demasiado lleva a la sobresaturación.

Sobre el tema de las redes de eco, estoy dispuesto a charlar. No voy a publicar el código todavía, tengo algunos planes.

4) Cuestiones "organizativas" del funcionamiento de las SN.

Cómo/cuando formarse/reformarse

Por cierto, no he intentado cambiar

, periodos/intervalos

Tampoco investigó seriamente. Creo que habrá un impacto, tal vez incluso diferentes períodos dependiendo de la herramienta.

la lógica del trabajo del Asesor Experto-intérprete de la salida de la red

Tampoco he investigado seriamente, pero por lo que he cambiado no creo que haya ningún efecto significativo, aunque... tendrá que comprobarlo de nuevo.

, MM.

No veo el sentido de añadirlo en absoluto. La rentabilidad potencial es fácil de estimar con FS.

- ¿por qué "eco"? Ya has estado allí, cuéntanos sus ventajas e inconvenientes.

Bueno, para empezar, hay menos margen de maniobra con los parámetros de la red. No hay que pensar que si, por ejemplo, la capa oculta es más pequeña que la de entrada, ya es una compresión de datos y hay una alta probabilidad de que la red no funcione, etc. No hay que tener en cuenta un montón de cositas que tiene el resto de la red.

En resumen, ahora trabajo con la red -- sólo lanzo neuronas, conexiones (cierto número, ciertos tipos).

Lo he adaptado. Yo lo uso. Realmente no me importa lo que pasa dentro, así que básicamente tengo una caja negra a mano.

Prácticamente cualquier problema resuelto por MLP es resuelto por la red eco.


En segundo lugar, siempre obtengo la solución óptima en función de la topología y la relación entrada/salida

En tercer lugar, el tiempo de adaptación (evito deliberadamente la palabra "aprendizaje") de la red se predice con gran exactitud, ya que se utiliza un MLP para ello, no hay convergencia, etc.


Hasta ahora sólo he visto una desventaja: la limitación por la función de aptitud. Es decir, en teoría sólo puedo utilizar la búsqueda de la solución con el menor error RMS del FF y tal. Por supuesto, esto puede obviarse con el aprendizaje genético, pero entonces se pierde toda la belleza de la red de ecos.

Aunque no, hay otra, no estoy seguro, pero en mi opinión (puedo estar equivocado) el tiempo de entrenamiento aumenta cúbicamente (no tanto el entrenamiento como la formación de la matriz de derivadas), por lo que entrenar una red con, digamos, 1000 neuronas llevará un tiempo considerable.


¿Cómo lo has desenterrado en primer lugar?

Gracias al mismo foro :) de mi amigo gpwr, por lo que quiero agradecerle mucho :)

El segundo tipo de TC no es bueno en absoluto, en mi opinión.

En mi opinión, con el tipo 2 es mucho más fácil trabajar y analizar los resultados. Por ejemplo, el CT del proyecto que nos ocupa era originalmente totalmente adecuado para el tipo 2.

a)¿Está realmente seguro de que las entradas/salidas no pueden mejorarse?

Por supuesto que no.

b) Preprocesamiento: ¿Qué aspecto tiene? Por ejemplo, ¿ha analizado la distribución de los valores de entrada?

La normalización está presente de alguna forma, pero no hay un análisis serio de la distribución de los datos.

 
renegate:

¿Has hecho alguna desvolatilización (que se encuentra en los artículos) para los induladores que introduces en la entrada de la red?

Le he echado un vistazo... interesante. ¿Tal vez pueda compartir su experiencia de uso? ¿Cuáles son los resultados, las mejoras, las características, los escollos?

También puedes intentar que los inductores no tengan calibre.

Erm, aquí hay dudas, pero igual me gustaría escuchar una breve caracterización también.
 

Representemos, convencionalmente, el área de datos analizada (patrón) con un rectángulo azul y el área de datos predicha con un rectángulo rojo. En la implementación actual, el tamaño vertical del área roja depende a través de un factor de escala del tamaño del área azul (y debería depender del contenido de datos del área azul, no del tamaño del área). Aquí hay dos ejemplos en los que vemos una discrepancia:

и

Vemos que el tamaño del rectángulo rojo es menor en la primera pantalla y mayor en la segunda que el tamaño del azul.

La normalización de la señal es relativa al tamaño vertical.

Así que creo que deberíamos normalizar no por el tamaño de la muestra, sino por el tamaño de toda la muestra de entrenamiento. Parece que disminuye la capacidad de predicción de la red.

Hay un inconveniente relacionado con ello (por eso elegí esta forma de racionamiento), pero parece que no hay escapatoria: debemos recorrer la muestra de entrenamiento una vez más para obtener los valores máximos y mínimos.

Está claro que la distribución de señales del patrón en la implementación actual está muy desplazada (lo que es malo) en la zona de valores máximos y mínimos, porque cada patrón tiene valor 1 y valor -1.

En mi opinión, deberíamos empezar con estos cambios.

 
No es así como me lo has explicado :) . Ahora creo que estoy de acuerdo.
 
TheXpert:
No es así como me lo has explicado :) . Creo que ahora estoy de acuerdo.

No, no al revés. Te digo que las palabras son difíciles de explicar, las imágenes son más fáciles. Tanto para el hablante como para el oyente. ;)

PS En cuanto al área de predicción sobre el aprendizaje de los beneficios - que sigue siendo el caso, estoy trabajando en ello.

 

He experimentado con el precio utilizando el siguiente algoritmo:

1) Obtener una serie de primeras diferencias (FDD) de Close

2) Calcular la media móvil del módulo FFD (he tomado un periodo de 25)

3) Dividir la FFD por la media móvil

Obtenemos el FFD, que es más estacionario. Se puede volver a una pseudo serie de precios utilizando la suma acumulada.


Veo que no está utilizando el RRR. ¿Está utilizando la eliminación de la tendencia para las series de precios? ¿O simplemente se normalizan las series de precios a un rango determinado?

 

renegate:

¿Está utilizando la eliminación de la tendencia para la serie de precios?

Más detalles aquí también.

¿O simplemente se normaliza la gama de precios en un rango determinado?

Por el momento, la normalización se realiza dentro de la descripción del patrón.

Ahora haré la normalización en todo el conjunto de patrones. Esto no debería ser demasiado difícil.

Me gustaría intentar adjuntar la desvolatilización pero aquí será más complicado. Lo pensaré.

 

Para ello, es necesario aceptar el axioma de que la serie de precios está compuesta por componentes de tendencia, cíclicos y de ruido.

Restamos el componente de tendencia de la serie de precios. Se me ocurren 3 formas:

1) Haga un análisis de componentes principales (AGC o PCA) y elimine el primer componente principal.

2) Restar un muving a la serie de precios. Su periodo puede seleccionarse a ojo o mediante la optimización o el análisis del espectro

3) Halla la regresión lineal de toda la serie de precios y réstala del precio.

A continuación, obtenemos una serie que contiene únicamente componentes cíclicos y de ruido. Es conveniente normalizarlos en un rango determinado.

 
De hecho, ese es el componente principal que estoy buscando :)
 
renegate:

He experimentado con el precio utilizando el siguiente algoritmo:

1) Obtener una serie de primeras diferencias (FDR) de Close

No es una pregunta capciosa, ¿por qué este paso?
Razón de la queja: