Red neuronal - página 5

 
gpwr писал(а) >> no nos entendemos.

De hecho, has escrito todo correctamente. Sólo discrepamos en las definiciones.

gpwr escribió(a) >> Todos los libros de texto dicen que el entrenamiento de una red con un maestro se hace dividiendo los datos en una muestra de entrenamiento y una muestra de prueba. La red se entrena minimizando el error en la muestra de entrenamiento mientras se observa el error en la muestra de prueba (prueba o verificación fuera de la muestra). El aprendizaje se detiene cuando el error en la muestra de prueba deja de disminuir (se muestra con una línea de puntos abajo). Y el error en la muestra de entrenamiento puede seguir disminuyendo como se muestra en esta figura

Con toda esta investigación, muchos se olvidan de lo más importante: el beneficio. Por eso hay un "pero" que no está escrito en los libros de texto. Es que lograr el mínimo error en OOS no garantiza el beneficio. ¿Por qué? Porque el error mínimo y el beneficio son dos cosas diferentes. Puede que no tengan ninguna relación. ¿Por qué? Porque la red no repite necesariamente el mercado en el OOS y real - es suficiente en ciertos momentos para dar las señales correctas de compra o venta - es decir, superar un determinado umbral de activación. Entre estos momentos (señales) la red puede comportarse como quiera, lo principal es no superar este umbral. Por eso, con un error grande en el OOS el beneficio puede ser grande.

muallch escribió >>

Al principio hay un fuera de muestra - para ajustar la cuadrícula. Y entonces desaparecerá: el verdadero futuro está por delante, hay que preverlo. ¿Cuál es el criterio para detener el entrenamiento: un determinado error o el número de ejecuciones de entrenamiento? ¿O algo más?

Y por supuesto la cuestión del futuro está definitivamente abierta, porque incluso el OOS es un futuro conocido en el que podemos controlar el beneficio, mientras que estamos operando en un futuro que nos es desconocido y lo principal allí no es obtener el mínimo error, sino obtener el máximo beneficio. Y qué tipo de error habrá - no importa.
 
muallch писал(а) >>

En primer lugar, hay que configurar la parrilla fuera de la muestra. Y entonces no hay muestra fuera de lo normal: el futuro real está por delante y hay que predecirlo. ¿Cuál es el criterio para detener el entrenamiento: un determinado error o el número de ejecuciones de entrenamiento? ¿O algo más?

Por ejemplo, 100 épocas sin actualizar el error mínimo en la muestra de control.

 
LeoV писал(а) >>

Y por supuesto la cuestión del futuro está definitivamente abierta, porque incluso el OOS es un futuro conocido en el que podemos controlar el beneficio, mientras que estamos operando en un futuro que nos es desconocido y lo principal allí no es obtener el mínimo error, sino obtener el máximo beneficio. Qué tipo de error será - no importa.

Es posible que piense así, ya que nunca ha tenido resultados realmente estables. El error y el beneficio están interrelacionados, en principio para cada tarea es posible determinar qué error debe alcanzarse para obtener un CT aceptable...
 
StatBars писал(а) >>
Probablemente piense así porque nunca ha tenido resultados realmente estables. El error y el beneficio están interrelacionados; en principio, para cada tarea se puede definir qué error hay que alcanzar para obtener un rendimiento aceptable del CT...

¿Qué significa para usted "resultados realmente estables"?

 
StatBars писал(а) >> El error y el beneficio están interrelacionados

Pueden estar relacionados o no, esa es la gran pregunta. Pero es cierto que el mínimo error en OOS no significa y no conduce al máximo beneficio en la cuenta real. Así como el máximo beneficio en la cuenta real no significa el mínimo error en ella.

 
gpwr >> :

Has entendido mal la esencia de mi razonamiento. No he hablado de la relación entre una red "no entrenada" y los resultados comerciales. Está escrito en todas partes que la red debe ser entrenada hasta que el error en la muestra bajo prueba deje de disminuir. Estoy de acuerdo con eso y no quiero discutirlo. La esencia de mi razonamiento era mostrar cómo una estructura de red paralela conduce a dificultades en su optimización y cómo un modelo no lineal basado en una serie de potencias es capaz de lograr el mismo objetivo que una red neuronal, pero con un aparato matemático mucho más simple y un proceso de aprendizaje rápido que conduce a un resultado único.

Eh, cuántas opiniones se han expresado aquí ;-). Añadiré mis 5 kopeck.

También me has malinterpretado. No quise decir que la red esté "desentrenada". Me refiero a que no hay que esperar milagros de la red. No es una panacea y si va a dar un porcentaje de victorias, es muy pequeño, y por eso necesitamos comités. La configuración de la red para la comisión y la estructura de datos de entrada/salida puede ser buscada a largo plazo. En mi opinión, te has apresurado a descartar las rejillas, sin haber probado ni siquiera el 10% de lo que deberías haber hecho (sólo a juzgar por el momento en que empezaste a trabajar directamente en tu proyecto). En virtud de tu formación matemática, tienes opciones para intentar sustituir la cuadrícula ;-). Le invitamos a que lo intente. Pero me parece que al criticar la parrilla estás centrando tu atención en los puntos equivocados. En particular, ¿qué diferencia hay entre qué sinapsis aprende a qué factor de entrada en una instancia particular de la malla? ¿Necesitas saberlo? Realmente no lo hace. Se supone que esta incertidumbre intrínseca de la red de distribución de señales entre las neuronas es "por diseño". Pero si entrenas una docena de mallas y las haces finas, verás que el patrón de conexiones -la serie no lineal que mencionas- se ha formado por sí mismo, y es cercano o igual a uno y a otro. Si está haciendo un análogo manual, como matemático sabe qué métodos debe utilizar y cuán intensos son, para revelar las dependencias reveladas por la red en el flujo de datos y sólo después de haber revelado estas dependencias puede crear su serie de potencia.

Lo que me gustaría decir sobre los comités es que no se eligen por el simple principio de N redes, sino sólo, digamos, las 10 mejores redes de las cien recibidas. Si seguimos con el ejemplo de las reuniones de personas, sólo se escuchará a quienes sean más o menos capaces de escucharse. Además, parece que has olvidado que tenemos más de 2 resultados. De hecho, son: el éxito, el fracaso, la pérdida, el fracaso. Así, hay que calcular la probabilidad (simplifico intencionadamente): sin pérdida(1)*sin pérdida(2)=0,4*0,4=0,02. Es decir, la mejor configuración no es la que tiene la máxima probabilidad de beneficio, sino la que tiene la mínima probabilidad de pérdida. Por analogía, observamos el coeficiente de reducción. No tiene sentido tomar una configuración súper rentable, si el drawdown para ella ya es del 50%, porque casi garantiza una pérdida.

 

Otra vez.

joo писал(а) >>

Con un profesor, sólo es posible entrenar una cuadrícula sobre una función que ya conocemos, como una onda sinusoidal. Aquí, podemos, en buena conciencia, alimentar la red al siguiente punto para que se forme como profesor.

del punto entrenado como profesor. Esto no funcionará en el mercado.


Porque siempre sabemos de antemano qué punto será el siguiente en la onda sinusoidal. ¡Conocemos el futuro de la onda sinusoidal!

Así que es válido enseñar sobre datos históricos (sinusoidales), es decir, enseñar con un profesor.

Pero no conocemos el futuro del mercado, por lo que enseñar con un profesor se convierte en un proceso inútil.

 
LeoV писал(а) >>

¿Qué significa para usted "resultados realmente estables"?

Por ejemplo, un Asesor Experto está optimizado en 2 meses de historia con sólo 3 parámetros, el 80% de los resultados positivos son rentables en toda la historia.

Lo mismo ocurre con las redes...

 
LeoV писал(а) >>

Pueden estar relacionados o no, esa es la gran pregunta. Pero es cierto que el mínimo error en OOS no significa y no conduce al máximo beneficio en la cuenta real. Además, el beneficio máximo en la cuenta real no significa un error mínimo en ella.

Generalmente se habla de estabilidad de resultados, no de error, si la red reconoce o predice algo de forma estable y esta predicción es suficiente para obtener beneficios, tendremos beneficios tanto a futuro como reales.

Si el error es satisfactoriamente pequeño, entonces se llevará a cabo. ¿Qué significa "satisfactoriamente"? Para cada problema esta condición se establece por separado, sólo conozco la forma empírica.

 
joo писал(а) >>

Lo diré de nuevo.

Porque, siempre sabemos de antemano qué punto será el siguiente en la onda sinusoidal. ¡Conocemos el futuro de la onda sinusoidal!

Por eso es legítimo entrenar con datos históricos (sinusoidales), es decir, enseñar con un profesor.

Pero no conocemos el futuro del mercado, por lo que aprender con un profesor es un proceso inútil.

Si conocemos la onda sinusoidal y por lo tanto podemos predecirla con redes, entonces creamos una fórmula más compleja, la notación analítica la conoceremos, por lo que podremos predecirla también. El mercado es la misma fórmula, sólo que aún más complicada y no se conoce a NOSOTROS...

Razón de la queja: