¿Cómo se evalúa en la práctica la contribución de una aportación "específica" al SN? - página 2

 
nikelodeon:

¿Cuál es la sorpresa?


Bueno, en primer lugar, descubrí inmediatamente un error de hace tiempo).

En segundo lugar, pensé que al eliminar las entradas, disminuiría la informatividad de las mismas, por lo que se reduciría la eficacia del NS en su conjunto. Algunas entradas se deteriorarán mucho, otras poco. Y tal vez encuentre esas entradas, que no afectan a nada en absoluto, y las elimine para simplificar la red. Por supuesto, he encontrado entradas "vacías", he encontrado entradas sin las cuales el NS es incompetente, pero también he encontrado entradas, al eliminarlas, que aumentan el resultado del NS en su conjunto. Esto me sorprende, o la formación es mala, o las aportaciones son demasiado contradictorias y simplemente perjudiciales.

En definitiva, alimento para la reflexión durante unos días.

 
Figar0:


Bueno, en primer lugar, descubrí inmediatamente un error de larga data)

En segundo lugar, pensé que al eliminar las entradas, disminuiría la informatividad de las mismas, por lo que se reduciría la eficacia del NS en su conjunto. Algunas entradas se deteriorarán mucho, otras poco. Y tal vez encuentre esas entradas, que no afectan a nada en absoluto, y las elimine para simplificar la red. Por supuesto, he encontrado entradas "vacías", he encontrado entradas sin las cuales el NS es incompetente, pero también he encontrado entradas, al eliminarlas, que aumentan el resultado del NS en su conjunto. Esto me sorprende, o la formación es mala, o las aportaciones son demasiado contradictorias y simplemente perjudiciales.

Así que tengo material para pensar durante varios días.


puede resultar que en el próximo entrenamiento (en una muestra diferente) sean necesarios...
 
Figar0:

No es exactamente el viernes, pero ...

Hay un NS, cualquier NS, hay una entrada A={A1, A2, .... A20}. Entrene al NS y obtenga un resultado satisfactorio. ¿Cómo evaluamos en la práctica la contribución de cada elemento de la entrada A1, A2, ... ¿A20 a este resultado?

Las opciones que se me ocurren son:

1) Sumar y calcular de alguna manera todos los pesos con los que el elemento pasa por la red. No tengo muy claro cómo hacerlo, tendría que sumergirme en el funcionamiento de la red y calcular de alguna manera algunos coeficientes, etc.

2) Intentar "poner a cero" de alguna manera, o por ejemplo invertir un elemento del vector de entrada y ver cómo afecta al resultado final. De momento me he decidido por él.

Pero antes de realizar esta segunda variante decidí pedirme consejo. ¿Quién puede haber pensado en este tema más tiempo que yo? ¿Tal vez alguien pueda aconsejar un libro-artículo?

Un método común y eficaz es analizar los pesos del NS después del entrenamiento. Los pesos se inicializan de forma que sus valores no sean significativamente diferentes de cero, por ejemplo, media 0, desviación estándar 0,1. Tras el entrenamiento, las ponderaciones relativas a las entradas insignificantes serán modulares, cercanas a cero, mientras que las ponderaciones relativas a las entradas significativas serán muy diferentes de cero. Probado: funciona con datos sintéticos.
 
LeoV:

El grado de influencia de cada entrada es casi imposible de estimar realmente . Hay todo tipo de fórmulas matemáticas y un software especializado puede calcular automáticamente el grado de influencia. Pero todos estos cálculos son sólo un valor aproximado, que en realidad no dice mucho, porque puede tener un gran margen de error.


Sí, en general soy consciente de ello, sería más lógico analizar los insumos en la misma Estadística, pero se asocia con grandes costos de mano de obra para transferir allí en principio un sistema de trabajo. También comprendo toda la ambigüedad de la interpretación de tales experimentos. Pero hay un beneficio y eso es seguro.

 
Vizard:

Puede resultar que en la próxima formación (en una muestra diferente) sean necesarios...
Probablemente sea así, pero hay una NS, está entrenada, funciona, así que puede prescindir de las entradas descartadas y tiene sentido descartarlas para simplificar la red, mejorar su capacidad de generalización y mejorar la calidad del aprendizaje con menos esfuerzo.
 
Figar0:
Probablemente sea así, pero hay una NS, está entrenada, funciona, así que puede prescindir de las entradas descartadas y tiene sentido descartarlas para simplificar la red, mejorar su generalizabilidad y mejorar la calidad del aprendizaje a un menor coste.
+100500. Estoy de acuerdo. ¿Qué sentido tienen las entradas redundantes si el rendimiento de la red no se degrada sin ellas? Tenemos que deshacernos de ellos.
 
alexeymosc:
Un método común y eficaz es analizar los pesos del NS después del entrenamiento. Los pesos se inicializan de manera que sus valores no sean significativamente diferentes de cero, por ejemplo, media 0, desviación estándar 0,1. Tras el entrenamiento, las ponderaciones relativas a las entradas insignificantes tendrán un módulo cercano a cero, mientras que las ponderaciones relativas a las entradas significativas serán muy diferentes de cero. Probado: funciona con datos sintéticos.


Bueno, esto es básicamente lo primero que me vino a la mente, pero no pude pensar en cómo implementar dicho análisis en mi sistema de una manera más fácil. Por eso he seguido el método inverso.

 
Fíjate en lo que ha escrito Leonid, y tiene mucha razón. Encontrar la influencia de las entradas en la salida de la red es una tarea imposible. Sí, es posible tamizar los innecesarios, estoy de acuerdo, pero es prácticamente imposible determinar la influencia de tal o cual entrada en la salida.

Ahora imagina la situación. Ha encontrado 2 entradas que no permiten que la salida neta avance. Se añade una tercera entrada que mejora mucho el funcionamiento de la red. ¿Cuál es su conclusión? Que este insumo tiene un alto impacto en la producción neta. De hecho, la tercera entrada producirá alguna perturbación a corto plazo sólo una o dos veces durante todo el periodo de negociación. Pero es esta perturbación la que será decisiva. Aunque el hecho de la perturbación en sí será insignificante. Así como la eliminación de una de las dos primeras entradas no le dará un resultado satisfactorio. La otra es dirigir el trabajo en la siguiente dirección.

Cuando se entrena una red, se buscan los mínimos locales de la función. Para ser más exactos, buscamos el mínimo global de un error pero pasamos del mínimo local al global.

A menudo me encuentro con una situación en la que un mínimo local de una función muestra resultados ideales en el futuro.

La tarea es sencilla: seleccionar tales entradas a la red (no tendremos que cambiarlas después) que permitan a la red tener mínimos locales durante el entrenamiento, que los ganarán en el futuro.

Digamos que durante el entrenamiento tienes una media de unos 10-20 mínimos locales, y al menos uno de ellos es correcto. Pero es mejor elegir tantos mínimos locales rentables como sea posible......

¿Qué le parece este problema? ????? Esto es más bien una realidad....
 
nikelodeon:
Fíjate en lo que ha escrito Leonid, y tiene mucha razón. Encontrar la influencia de las entradas en la salida de la red es una tarea imposible. Sí, es posible tamizar los innecesarios, estoy de acuerdo, pero es prácticamente imposible determinar la influencia de tal o cual entrada en la salida.

Ahora imagina la situación. Has encontrado 2 entradas que no dejan drenar la salida neta. Se añade una tercera entrada que mejora mucho el funcionamiento de la red. ¿Cuál es su conclusión? Que este insumo tiene un alto impacto en la producción neta. De hecho, la tercera entrada producirá alguna perturbación a corto plazo sólo una o dos veces durante todo el periodo de negociación. Pero es esta perturbación la que será decisiva. Aunque el hecho de la perturbación en sí será insignificante. Así como la eliminación de una de las dos primeras entradas no le dará un resultado satisfactorio. La otra cosa es dirigir el trabajo en esta dirección.

Esto también es cierto. También existe la situación inversa: teóricamente, es posible que haya dos entradas con alta informatividad y una con baja informatividad. Lógicamente, le gustaría eliminar el tercero, pero si lo hace, se destruirá una cuadrorrelación compleja (tres entradas - salida), y las dos entradas restantes ya no serán tan informativas. Y para revelar estas complejas interrelaciones es necesario aplicar tal aparato matemático espacial, y técnicamente se emite, que wow-oho (bueno, al menos para mí). Todo es complicado, no pienses que es fácil. NS está en un 80% de búsqueda empírica.
 
nikelodeon:

Ahora imagina la situación. Ha encontrado 2 entradas que no permiten que la red avance. Añades una tercera entrada que te ayuda mucho. ¿Qué conclusión saca usted? Que este insumo tiene un alto impacto en la producción neta. De hecho, la tercera entrada producirá alguna perturbación a corto plazo sólo una o dos veces durante todo el periodo de negociación. Pero es esta perturbación la que será decisiva. Aunque el hecho de la perturbación en sí será insignificante. Así como la eliminación de una de las dos primeras entradas no le dará un resultado satisfactorio. La otra cosa es dirigir el trabajo en esta dirección.

Está claro que las entradas están interconectadas y la interpretación de los resultados de estos experimentos es el aspecto más importante. Excluyo las entradas no sólo de una en una, sino también diferentes combinaciones de ellas de 1 a 5 (creo que ampliaré este rango a la mitad de todas las entradas), de forma análoga a su adición de una entrada más y observo los cambios en la respuesta de NS, tanto en las etapas de formación como en las de avance.

nikelodeon:

Cuando se entrena una red, se buscan los mínimos locales de la función. Para ser más exactos, buscamos el mínimo global de un error pero pasamos del mínimo local al global.

No es raro, ni siquiera frecuente, que me encuentre con estos casos en los que un mínimo local de una función muestra resultados ideales en el futuro.

La tarea es simple: encontrar tales entradas a la red (no tendremos que cambiarlas después) que permitan a la red durante el entrenamiento tener mínimos locales que ganen los resultados futuros.

Digamos que durante el entrenamiento tienes una media de unos 10-20 mínimos locales, y al menos uno de ellos es correcto. Pero es mejor elegir tantos mínimos locales rentables como sea posible......

¿Qué le parece este problema? ????? Esto es más bien una realidad....

Las realidades son diferentes para cada uno) En particular no busco el mínimo error, busco el máximo beneficio, el mínimo drawdown, satisfacer el PF, etc. En otras palabras, tengo máximos locales, pero no cambia su esencia. Mi problema se resuelve poco o mal, pero durante mucho tiempo ...

Razón de la queja: