¿Cómo se evalúa en la práctica la contribución de una aportación "específica" al SN? - página 3

 
alexeymosc:
También hay una situación opuesta: teóricamente es posible que haya dos entradas con alta informatividad y una con baja. Lógicamente, quieres eliminar el tercero, pero si lo eliminas, se destruirá la relación compleja de quadro (tres entradas - salida), y las dos entradas restantes ya no serán tan informativas.

Así que lo hago sobre un ejemplo ya hecho por así decirlo y veo inmediatamente el cambio en el resultado del NS tanto en la muestra de entrenamiento como fuera de ella. Si algo se derrumba, debería afectar al resultado final. Eliminé una entrada y no hubo degradación; eliminé otra entrada y hubo una degradación de menos del 1% del resultado final; eliminé la tercera entrada y hubo una degradación del 10%. Luego lo mismo con combinaciones de 2 entradas, 3 entradas, etc.

Sólo llevo un par de horas, pero ya he encontrado una entrada en blanco, una duplicación completa de otra entrada (como resultado de un error) y 2 entradas, cuya repercusión es incluso un mínimo de décimas de porcentaje. Creo que estas 3 entradas son exactamente innecesarias.

También he encontrado 2 entradas cuya exclusión no empeora el resultado, lo cual estaba claro, sino que lo mejora, lo cual es inesperado. Con ellos debería experimentar más, las entradas evidentemente no están vacías y su influencia en el resultado, aunque sea en sentido contrario, puede demostrarlo.

Gracias a todos ustedes, realmente he obtenido algunos consejos útiles.

 
Figar0:

Así que lo hago sobre un ejemplo ya hecho por así decirlo y veo inmediatamente el cambio en el resultado del NS tanto en la muestra de entrenamiento como fuera de ella. Si algo se derrumba, debería afectar al resultado final. Eliminé una entrada y no hubo degradación; eliminé otra entrada y hubo una degradación de menos del 1% del resultado final; eliminé la tercera entrada y hubo una degradación del 10%. Luego lo mismo con combinaciones de 2 entradas, 3 entradas, etc.


Esta es la forma más fiable de seleccionar las entradas: la fuerza bruta. Es difícil, pero es honesto. Buena suerte.
 

Para 20 entradas, un barrido limpio es algo así como 2^20 combinaciones, es decir, un millón.

La teoría de la información me viene a la mente de nuevo, pero no voy a aconsejar nada.

 
Mathemat:

Para 20 entradas, un barrido limpio es algo así como 2^20 combinaciones, es decir, un millón.

Así, puedes pasar "de aquí a la cena" o "hasta que te aburras"...
Y luego una prueba genética... ...de prueba.
 

Es posible determinar la "innecesidad" de una entrada. Cuanto más cerca de 0 esté el peso de una neurona, más "innecesaria" será. Esencialmente, el valor de una neurona se multiplica por 0, ylo que haya en ella dará como resultado 0, es decir, ningunaentrada.

La mayor desventaja de tener una neurona tan innecesaria es un aumento innecesario del tiempo de aprendizaje.

Pero esas neuronas "innecesarias" pueden darse no sólo en la capa de entrada de la red, sino en cualquiera de sus capas.

Se puede automatizar el proceso de búsqueda de neuronas innecesarias después del entrenamiento de prueba - tomar un valor de módulo del peso de la neurona y si el valor es menor que un determinado valor de umbral, anularlo. Entonces hay que analizar qué neuronas tienen peso 0 y excluirlas de la red y volver a entrenar - el entrenamiento será significativamente más rápido y el resultado será el mismo. Y, por supuesto, utilizar posteriormente una malla tan fina.

 
joo:

Es posible determinar la "innecesidad" de una entrada. Cuanto más cerca de 0 esté el peso de una neurona, más "innecesaria" será. Esencialmente, el valor de una neurona se multiplica por 0, ylo que haya en ella dará como resultado 0, es decir,la entrada es como si no existiera en absoluto.


esto es cierto. pero ¿de dónde viene que la entrada sea siempre igual a cero? no puede haber tal cosa.

Lo más probable es que en este caso estemos hablando de una señal que es inconmensurablemente más pequeña que las otras señales. esto se puede corregir fácilmente mediante el escalado de la señal.

La señal de SSI será millones de veces mayor que la de OsMA. Estas señales son inconmensurables y no pueden utilizarse sin escalarlas a la misma escala.

 
joo:


Pero esas neuronas "innecesarias" pueden acabar no sólo en la capa de entrada de la malla, sino en cualquier capa de la malla.


Esto no puede ocurrir si las transformaciones en las neuronas son no lineales
 
mersi:

Es cierto, pero ¿de dónde viene la señal de entrada siempre igual a cero?

lo más probable es que en este caso estemos hablando de una señal inconmensurablemente más pequeña que las otras señales. esto se puede corregir fácilmente con la conversión de la señal.

La señal de SSI será millones de veces mayor que la señal de OsMA. estas señales son inconmensurables y no se pueden utilizar sin reducirlas.

Pensaba que para todos los neuronistas, llevar (escalar) las señales para la red a un rango, adecuado para alimentar a la red, es como el "Padre Nuestro", pero me equivoqué, según veo. :)

Así, las señales se escalan y varían, por ejemplo, en el rango [-1,0;1,0]. Pero una de las neuronas de entrada tiene peso 0. ¿Qué significa? - Significa que a la red no le importa el valor que tenga esta neurona en la entrada, el resultado de la red no depende de esta entrada.

mersi:
esto no puede ocurrir con transformaciones no lineales en las neuronas

Es muy posible que ocurra. Y suele ocurrir así cuando hay más neuronas en las capas internas de las que son necesarias para resolver un problema.

 
joo:

Pensaba que para todos los neuronistas, llevar las señales para la red a un rango, apto para alimentar a la red, era como el "Padre Nuestro", pero me equivoqué, según veo. :)

Así, las señales se escalan y varían, por ejemplo, en el rango [-1,0;1,0]. Pero una de las neuronas de entrada tiene peso 0. ¿Qué significa?- Significa que a la red no le importa qué valor tiene esta neurona en la entrada - el resultado del funcionamiento de la red no depende de esta entrada.

Es muy posible. Y esto suele ocurrir cuando hay más neuronas en las capas internas de las que son necesarias para resolver una tarea.

A primera vista, esta afirmación no parece falsa.

Sin embargo, los datos de la entrada Xi se alimentan simultáneamente a varias neuronas y todas sus sinapsis no son necesariamente iguales a cero, por lo que excluir la entrada Xi cambiará completamente la salida de la red.

--------------

Cuantas más neuronas haya en la red, más precisa y compleja será la red neuronal para resolver.

Los propios desarrolladores de NS limitan el número de neuronas de una red por la razón de una precisión suficiente del resultado para un tiempo de aprendizaje aceptable, ya que el número de épocas necesarias para el entrenamiento de la red crece en una dependencia de potencia del número de neuronas.

 
Figar0:

No es exactamente el viernes, pero ...

Hay un NS, cualquier NS, hay una entrada A={A1, A2, .... A20}. Entrene al NS y obtenga un resultado satisfactorio. ¿Cómo evaluamos en la práctica la contribución de cada elemento de la entrada A1, A2, ... ¿A20 a este resultado?

Las opciones que se me ocurren son:

1) Sumar y calcular de alguna manera todos los pesos con los que el elemento pasa por la red. No tengo muy claro cómo hacerlo, tendría que sumergirme en el funcionamiento de la red y calcular de alguna manera algunos coeficientes, etc.

2) Intentar "poner a cero" de alguna manera, o por ejemplo invertir un elemento del vector de entrada y ver cómo afecta al resultado final. De momento me he decidido por él.

Pero antes de realizar esta segunda variante decidí pedirme consejo. ¿Quién puede haber pensado en este tema más tiempo que yo? ¿Tal vez alguien pueda aconsejarme un libro-artículo?

Aplicar un enfoque sólido basado en la ciencia fuera de su contexto econométrico plantea cuestiones infantiles.

Haciendo una regresión:

Beneficio = s(1) * A0 + ... s(n) * A(n)

Estimamos los coeficientes de esta regresión.

Inmediatamente obtenemos

probabilidad de que un coeficiente específico sea igual a cero - eliminamos dicha entrada

la probabilidad de que todos los coeficientes juntos sean iguales a cero

mediante elipses obtenemos los coeficientes de correlación

prueba de entradas redundantes

realizar una prueba para detectar las entradas que faltan

comprobar la estabilidad de los valores de los coeficientes (evaluar su aleatoriedad)

Razón de la queja: