Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 8): Mecanismos de atención" - página 2

 
Maxim Dmitrievsky #:

El vector procede de las redes de recurrencia, porque para traducir el texto se introduce una secuencia de letras. Pero SA tiene un codificador que traduce el vector original en un vector más corto que lleva tanta información sobre el vector original como sea posible. A continuación, estos vectores se descodifican y se superponen en cada iteración del entrenamiento. Es decir, se trata de una especie de compresión de la información (selección del contexto), es decir, lo más importante permanece en opinión del algoritmo, y a esto principal se le da más peso.

De hecho, es sólo una arquitectura, no busques ahí un significado sagrado, porque no funciona mucho mejor en series temporales que las NN o LSTM habituales.

Un vector no es más que un conjunto secuencial de números. Este término no está ligado a las NN recurrentes, ni siquiera al aprendizaje automático en general. Este término se puede utilizar absolutamente en cualquier problema matemático en el que se requiera el orden de los números: incluso en problemas de aritmética escolar.
Buscar el significado sacral es lo más importante si se necesita diseñar algo inusual. Y el problema del análisis de mercados no está en los modelos en sí, sino en el hecho de que estas series temporales (de mercado) son demasiado ruidosas y, sea cual sea el modelo que se utilice, sacará exactamente tanta información como la que contengan. Y, por desgracia, no es suficiente. Para aumentar la cantidad de información que se "extrae", es necesario aumentar la cantidad inicial de información. Y es precisamente cuando aumenta la cantidad de información cuando salen a relucir las características más importantes de la OE: la escalabilidad y la adaptabilidad.
 
DeadMorose777 #:
Un vector es simplemente un conjunto secuencial de números. Este término no está ligado al HH recurrente, ni siquiera al aprendizaje automático en general. Este término se puede aplicar absolutamente en cualquier problema matemático en el que se requiera el orden de los números: incluso en problemas de aritmética escolar.
Buscar el significado sacral es lo más importante si se necesita diseñar algo inusual. Y el problema del análisis de mercados no está en los modelos en sí, sino en el hecho de que estas series temporales (de mercado) son demasiado ruidosas y, sea cual sea el modelo que se utilice, sacará exactamente tanta información como la que contengan. Y, por desgracia, no es suficiente. Para aumentar la cantidad de información que se "extrae", es necesario aumentar la cantidad inicial de información. Y es precisamente cuando aumenta la cantidad de información cuando salen a relucir las características más importantes de la OE: la escalabilidad y la adaptabilidad.

Este término se aplica a las redes recurrentes que trabajan con secuencias. Sólo utiliza un aditivo en forma de mecanismo de atención, en lugar de puertas como en lstm. Puedes llegar más o menos a lo mismo por tu cuenta si fumas teoría MO durante mucho tiempo.

Que el problema no está en los modelos - 100% de acuerdo. Pero aún así, cualquier algoritmo de construcción de CT puede ser formalizado de una manera u otra en forma de arquitectura NS :) es una calle de doble sentido.
 
DeadMorose777 mecanismo de atención sin librerías de alto nivel y una implementación de 3 líneas.
Algunas cuestiones conceptuales son interesantes:
¿En qué se diferencia este sistema de autoatención de una simple capa totalmente conectada, porque en ella también la neurona siguiente tiene acceso a todas las anteriores? ¿Cuál es su ventaja clave? No consigo entenderlo, aunque he leído bastantes conferencias sobre este tema
.

Aquí hay una gran diferencia "ideológica". En resumen, una capa de enlace completo analiza todo el conjunto de datos de origen como un todo único. E incluso un cambio insignificante de uno de los parámetros es evaluado por el modelo como algo radicalmente nuevo. Por lo tanto, cualquier operación con los datos de origen (compresión/estiramiento, rotación, adición de ruido) requiere un reentrenamiento del modelo.

Los mecanismos de atención, como usted ha notado correctamente, trabajan con vectores (bloques de datos), que en este caso es más correcto llamar Embeddings - una representación codificada de un objeto separado en el conjunto analizado de datos de origen. En Self-Attention, cada uno de estos Embeddings se transforma en 3 entidades: Query (consulta), Key (clave) y Value (valor). En esencia, cada una de las entidades es una proyección del objeto en un espacio de N dimensiones. Tenga en cuenta que para cada entidad se forma una matriz distinta, por lo que las proyecciones se realizan en espacios diferentes. Query y Key se utilizan para evaluar la influencia de una entidad sobre otra en el contexto de los datos originales. El producto de puntos Query del objeto A y Key del objeto B muestra la magnitud de la dependencia del objeto A sobre el objeto B. Y como Query y Key de un objeto son vectores diferentes, el coeficiente de influencia del objeto A sobre B será diferente del coeficiente de influencia del objeto B sobre A. Los coeficientes de dependencia (influencia) se utilizan para formar la matriz de puntuación, que se normaliza mediante la función SoftMax en términos de objetos de consulta. La matriz normalizada se multiplica por la matriz de entidad Valor. El resultado de la operación se añade a los datos originales. Esto puede evaluarse como añadir un contexto de secuencia a cada entidad individual. Aquí hay que señalar que cada entidad obtiene una representación individual del contexto.

A continuación, los datos se normalizan para que la representación de todos los objetos de la secuencia tenga un aspecto comparable.

Normalmente, se utilizan varias capas consecutivas de autoatención. Por lo tanto, los contenidos de los datos en la entrada y la salida del bloque serán muy diferentes en contenido, pero similares en tamaño.

Transformer se propuso para los modelos lingüísticos. Y fue el primer modelo que aprendió no sólo a traducir literalmente el texto de origen, sino también a reordenar las palabras en el contexto de la lengua de destino.

Además, los modelos Transformer son capaces de ignorar los datos fuera de contexto (objetos) gracias al análisis de datos consciente del contexto.

 
Dmitriy Gizlyk #:

Aquí hay una gran diferencia "ideológica". En resumen, la capa de enlace completo analiza todo el conjunto de datos de entrada como un todo. E incluso un cambio insignificante de uno de los parámetros es evaluado por el modelo como algo radicalmente nuevo. Por lo tanto, cualquier operación con los datos de origen (compresión/estiramiento, rotación, adición de ruido) requiere un reentrenamiento del modelo.

Los mecanismos de atención, como usted ha notado correctamente, trabajan con vectores (bloques de datos), que en este caso es más correcto llamar Embeddings - una representación codificada de un objeto separado en el conjunto analizado de datos de origen. En Self-Attention, cada uno de estos Embeddings se transforma en 3 entidades: Query (consulta), Key (clave) y Value (valor). En esencia, cada una de las entidades es una proyección del objeto en un espacio de N dimensiones. Tenga en cuenta que para cada entidad se forma una matriz distinta, por lo que las proyecciones se realizan en espacios diferentes. Query y Key se utilizan para evaluar la influencia de una entidad sobre otra en el contexto de los datos originales. El producto de puntos Query del objeto A y Key del objeto B muestra la magnitud de la dependencia del objeto A sobre el objeto B. Y como Query y Key de un objeto son vectores diferentes, el coeficiente de influencia del objeto A sobre B será diferente del coeficiente de influencia del objeto B sobre A. Los coeficientes de dependencia (influencia) se utilizan para formar la matriz de puntuación, que se normaliza mediante la función SoftMax en términos de objetos de consulta. La matriz normalizada se multiplica por la matriz de entidad Valor. El resultado de la operación se añade a los datos originales. Esto puede evaluarse como añadir un contexto de secuencia a cada entidad individual. Aquí hay que señalar que cada objeto obtiene una representación individual del contexto.

A continuación, los datos se normalizan para que la representación de todos los objetos de la secuencia tenga un aspecto comparable.

Normalmente, se utilizan varias capas consecutivas de autoatención. Por lo tanto, los contenidos de los datos a la entrada y a la salida del bloque serán muy diferentes en contenido, pero similares en tamaño.

Transformer se propuso para los modelos lingüísticos. Y fue el primer modelo que aprendió no sólo a traducir literalmente el texto de origen, sino también a reordenar las palabras en el contexto de la lengua de destino.

Además, los modelos Transformer son capaces de ignorar los datos fuera de contexto (objetos) gracias al análisis de datos consciente del contexto.

¡Muchas gracias! Tus artículos han ayudado mucho a comprender un tema tan complejo y complejo.

La profundidad de tus conocimientos es realmente asombrosa.