Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 95): Reducción del consumo de memoria en los modelos de transformadores"

MetaQuotes 2024.12.19 09:29

Artículo publicado Redes neuronales: así de sencillo (Parte 95): Reducción del consumo de memoria en los modelos de transformadores:

Los modelos basados en la arquitectura de transformadores demuestran una gran eficacia, pero su uso se complica por el elevado coste de los recursos tanto en la fase de formación como durante el funcionamiento. En este artículo, propongo familiarizarse con los algoritmos que permiten reducir el uso de memoria de tales modelos.

El método MLKV es una continuación lógica de los algoritmos MQA y GQA. En los métodos especificados, el tamaño de la caché KV se reduce debido a la reducción de cabezas KV, que son compartidas por un grupo de cabezas de atención dentro de una única capa de Autoatención. Un paso totalmente esperado es la compartición de entidades Key y Value entre capas de Autoatención. Este paso puede estar justificado por las recientes investigaciones sobre el papel del bloque FeedForward en el algoritmoTransformer. Se supone que el bloque especificado simula la memoria «Key-Value», procesando diferentes niveles de información. Sin embargo, lo más interesante para nosotros es la observación de que grupos de capas sucesivas computan cosas similares. Más concretamente, los niveles inferiores se ocupan de patrones superficiales, y los superiores de detalles más semánticos. Así, se puede concluir que la atención puede delegarse a grupos de capas manteniendo los cálculos necesarios en el bloque FeedForward. Intuitivamente, los cabezales KV pueden compartirse entre capas que tengan objetivos similares.

Desarrollando estas ideas, los autores del método MLKV proponen el intercambio de claves multinivel. MLKV no sólo comparte cabezas KV entre las cabezas de atención Query de la misma capa Self-Attention, sino también entre las cabezas de atención de otras capas. Esto permite reducir el número total de cabezales KV en el Transformer, permitiendo así una caché KV aún más pequeña.

Autor: Dmitriy Gizlyk

[Eliminado] 2024.06.18 17:29 #1

¿Y cómo se sabe que la red ha aprendido algo en lugar de generar señales aleatorias?

Dmitriy Gizlyk 2024.06.23 18:26 #2

Maxim Dmitrievsky #:
¿Y cómo te das cuenta de que la red ha aprendido algo en lugar de generar señales aleatorias?

La política estocástica del actor supone cierta aleatoriedad de las acciones. Sin embargo, en el proceso de aprendizaje, el rango de dispersión de los valores aleatorios se estrecha fuertemente. La cuestión es que al organizar una política estocástica, se entrenan 2 parámetros para cada acción: el valor medio y la varianza de la dispersión de los valores. Al entrenar la política, el valor medio tiende al óptimo y la varianza tiende a 0.

Para entender cómo de aleatorias son las acciones del Agente, realizo varias pruebas con la misma política. Si el Agente genera acciones aleatorias, el resultado de todas las pasadas será muy diferente. Para una política entrenada la diferencia de resultados será insignificante.

Discusión sobre el artículo De la teoría a Discusión sobre el artículo

[Eliminado] 2024.06.23 21:36 #3

Dmitriy Gizlyk #:

La política estocástica del Actor asume cierta aleatoriedad de las acciones. Sin embargo, en el proceso de entrenamiento, el rango de dispersión de los valores aleatorios se reduce fuertemente. La cuestión es que al organizar una política estocástica, se entrenan 2 parámetros para cada acción: el valor medio y la varianza de la dispersión de valores. Al entrenar la política, el valor medio tiende al óptimo, y la varianza tiende a 0.

Para entender cómo de aleatorias son las acciones del Agente, hago varias pruebas con la misma política. Si el Agente genera acciones aleatorias, el resultado de todas las pasadas será muy diferente. Para una política entrenada la diferencia de resultados será insignificante.

Entendido, gracias.

Nuevo comentario