Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 77): Transformador de covarianza cruzada (XCiT)"
Está perdiendo oportunidades comerciales:
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Registro
Entrada
Usted acepta la política del sitio web y las condiciones de uso
Si no tiene cuenta de usuario, regístrese
Artículo publicado Redes neuronales: así de sencillo (Parte 77): Transformador de covarianza cruzada (XCiT):
En nuestros modelos, a menudo utilizamos varios algoritmos de atención. Y, probablemente, lo más frecuente es utilizar transformadores. Su principal desventaja es la necesidad de recursos. En este artículo, estudiaremos un nuevo algoritmo que puede ayudar a reducir los costes informáticos sin perder calidad.
Los transformadores muestran un gran potencial para resolver problemas de análisis de diversas secuencias. La operación Self-Attention que subyace a los transformadores, proporciona interacciones globales entre todos los tokens de la secuencia. Esto permite evaluar las interdependencias dentro de toda la secuencia analizada. Sin embargo, esto conlleva una complejidad cuadrática en términos de tiempo de cálculo y uso de memoria, lo que dificulta la aplicación del algoritmo a secuencias largas.
Para resolver este problema, los autores del artículo "XCiT: Cross-Covariance Image Transformers" sugirieron una versión "transpuesta" de Self-Attention, que opera a través de canales de características en lugar de fichas, donde las interacciones se basan en una matriz de covarianza cruzada entre claves y consultas. El resultado es una atención de covarianza cruzada (XCA, Cross-Covariance Attention) con una complejidad lineal en el número de tokens, lo que permite un procesamiento eficaz de grandes secuencias de datos. El transformador de imagen de covarianza cruzada (XCiT), basado en XCA, combina la precisión de los transformadores convencionales con la escalabilidad de las arquitecturas convolucionales. Ese artículo confirma experimentalmente la eficacia y generalidad de XCiT. Los experimentos presentados demuestran excelentes resultados en varias pruebas visuales, como la clasificación de imágenes, la detección de objetos y la segmentación de instancias.
Autor: Dmitriy Gizlyk