Discussão do artigo "Redes Neurais de Maneira Fácil (Parte 8): Mecanismos de Atenção"

 

Novo artigo Redes Neurais de Maneira Fácil (Parte 8): Mecanismos de Atenção foi publicado:

Nos artigos anteriores, nós já testamos várias opções para organizar as redes neurais. Nós também estudamos as redes convolucionais emprestadas dos algoritmos de processamento de imagem. Neste artigo, eu sugiro estudarmos os Mecanismos de Atenção, cujo surgimento deu impulso ao desenvolvimento dos modelos de linguagem.

Ao analisar um gráfico de vela do símbolo, nós definimos as tendências, bem como determinamos suas faixas de negociação. Isso significa que nós selecionamos alguns objetos da imagem geral e focamos nossa atenção neles. Nós entendemos que os objetos afetam o comportamento do preço futuro. Para implementar tal abordagem, em 2014 os desenvolvedores propuseram o primeiro algoritmo que analisa e destaca as dependências entre os elementos das sequências de entrada e saída [8]. O algoritmo proposto é denominado "Mecanismo de Atenção Generalizado". Ele foi inicialmente proposto para o uso em modelos de tradução automática utilizando as redes recorrentes como solução para o problema de memória de longo prazo na tradução de frases longas. Esta abordagem melhorou significativamente os resultados das redes neurais recorrentes anteriormente consideradas com base nos blocos LSTM [4].

O modelo clássico de tradução automática usando as redes recorrentes consiste em dois blocos, o Encoder e o Decoder. O primeiro bloco codifica a sequência de entrada no idioma de origem em um vetor de contexto e o segundo bloco decodifica o contexto resultante em uma sequência de palavras no idioma de destino. Quando o comprimento da sequência de entrada aumenta, a influência das primeiras palavras no contexto da frase final diminui. Como consequência, a qualidade da tradução diminui. O uso dos blocos LSTM aumentou ligeiramente a capacidade do modelo, mas ainda assim permaneceram limitados. 


Os autores do mecanismo de atenção generalizado propuseram o uso de uma camada adicional para acumular os estados ocultos de todos os blocos recorrentes da sequência de entrada. Além disso, durante a decodificação da sequência, o mecanismo deve avaliar a influência de cada elemento da sequência de entrada na palavra atual da sequência de saída e sugerir a parte mais relevante do contexto para o decodificador.

Autor: Dmitriy Gizlyk