Queimar transformadores em grãos é uma habilidade legal de alto nível, na minha opinião, do autor do artigo
Concordo plenamente. O primeiro artigo causou dúvidas vagas com todos os tipos de 5S), mas, depois de parafusar os kernels, só quero elogiar o autor incansavelmente))))
Ainda assim, os resultados do teste são piores do que os do artigo anterior. Gostaria de ouvir os comentários do autor a esse respeito.
O que está refletido no artigo é menos de 5% do que o autor poderia e provavelmente queria dizer com este artigo. Se você vir apenas esses 5% e não tiver tentado fazer experimentos em outras tarefas, o artigo será de pouca utilidade.
No mínimo, você precisa de testes abrangentes e multifacetados.
O que está refletido no artigo é menos de 5% do que o autor poderia e provavelmente queria dizer com esse artigo. Se você enxergar apenas esses 5% e não tentar fazer experimentos em outras tarefas, o artigo será de pouca utilidade.
No mínimo, você precisa de testes abrangentes e multifacetados.
É isso que estou tentando provocar o autor com outros 0,5% de informações. No final de seus artigos anteriores, o autor comparou seus resultados com os anteriores.
Para mim, é a tentativa de usar mecanismos de atenção para prever sinais de negociação que é de particular interesse. Afinal, se essa abordagem é reconhecida como a mais eficaz para a geração de texto (e o GPT realmente faz maravilhas), podemos esperar que ela seja eficaz ao trabalhar com outros tipos de sequências - séries numéricas de cotações.
E para a implementação multithread do Self-Attention - é claro, obrigado e respeito ao autor.
Algumas questões conceituais são interessantes:
Como esse sistema de autoatenção difere de uma camada simples totalmente conectada, já que nela também o próximo neurônio tem acesso a todos os anteriores? Qual é sua principal vantagem? Não consigo entender, embora tenha lido muitas palestras sobre esse tópico.
Ключевое отличие механизма Self-attention от простого полносвязного слоя заключается в способности Self-attention динамически выделять различные части входных данных. В отличие от полносвязного слоя, который обрабатывает все входы одинаково, Self-attention присваивает различные веса разным частям входных данных, фокусируясь на более релевантных частях для выполнения задачи.
Essa ponderação dinâmica oferece a principal vantagem do mecanismo: maior sensibilidade do modelo às relações entre os elementos da sequência de entrada, melhorando o desempenho em tarefas que exigem compreensão contextual.
Não sou o autor do artigo, mas aqui está a resposta que encontrei para suas perguntas:
Se formos reformular em linguagem humana, o significado é o seguinte: "o mecanismo SA é um desenvolvimento de uma rede neural totalmente conectada, e a principal diferença em relação à PNN é que o elemento elementar que a PNN analisa é a saída de um único neurônio, enquanto o elemento elementar que a SA analisa é um determinado vetor de contexto"? Estou certo ou há outras diferenças importantes?
Também vi essa tradução automática, mas ainda assim ela está um pouco incorreta.
Se a reformularmos para a linguagem humana, o significado é o seguinte: "o mecanismo SA é um desenvolvimento de uma rede neural totalmente conectada, e a principal diferença em relação à PNN é que o elemento elementar que a PNN analisa é a saída de um único neurônio, enquanto o elemento elementar que a SA analisa é um determinado vetor de contexto"? Estou certo ou há outras diferenças importantes?
O vetor é de redes recorrentes, porque uma sequência de letras é alimentada para traduzir o texto. MAS a SA tem um codificador que traduz o vetor original em um vetor de comprimento menor que carrega o máximo possível de informações sobre o vetor original. Em seguida, esses vetores são decodificados e sobrepostos uns aos outros a cada iteração do treinamento. Ou seja, é um tipo de compressão de informações (seleção de contexto), ou seja, todos os aspectos mais importantes permanecem na opinião do algoritmo, e esse aspecto principal recebe mais peso.
Na verdade, é apenas uma arquitetura, não procure um significado sagrado nela, porque ela não funciona muito melhor em séries temporais do que a NN ou a LSTM comum.
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Você concorda com a política do site e com os termos de uso
Novo artigo Redes Neurais de Maneira Fácil (Parte 8): Mecanismos de Atenção foi publicado:
Nos artigos anteriores, nós já testamos várias opções para organizar as redes neurais. Nós também estudamos as redes convolucionais emprestadas dos algoritmos de processamento de imagem. Neste artigo, eu sugiro estudarmos os Mecanismos de Atenção, cujo surgimento deu impulso ao desenvolvimento dos modelos de linguagem.
Ao analisar um gráfico de vela do símbolo, nós definimos as tendências, bem como determinamos suas faixas de negociação. Isso significa que nós selecionamos alguns objetos da imagem geral e focamos nossa atenção neles. Nós entendemos que os objetos afetam o comportamento do preço futuro. Para implementar tal abordagem, em 2014 os desenvolvedores propuseram o primeiro algoritmo que analisa e destaca as dependências entre os elementos das sequências de entrada e saída [8]. O algoritmo proposto é denominado "Mecanismo de Atenção Generalizado". Ele foi inicialmente proposto para o uso em modelos de tradução automática utilizando as redes recorrentes como solução para o problema de memória de longo prazo na tradução de frases longas. Esta abordagem melhorou significativamente os resultados das redes neurais recorrentes anteriormente consideradas com base nos blocos LSTM [4].
O modelo clássico de tradução automática usando as redes recorrentes consiste em dois blocos, o Encoder e o Decoder. O primeiro bloco codifica a sequência de entrada no idioma de origem em um vetor de contexto e o segundo bloco decodifica o contexto resultante em uma sequência de palavras no idioma de destino. Quando o comprimento da sequência de entrada aumenta, a influência das primeiras palavras no contexto da frase final diminui. Como consequência, a qualidade da tradução diminui. O uso dos blocos LSTM aumentou ligeiramente a capacidade do modelo, mas ainda assim permaneceram limitados.
Os autores do mecanismo de atenção generalizado propuseram o uso de uma camada adicional para acumular os estados ocultos de todos os blocos recorrentes da sequência de entrada. Além disso, durante a decodificação da sequência, o mecanismo deve avaliar a influência de cada elemento da sequência de entrada na palavra atual da sequência de saída e sugerir a parte mais relevante do contexto para o decodificador.
Autor: Dmitriy Gizlyk