Discussão do artigo "Redes Neurais de Maneira Fácil (Parte 8): Mecanismos de Atenção"

DeadMorose777 2024.02.17 17:23 #11

Maxim Dmitrievsky #:

O vetor vem de redes de recorrência, pois para traduzir o texto, uma sequência de letras é inserida. Mas a SA tem um codificador que traduz o vetor original em um vetor mais curto que contém o máximo possível de informações sobre o vetor original. Em seguida, esses vetores são decodificados e sobrepostos uns aos outros a cada iteração do treinamento. Ou seja, é um tipo de compressão de informações (seleção de contexto), ou seja, todos os aspectos mais importantes permanecem na opinião do algoritmo, e esse aspecto principal recebe mais peso.

Na verdade, é apenas uma arquitetura, não procure um significado sagrado nela, porque ela não funciona muito melhor em séries temporais do que a NN ou a LSTM comum.

Um vetor é apenas um conjunto sequencial de números. Esse termo não está vinculado a NNs recorrentes ou mesmo ao aprendizado de máquina em geral. Esse termo pode ser usado absolutamente em qualquer problema matemático em que a ordem dos números seja necessária: até mesmo em problemas de aritmética escolar.
Procurar o significado sacral é a coisa mais importante se você precisar projetar algo incomum. E o problema da análise de mercado não está nos modelos em si, mas no fato de que essas séries temporais (de mercado) são muito ruidosas e, seja qual for o modelo usado, ele extrairá exatamente a mesma quantidade de informações que está incorporada. E, infelizmente, isso não é suficiente. Para aumentar a quantidade de informações a serem "extraídas", é necessário aumentar a quantidade inicial de informações. E é justamente quando o volume de informações aumenta que os recursos mais importantes da EO - escalabilidade e adaptabilidade - vêm à tona.

Aprendizado de máquina no Discussão do artigo "Métodos Teoria do Fluxo Aleatório

[Excluído] 2024.02.17 17:29 #12

DeadMorose777 #:
Um vetor é simplesmente um conjunto sequencial de números. Esse termo não está vinculado ao HH recorrente, nem mesmo ao aprendizado de máquina em geral. Esse termo pode ser aplicado absolutamente em qualquer problema matemático em que a ordem dos números seja necessária: até mesmo em problemas de aritmética escolar.
A busca pelo significado sacral é a coisa mais importante se você precisar projetar algo incomum. E o problema da análise de mercado não está nos modelos em si, mas no fato de que essas séries temporais (de mercado) são muito ruidosas e, seja qual for o modelo usado, ele extrairá exatamente a mesma quantidade de informações que está incorporada. E, infelizmente, isso não é suficiente. Para aumentar a quantidade de informações a serem "extraídas", é necessário aumentar a quantidade inicial de informações. E é justamente quando o volume de informações aumenta que os recursos mais importantes da EO - escalabilidade e adaptabilidade - vêm à tona.

Esse termo está associado a redes recorrentes que trabalham com sequências. Ele usa apenas um aditivo na forma de um mecanismo de atenção, em vez de portas como no lstm. Se você fumar a teoria de MO por um longo tempo, poderá chegar praticamente à mesma conclusão.

O fato de o problema não estar nos modelos - concordo 100%. Mas ainda assim, qualquer algoritmo de construção de TC pode ser formalizado de uma forma ou de outra na forma de arquitetura NS :) é uma via de mão dupla.

Teoria do Fluxo Aleatório Rede neural TP rebocador

Dmitriy Gizlyk 2024.02.18 17:58 #13

DeadMorose777 mecanismo de atenção sem nenhuma biblioteca de alto nível e uma implementação de 3 linhas.
Algumas questões conceituais são interessantes:
Como esse sistema de autoatenção difere de uma camada simples totalmente conectada, já que nela também o próximo neurônio tem acesso a todos os anteriores? Qual é sua principal vantagem? Não consigo entender, embora tenha lido muitas palestras sobre esse tópico .

Há uma grande diferença "ideológica" aqui. Em resumo, uma camada de link completo analisa todo o conjunto de dados de origem como um todo único. E mesmo uma alteração insignificante de um dos parâmetros é avaliada pelo modelo como algo radicalmente novo. Portanto, qualquer operação com os dados de origem (compressão/alongamento, rotação, adição de ruído) exige o retreinamento do modelo.

Os mecanismos de atenção, como você percebeu corretamente, trabalham com vetores (blocos de dados), que, nesse caso, é mais correto chamar de Embeddings - uma representação codificada de um objeto separado na matriz analisada de dados de origem. No Self-Attention, cada um desses Embeddings é transformado em três entidades: Query (consulta), Key (chave) e Value (valor). Em essência, cada uma das entidades é uma projeção do objeto em um espaço N-dimensional. Observe que uma matriz diferente é treinada para cada entidade, de modo que as projeções são feitas em espaços diferentes. A consulta e a chave são usadas para avaliar a influência de uma entidade em outra no contexto dos dados originais. O produto de pontos Query do objeto A e Key do objeto B mostra a magnitude da dependência do objeto A em relação ao objeto B. E como a Consulta e a Chave de um objeto são vetores diferentes, o coeficiente de influência do objeto A sobre B será diferente do coeficiente de influência do objeto B sobre A. Os coeficientes de dependência (influência) são usados para formar a matriz Score, que é normalizada pela função SoftMax em termos de objetos Query. A matriz normalizada é multiplicada pela matriz da entidade Value. O resultado da operação é adicionado aos dados originais. Isso pode ser avaliado como a adição de um contexto de sequência a cada entidade individual. Aqui, devemos observar que cada entidade obtém uma representação individual do contexto.

Os dados são então normalizados para que a representação de todos os objetos na sequência tenha uma aparência comparável.

Normalmente, são usadas várias camadas consecutivas de Self-Attention. Portanto, o conteúdo dos dados na entrada e na saída do bloco será muito diferente em termos de conteúdo, mas semelhante em tamanho.

O Transformer foi proposto para modelos de linguagem. E foi o primeiro modelo que aprendeu não apenas a traduzir o texto de origem literalmente, mas também a reorganizar as palavras no contexto do idioma de destino.

Além disso, os modelos Transformer são capazes de ignorar dados (objetos) fora de contexto devido à análise de dados com reconhecimento de contexto.

Discussão do artigo "Redes Aprendizado de máquina no Aprendizado de máquina e

DeadMorose777 2024.02.21 15:47 #14

Dmitriy Gizlyk #:

Há uma grande diferença "ideológica" aqui. Em resumo, a camada de link completo analisa todo o conjunto de dados de entrada como um todo. E mesmo uma alteração insignificante de um dos parâmetros é avaliada pelo modelo como algo radicalmente novo. Portanto, qualquer operação com os dados de origem (compressão/alongamento, rotação, adição de ruído) exige o retreinamento do modelo.

Os mecanismos de atenção, como você percebeu corretamente, trabalham com vetores (blocos de dados), que, nesse caso, é mais correto chamar de Embeddings - uma representação codificada de um objeto separado na matriz analisada de dados de origem. No Self-Attention, cada um desses Embeddings é transformado em três entidades: Query (consulta), Key (chave) e Value (valor). Em essência, cada uma das entidades é uma projeção do objeto em um espaço N-dimensional. Observe que uma matriz diferente é treinada para cada entidade, de modo que as projeções são feitas em espaços diferentes. A consulta e a chave são usadas para avaliar a influência de uma entidade em outra no contexto dos dados originais. O produto de pontos Query do objeto A e Key do objeto B mostra a magnitude da dependência do objeto A em relação ao objeto B. E como a Consulta e a Chave de um objeto são vetores diferentes, o coeficiente de influência do objeto A sobre B será diferente do coeficiente de influência do objeto B sobre A. Os coeficientes de dependência (influência) são usados para formar a matriz Score, que é normalizada pela função SoftMax em termos de objetos Query. A matriz normalizada é multiplicada pela matriz da entidade Value. O resultado da operação é adicionado aos dados originais. Isso pode ser avaliado como a adição de um contexto de sequência a cada entidade individual. Aqui devemos observar que cada objeto obtém uma representação individual do contexto.

Os dados são então normalizados para que a representação de todos os objetos na sequência tenha uma aparência comparável.

Normalmente, são usadas várias camadas consecutivas de Self-Attention. Portanto, o conteúdo dos dados na entrada e na saída do bloco será muito diferente em termos de conteúdo, mas semelhante em termos de tamanho.

O Transformer foi proposto para modelos de linguagem. E foi o primeiro modelo que aprendeu não apenas a traduzir o texto de origem literalmente, mas também a reorganizar as palavras no contexto do idioma de destino.

Além disso, os modelos Transformer são capazes de ignorar dados (objetos) fora de contexto devido à análise de dados com reconhecimento de contexto.

Muito obrigado! Seus artigos ajudaram muito a entender um tópico tão complexo e complexo.

A profundidade de seu conhecimento é realmente incrível.

Discussão do artigo "Redes Neurais de Maneira Fácil (Parte 8): Mecanismos de Atenção" - página 2