Discussão do artigo "Redes neurais em trading: Extração eficiente de características para classificação precisa (Mantis)"

 

Novo artigo Redes neurais em trading: Extração eficiente de características para classificação precisa (Mantis) foi publicado:

Conheça o Mantis, um modelo fundamental leve para classificação de séries temporais baseado em Transformer, com pré-treinamento contrastivo e atenção híbrida, que garantem precisão recorde e escalabilidade.

O framework Mantis demonstra como uma arquitetura bem pensada e um treinamento cuidadoso transformam um conjunto de ideias em uma ferramenta confiável. O foundation-approach apresentado pelos autores do framework se apoia em quatro pilares-chave: tokenização de séries temporais, atenção híbrida, adaptadores para multidimensionalidade e pré-treinamento contrastivo Self-Supervised com calibração posterior.

A ideia central do Mantis está na recusa da divisão tradicional da série temporal em janelas fixas. Em vez disso, utiliza-se a divisão em um número fixo de patches, o que garante independência em relação ao comprimento da sequência de entrada e estabiliza os custos computacionais. Por exemplo, séries de comprimento 1024 e 2048 serão transformadas no mesmo número de patches, 32. Esse tipo de abordagem é criticamente importante no processamento em massa de séries temporais heterogêneas.

A formação da incorporação ocorre em várias etapas. Primeiro, aplica-se uma camada convolucional com 256 canais de saída. Essa camada transforma a série temporal em uma representação espacial mais compacta. Em seguida, cada um dos 32 patches é agregado por meio da operação de média (mean pooling), resultando em um tensor de dimensionalidade (32, 256). Cada patch codifica características locais da série temporal, incluindo picos, oscilações e a microestrutura do movimento de preços.

Em paralelo, é criado um segundo fluxo de dados, o diferencial. Ele é construído com base nas diferenças de primeira ordem entre valores adjacentes da série temporal. Essa transformação ajuda a eliminar tendências de longo prazo e a reforçar sinais associados à dinâmica de curto prazo. Ela é especialmente útil em situações em que o interesse recai sobre desvios em relação a um nível estável ou movimentos bruscos próximos a níveis de suporte e resistência.

Ambos os fluxos passam pelo mesmo procedimento de processamento, isto é, convolução, média e normalização. Na saída, obtêm-se dois conjuntos de patches, cada um com 32 tokens de dimensionalidade 256. Isso fornece ao modelo informações equivalentes tanto sobre a forma do sinal quanto sobre suas mudanças ao longo do tempo.


Autor: Dmitriy Gizlyk