Discussão do artigo "Reamostragem avançada e seleção de modelos CatBoost pelo método de força bruta" - página 14
Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
Karoch Não sei, talvez eu tenha um gmm errado ))) Mas não vejo diferença entre com ele e sem ele, em minha opinião tudo é decidido pelo alvo e nada mais....
Tenho 60 mil dados no total.
Pego os primeiros 10 mil e seleciono aleatoriamente 500 pontos.
Treino o modelo com eles imediatamente ou treino o gmm e, em seguida, treino o modelo.
testo os 50 mil restantes
E mesmo da maneira usual, você pode encontrar modelos como o gmm e, com a mesma frequência, eles são genetisados.
Por exemplo
o modelo sem gmm é treinado em 500 pontos e testado em 50 mil.
=================================================================================================
Vi uma coisa interessante para se pensar.....
Existe um ponto de vista segundo o qual o mercado deveria ser dividido em estados e negociar em cada estado uma estratégia diferente, mas todas as tentativas conhecidas por mim não tiveram êxito, ou o estado não é visto ou o modelo negocia mal mesmo em um "tipo de estado".
Mas, com essa abordagem, você pode ver claramente de qual mercado o modelo "gosta". e de quais ele não gosta.
Provavelmente por causa dos retornos do mashka como sinais, o modelo funciona melhor em flat.
Você pode dividir manualmente em estados e inserir esses períodos na trilha. Você precisa equilibrar os exemplos por "estados" ou criar exemplos artificiais por meio do gmm
Sim, você pode fazer o HMM por estado, mas tudo será reconhecido por uma janela deslizante, portanto, com uma defasagem no tamanho da janela, portanto, ...... )
Acabei de ver que há uma visão realmente clara dos estados, o que me pareceu interessante.
Sim, você pode fazer o HMM por estados, mas tudo será reconhecido por uma janela deslizante, ou seja, com um atraso no tamanho da janela, o que significa ...... )
Acabei de ver que você pode ver os estados com muita clareza aqui, o que me pareceu interessante.
. Como é possível que eu nunca tenha obtido resultados como esses em um modelo nu? Talvez alguns Mashkas consigam fazer isso.
Com o gmm, tenho tentado coisas diferentes, isso e aquilo.
Tenho uma obsessão por criar uma amostra de treinamento otimizando distribuições ou funções.
Sem usar nenhuma amostra, basta gerar "algo" e testá-lo em dados reais.
Mas ainda não sei como fazer isso
=====================================================
Também tenho uma ideia para melhorar a qualidade removendo árvores ruins do modelo, o que também pode ajudar.
Tenho uma obsessão por criar uma amostra de treinamento otimizando distribuições ou funções.
Depois, sem começar com nenhuma amostra, basta gerar "algo" e testá-lo em dados reais.
Mas ainda não sei como fazer isso.
=====================================================
Também tenho uma ideia para melhorar a qualidade removendo árvores ruins do modelo, o que também pode ajudar.
É uma abordagem curiosa. Para equilibrar as classes. Poderia ser usada para nossos propósitos. Isso acabou de me ocorrer.
https://towardsdatascience.com/augmenting-categorical-datasets-with-synthetic-data-for-machine-learning-a25095d6d7c8
Tentei integrar essa abordagem ao clusterizador do artigo, mas não como um método de balanceamento de classe, e sim como um gerador de um novo conjunto de dados balanceado.
Há um ótimo método para calcular a distância de Mahalanobis entre duas matrizes unidimensionais. O artigo diz que se trata de uma generalização multivariada de quantos desvios padrão uma amostra está da média da distribuição
Ainda não experimentei totalmente essa métrica, mas o autor sugere usá-la para avaliar se os recursos gerados pertencem a uma determinada classe .
https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.mahalanobis.html
Para calcular esse indicador, precisamos de duas matrizes univariadas e uma matriz de covariância.
No nosso caso, a primeira matriz é o recurso gerado e a segunda matriz é a distribuição média dos recursos do GMM. A matriz de covariância também é obtida do GMM. O GMM é preparado para cada classe separadamente. Também são gerados a média, os desvios padrão de cada característica e os rótulos. Eles são necessários para gerar novos dados.
Tudo está pronto para gerar e selecionar novos dados. Abaixo, aleatoriamente, com base na média e no desvio, são gerados recursos para cada classe em um número mais de 60 vezes maior do que o especificado. Isso é necessário para ter algo para escolher. E os rótulos são trazidos para o estado 0 -1.
Depois, para cada amostra, é calculado o índice de distância de Mahalanobis em relação às matrizes de distribuições médias do GMM para ambas as classes. É obtida uma matriz de 2 valores que mostram a proximidade da amostra gerada com ambas as classes. Se o rótulo coincidir com ele, nós o adicionamos à amostra de treinamento. E quando a amostra atinge o valor definido, passamos para a próxima classe. Dessa forma, obtemos uma amostra perfeitamente equilibrada.
Mas isso não cancela a dança do pandeiro e as relações complexas com a aleatoriedade. Mas se você se esforçar bastante, poderá obter um resultado normal:
Se eu tiver tempo e energia, tentarei semear as distribuições de recursos de 25 a 75 quantis no gerador, talvez isso dê algum resultado.
Também tentei usar o indicador de distância para avaliar a escolha dos recursos de destino. A ideia era que, com rótulos e alvos selecionados corretamente, o valor médio desse indicador diminuiria.
Executei todas as combinações "bem-sucedidas" disponíveis de alvo e recursos e também reproduzi as combinações "malsucedidas". Com uma análise tão superficial, o índice diminui para as variantes bem-sucedidas e aumenta para as mal-sucedidas. Pode haver alguma correlação, mas é preciso verificar. Se você tiver alguma versão de scanner de grade ou GA, poderá verificar isso
Tentei integrar essa abordagem ao mecanismo de agrupamento do artigo, mas não como um método de balanceamento de classe, e sim como um gerador de um novo conjunto de dados balanceado.
Executei todas as combinações "bem-sucedidas" de destino e atributos e reproduzi as combinações "malsucedidas". Nessa análise superficial, o índice diminui para as variantes bem-sucedidas e aumenta para as variantes malsucedidas. Pode haver alguma correlação, mas é preciso verificar. Se você tiver alguma versão do grid scanner ou GA, poderá verificar isso
Ainda não há scanner. Ótimo, vou ter que dar uma olhada mais de perto. Até o momento, tenho reunido informações sobre abordagens adicionais que podem aprimorar o modelo (além dos codificadores). Provavelmente formalizarei um artigo em breve.
Ainda não há scanner. Ótimo, vou ter que dar uma olhada mais de perto. Enquanto isso, tenho reunido informações sobre outras abordagens que podem aprimorar o modelo (além dos codificadores). Provavelmente formalizarei um artigo em breve.
Com relação à combinação de modelos bem-sucedidos no processo de busca, mencionada anteriormente, tentei combinar modelos bem-sucedidos com atributos diferentes. Essa técnica equilibra a redução em algumas partes do histórico. Também notei que adicionar modelos com R^2 a partir de 0,65 melhora os resultados, mesmo se houver modelos com R^2 0,85-0,95.
Além da combinação acima mencionada de modelos bem-sucedidos no processo de busca, tentei combinar modelos bem-sucedidos com atributos diferentes. Essa técnica equilibra o rebaixamento em algumas partes do histórico. Também foi observado que adicionar modelos com R^2 a partir de 0,65 melhora os resultados, mesmo que haja modelos com R^2 0,85-0,95.
Sim, mas muitas vezes à custa da redução do número de negociações em 10 a 20%.