Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 3187

 
Não entendi o significado do que aconteceu, mas esse é um estado de espírito normal para mim.
 
fxsaber #:.

ZЫ Em geral, se houver interesse em tentar encontrar diferenças entre as duas linhas, podemos fornecê-las.

Dê uma olhada no que escrevi para você. Só poderei dar uma olhada pessoalmente no outono.

 
Aleksey Nikolayev #

Forester#:

Fiz um experimento com a amostra na qual publiquei os gifs, já existem 47% de unidades na amostra, os dados estão resumidos em uma tabela.


Descrição do conteúdo das colunas:

  • Geração - o número de geração aleatória do alvo com um número fixo de "1" e "0", a última linha - o alvo original
  • % Similaridade de todos - a porcentagem de similaridade do alvo é especificada.
  • Similaridades "1" - a porcentagem de similaridade do alvo é especificada, mas somente para a resposta "1".
  • % Similaridade "0" - a porcentagem de similaridade do alvo é fornecida, mas somente para uma resposta "0".
  • Q_All - quantos segmentos quânticos totais foram encontrados usando 870 tabelas quânticas e 6533 predicados
  • Q_All% - quantos "Q_All" como porcentagem da amostra com o alvo original
  • Q sampled (Q amostrado) - mostra quantos segmentos quânticos foram amostrados (somente aqueles que não se sobrepõem no intervalo são amostrados)
  • Q selected% - quantos "Q selected" em expressão de porcentagem da amostra com o alvo original.
  • Predictors (Preditores) - para quantos preditores da amostra foi possível encontrar um segmento quântico que atendesse aos critérios fornecidos
  • Predictors % - quantos "Predictors" em expressão percentual da amostra com o alvo original

Deixe-me explicar que, para um preditor, mais de um segmento quântico pode ser selecionado no total, e esses segmentos não devem se sobrepor no intervalo do valor do preditor.

O que eu não gosto é que na vizinhança de 50% dos alvos sejam deixados no lugar, o que pode afetar negativamente a avaliação do resultado.

De fato, verifica-se que muitos segmentos quânticos foram encontrados em alvos aleatórios, mas como eram alguns clusters (presumivelmente), diferentes tabelas sobrepuseram suas coordenadas, portanto, depois de selecionar intervalos não sobrepostos, verificou-se que a qualidade (utilidade) desses segmentos quânticos é pior (menor) do que os originais por um fator de 10. Assim, em média, na amostra com o alvo original, foram encontrados mais cortes quânticos para diferentes preditores em 3,5 vezes.

O que você acha dos resultados?

Adicionado:

O gráfico da sequência binária do alvo aleatório e do original tem a seguinte aparência


 
Aleksey Vyazmikin #:

Realizei um experimento com a amostra na qual publiquei os gifs; já existem 47% de unidades na amostra; os dados estão resumidos na tabela.


Descrição do conteúdo das colunas:

  • Geração - o número de gerações aleatórias do alvo com um número fixo de "1" e "0", a última linha - o alvo original
  • % Similaridade de todos - a porcentagem de similaridade do alvo é especificada.
  • Similaridades "1" - a porcentagem de similaridade do alvo é especificada, mas somente para a resposta "1".
  • % Similaridade "0" - a porcentagem de similaridade do alvo é fornecida, mas somente para uma resposta "0".
  • Q_All - quantos segmentos quânticos totais foram encontrados usando 870 tabelas quânticas e 6533 predicados
  • Q_All% - quantos "Q_All" como porcentagem da amostra com o alvo original
  • Q sampled (Q amostrado) - mostra quantos segmentos quânticos foram amostrados (somente aqueles que não se sobrepõem no intervalo são amostrados)
  • Q selected% - quantos "Q selected" em expressão de porcentagem da amostra com o alvo original.
  • Predictors (Preditores) - para quantos preditores da amostra foi possível encontrar um segmento quântico que atendesse aos critérios fornecidos
  • Predictors % - quantos "Predictors" em expressão percentual da amostra com o alvo original

Deixe-me explicar que, para um preditor, mais de um segmento quântico pode ser selecionado no total, e esses segmentos não devem se sobrepor no intervalo do valor do preditor.

O que eu não gosto é que na vizinhança de 50% dos alvos sejam deixados no lugar, o que pode afetar negativamente a avaliação do resultado.

De fato, verifica-se que muitos segmentos quânticos foram encontrados em alvos aleatórios, mas como eram alguns clusters (presumivelmente), diferentes tabelas sobrepuseram suas coordenadas, portanto, depois de selecionar intervalos não sobrepostos, verificou-se que a qualidade (utilidade) desses segmentos quânticos é pior (menor) do que os originais por um fator de 10. Assim, em média, na amostra com o alvo original, foram encontrados mais cortes quânticos para diferentes preditores em 3,5 vezes.

O que você acha dos resultados?

Pergunta para Alexei. Não sou especialista em teoria estatística. Apenas sugeri misturar o alvo em vez da geração.
 
Forester #:
Pergunta para Alexei. Não sou bom em teoria estatística. Apenas sugeri misturar o alvo em vez da geração.

Entendo.

Tenho outra sugestão para você: e se tornássemos mais gerenciável o processo de construção da floresta e pegássemos uma subamostra específica do segmento quântico selecionado como raiz de cada árvore?

Faça a profundidade em torno de 2 a 3 divisões, de modo que os exemplos de classe classificável por folha sejam de pelo menos 1%.

Acho que o modelo será mais estável.

 
Aleksey Vyazmikin #:

Realizei um experimento com a amostra na qual publiquei os gifs; já existem 47% de unidades na amostra; os dados estão resumidos na tabela.


Descrição do conteúdo das colunas:

  • Geração - o número de gerações aleatórias do alvo com um número fixo de "1" e "0", a última linha - o alvo original
  • % Similaridade de todos - a porcentagem de similaridade do alvo é especificada.
  • Similaridades "1" - a porcentagem de similaridade do alvo é especificada, mas somente para a resposta "1".
  • % Similaridade "0" - a porcentagem de similaridade do alvo é fornecida, mas somente para uma resposta "0".
  • Q_All - quantos segmentos quânticos totais foram encontrados usando 870 tabelas quânticas e 6533 predicados
  • Q_All% - quantos "Q_All" como porcentagem da amostra com o alvo original
  • Q sampled (Q amostrado) - mostra quantos segmentos quânticos foram amostrados (somente aqueles que não se sobrepõem no intervalo são amostrados)
  • Q selected% - quantos "Q selected" em expressão de porcentagem da amostra com o alvo original.
  • Predictors (Preditores) - para quantos preditores da amostra foi possível encontrar um segmento quântico que atendesse aos critérios fornecidos
  • Predictors % - quantos "Predictors" em expressão percentual da amostra com o alvo original

Deixe-me explicar que, para um preditor, mais de um segmento quântico pode ser selecionado no total, e esses segmentos não devem se sobrepor no intervalo do valor do preditor.

O que eu não gosto é que na vizinhança de 50% dos alvos sejam deixados no lugar, o que pode afetar negativamente a avaliação do resultado.

De fato, verifica-se que muitos segmentos quânticos foram encontrados em alvos aleatórios, mas como eram alguns clusters (presumivelmente), diferentes tabelas sobrepuseram suas coordenadas, portanto, depois de selecionar intervalos não sobrepostos, verificou-se que a qualidade (utilidade) desses segmentos quânticos é pior (menor) do que os originais por um fator de 10. Assim, em média, na amostra com o alvo original, foram encontrados mais cortes quânticos para diferentes preditores em 3,5 vezes.

O que você acha dos resultados?

Adicionado:

O gráfico da sequência binária do alvo aleatório e do original tem a seguinte aparência


Dez simulações não são nada, você precisa de milhares para obter significância estatística.

Também não estou pronto para dar uma opinião especializada em um caso específico, mas apenas indiquei possíveis problemas e maneiras comuns de resolvê-los.

 
Aleksey Vyazmikin #:

O que você acha dos resultados?

Adicionado:

O gráfico da sequência binária do alvo aleatório e do original tem a seguinte aparência

Você está fazendo uma bobagem sem sentido e implacável. Saber, pelo menos, fez com que isso acontecesse em meia hora e se esqueceu disso.
 
Aleksey Nikolayev #:

Dez simulações não são nada, você precisa de milhares para obter significância estatística.

Também não estou pronto para dar uma opinião especializada em um caso específico, mas apenas apontei possíveis problemas e maneiras comuns de resolvê-los.

Milhares - exige muitos recursos de computação - uma passagem - cerca de 40 minutos - cálculo básico em uma placa de vídeo.

Em geral, eu achava que esse teste só permitia verificar a possibilidade de tais agrupamentos em diferentes intervalos do preditor.

E é necessário observar a probabilidade de atingir um intervalo específico do segmento quântico, que já foi inicialmente selecionado.

Ainda assim, eu gostaria de ouvir a opinião sobre a questão da diferença do alvo na expressão percentual para a confiabilidade desse teste.

 
Maxim Dmitrievsky #:
Você está fazendo uma bobagem sem sentido e implacável. Saber, pelo menos, fez com que isso acontecesse em meia hora e esqueceu o assunto.

Guarde suas avaliações do desempenho de outras pessoas para si mesmo, especialmente quando não entende o que a outra pessoa está fazendo.

Estou aberto a críticas construtivas, e não há nenhuma vinda de você.

 
Aleksey Vyazmikin #:

Guarde para si as avaliações do desempenho de outras pessoas, especialmente quando não entender o que a outra pessoa está fazendo.

Estou aberto a críticas construtivas, e você não está.

Você está fazendo besteira. Já foi escrito várias vezes que você obterá QUALQUER resultado ao acaso. Abra seus olhos para ver. Nada a acrescentar :)

Você pode pelo menos entender o que está fazendo e por quê?)