Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2792

 
Maxim Dmitrievsky #:
Fiz a mesma coisa com o agrupamento há mais de um ano, depois determinei os níveis médios, como nas fotos, e fiz pedidos a partir deles. Dividi em 3 clusters: alta, baixa e reversão à média. Funciona muito bem no treinamento.
O engraçado é que, independentemente dos meios especiais que você use, não é possível obter nada de bom a partir do aleatório

Sim. Aparentemente, não é possível obter nada dos preços. Não há mais nada. Também há volumes na bolsa de valores.
Aparentemente, o FA é a única coisa que pode dar algo. E provavelmente é melhor fazer isso manualmente. Mas mesmo aí você pode estar enganado, as notícias falsas estão trabalhando ativamente.

 
Maxim Dmitrievsky #:

Verifiquei a informatividade dos atributos deslocando-os para trás. Ou seja, não pegamos os últimos valores do histórico de atributos, mas com um recuo para o passado. Usei 50 recuos. (de zero a -50 barras)

Na coluna da direita, recuo em barras; na coluna da esquerda, informações mútuas. A indentação está em ordem crescente de informações mútuas entre fichas e rótulos.

Verificou-se que os últimos preços nem sempre são melhores do que os anteriores; há algum aumento na barra -11 em relação à barra zero:

indicativo

O que você quer dizer com "informação mútua"? É interessante o efeito da ficção sobre a marca. A influência recíproca é interessante? Como a "informação mútua" é calculada?

 
СанСаныч Фоменко #:

O que você quer dizer com "informações mútuas"? É interessante o efeito da ficha sobre a etiqueta? A influência recíproca é interessante? Como a "informação mútua" é calculada?

Você está me deixando perplexo com suas perguntas

 
Maxim Dmitrievsky #:

Verifiquei a informatividade dos atributos deslocando-os para trás. Ou seja, não pegamos os últimos valores do histórico de atributos, mas com um recuo para o passado. Usei 50 recuos. (de zero a -50 barras)

Na coluna da direita, recuo em barras; na coluna da esquerda, informações mútuas. A indentação está em ordem crescente de informações mútuas entre fichas e rótulos.

Verificou-se que os últimos preços nem sempre são melhores do que os anteriores; há algum aumento na barra -11 em relação à barra zero:

indicativo

Correções de H1?

0   0.001554  23
1   0.001612  22
2   0.001708  15
3   0.001783  24
Parece que são ciclos diurnos. De 22 a 24 horas são os mais informativos. Portanto, hoje será o mesmo que ontem.
 
Maxim Dmitrievsky #:

Você me deixa perplexo com suas perguntas

Por que estou perplexo?

Para mim, a influência, a conexão e o poder de previsão de um recurso, chip ou preditor com um rótulo podem ser explicados pelo exemplo a seguir.

Se houver um rótulo "pessoa", que assume dois valores: masculino e feminino.

Que haja um rótulo "vestuário", que assume dois valores: calças e saias, e o número de valores de diferentes calças e saias é de centenas ou milhares.

Suponha que os homens usem apenas calças e as mulheres apenas saias. Então, essa ficha determina o rótulo sem erros, ou seja, erro de previsão = 0%. Podemos considerar que a ficha afeta, está vinculada e prevê o rótulo em 100%. Se essas condições forem mantidas no futuro, o erro não mudará e será =- 0%.

Na sociedade moderna, esse não é o caso, e haverá um erro de previsão, cuja magnitude é desconhecida e pode variar dependendo do preenchimento da ficha.

Há um grande número de abordagens, implementadas na forma de pacotes de software, que, no nosso exemplo, para o amor de alguma parte das mulheres por calças e dos homens por saias, mostrarão alguma diferença em relação à conexão de 100% do chip com a marca.


Os gráficos mostram isso muito bem.

Um exemplo de um recurso inútil:


Um exemplo de uma ficha bastante promissora. A interseção é um erro de previsão. No gráfico anterior, um chip se sobrepôs completamente ao outro - o erro de previsão é de 50%.


Essa é a medida da diferença entre as fichas no primeiro gráfico ou no segundo gráfico? A diferença nas estimativas é de 2,5 vezes. Mas os números são relativos. Todos os recursos são ruins, alguns ou todos eles são ótimos?

 
Bem, dê uma olhada no Google, não quero citar a Wikipédia. A medida de conexão pode ser geométrica, como no caso da correlação, e informacional, no caso do Mi.

Não entendo por que tenho que combater a preguiça alheia, que você mesmo admitiu anteriormente.)

Dê uma boa abordagem, você não precisa de um grande número de pacotes. O nome será suficiente.
 
Maxim Dmitrievsky geométrica, como no caso da correlação, e informacional, no caso do Mi.

Não vejo por que devo combater a preguiça de outra pessoa, que eu costumava admitir para mim mesmo.)

Sim, bem, tudo bem. Que seja assim

 
СанСаныч Фоменко #:

Sim, bem, tudo bem. Que assim seja

Além de não fornecer nenhum resultado e fazer referências a vários pacotes bons, você também me faz adivinhar o que exatamente quis dizer. Se algo específico estiver sendo discutido, escreva especificamente, com resultados específicos.

É um exemplo banal sobre distribuições estendidas, mostre-me como obtê-las de forma eficiente.
A relação de informações foi nomeada por você. Ela é a entropia e a informação mútua em sua base. Você precisa escrever isso 500 vezes? A entropia é definida para uma série, a informação mútua para 2.
 

É melhor avaliar os recursos não por alguns métodos e pacotes que não estão relacionados ao modelo, mas pelo próprio modelo.
2 anos atrás, comparei métodos para avaliar a importância do https://www.mql5.com/ru/blogs/post/737458.

O modelo em si foi tomado como amostra. Eu o treinei N vezes (de acordo com o número de recursos) removendo um deles.
Quanto mais o resultado se deteriorava após a remoção de um recurso, mais importante ele era. Também houve chips cuja remoção melhorou o resultado, ou seja, são claramente ruídos.

Nenhuma das variantes de determinação da importância de um recurso foi semelhante à importância exemplar. Receio que as informações mútuas e outros pacotes também possam ser inconsistentes.

Сравнение разных методов оценки важности предикторов.
Сравнение разных методов оценки важности предикторов.
  • www.mql5.com
Провел сравнение разных методов оценки важности предикторов. Тесты проводил на данных титаника (36 фичей и 891 строки) при помощи случайного леса из 100 деревьев. Распечатка с результатами ниже. За
 
elibrarius #:

É melhor avaliar os recursos não por alguns métodos e pacotes não relacionados ao modelo, mas pelo próprio modelo.
2 anos atrás Eu comparei métodos de avaliação de importância https://www.mql5.com/ru/blogs/post/737458

O modelo em si foi tomado como amostra. Eu o treinei N vezes (de acordo com o número de recursos) removendo um deles.
Quanto mais o resultado se deteriorava após a remoção de um recurso, mais importante ele era. Também houve chips cuja remoção melhorou o resultado, ou seja, são claramente ruídos.

Nenhuma das variantes de determinação da importância de um recurso foi semelhante à importância exemplar. Receio que as informações mútuas e outros pacotes também possam ser inconsistentes.

Em uma primeira aproximação, você certamente está certo - deve-se ter uma pontuação final, se você quer dizer avaliar um modelo por suas medidas de desempenho.

Porém, há uma nuance que supera tudo.

A avaliação de um modelo por meio de seu desempenho é uma avaliação com base em dados históricos. Mas como o modelo se comportará no futuro?

Se estivermos avaliando os próprios recursos, poderemos executar uma janela e obter estatísticas sobre a alteração no valor da pontuação de um recurso, cada um individualmente. E, ao que me parece, é preferível usar os recursos que têm uma pequena flutuação em sua pontuação de importância, de preferência menos de 10%. Meu conjunto de ficção tem flutuações de sd de 10% a 120% em 500 barras (de memória). Isso significa que a pontuação flutua dentro do canal de 10%, ou seja, o valor que vemos é esse. Mas para 120%, o valor da pontuação de importância que vemos é a ficção.

Razão: