Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 3334

 
Aleksey Vyazmikin #:

Não, será o mesmo local relativo - o número de divisores (splits) - fixo para todos.

Você tem muitos preditores binários com 0 e 1. Eles não se dividirão em 32. Mas se você os normalizar, poderá obter algo com a quantização uniforme. Se os quanta não forem uniformes, então, apenas com os números, todas as distâncias serão distorcidas; você precisará obter valores abdominais após a normalização.

Aleksey Vyazmikin #: Pode haver muitos métodos diferentes. Estou interessado na variante de processamento antes da construção do modelo - ao que me parece, ela oferece menos variantes de combinações de construção, o que reduz o erro na conclusão final - quer o modelo final tenha sido treinado com sucesso ou não, em geral.

O erro será na previsão se você não conseguir se livrar do ruído como no treinamento.

Aleksey Vyazmikin #:

A quebra é ainda mais divertida nesse caso - folhas incertas na soma podem mudar a probabilidade em uma direção ou em outra - eu continuo querendo fazer um gráfico para mostrar como os pesos são distribuídos dependendo da mudança de probabilidade, mas continuo adiando. Durante três dias, o computador considera a similaridade das folhas do modelo - penso em otimizar o algoritmo - muito tempo....

Não importa se é uma árvore, uma floresta ou um arbusto. Se a previsão do modelo for de 50%, haverá 50% de 0 e 50% de 1 na previsão.

 
Portanto, o problema está nas duas pontas ao mesmo tempo. De um lado, você não conhece a função-alvo e, do outro, não sabe quais são os erros de aproximação de um modelo específico. Você precisa encontrar o f- e os erros. Com apenas uma subamostra, geralmente tendenciosa.

E você pode fazer tudo isso sem testes múltiplos de oos. Mas não há inibições dentro da subamostra.
 
Forester #:

Você tem muitos preditores binários com 0 e 1. Eles não se dividirão por 32. Mas se você os normalizar, poderá obter algo com a quantização uniforme. Se os quanta não forem uniformes, então, apenas com os números, todas as distâncias serão distorcidas; você precisará obter valores abdominais após a normalização.


Sim, com os binários é mais complicado. Mas não entendo a ideia de como a normalização pode ajudar aqui.

Em geral, acho que é necessário reduzir a dimensionalidade. Mas, nesse caso, não é exatamente o que os autores pretendiam. Até o momento, estou longe de entender.

Forester #:

Haverá um erro na previsão se você não conseguir se livrar do ruído como no treinamento.

É um conceito diferente - os dados são divididos em duas partes - como "pode prever" e "não pode prever" - um modelo é responsável por isso. E quando novos dados chegam, eles são avaliados para determinar se devem ou não fazer uma previsão. Assim, as previsões são feitas somente em dados que eram "facilmente" separáveis e bem agrupados durante o treinamento, ou seja, tinham um sinal de validade.

Forester #:
Não importa se é árvore, floresta ou arbusto. Se a previsão do modelo for de 50%, significa que haverá 50% de 0s e 50% de 1s na previsão.

Essa não é a questão, de forma alguma. Forest e bousting têm construção de árvore forçada, ou seja, não há algoritmo para descartar se a árvore for ruim. Em ambos os casos, a árvore recebe pesos. Ela pode ser ruim devido ao excesso de aleatoriedade no algoritmo, tanto na seleção de recursos quanto na seleção de exemplos (subamostras).

 
Maxim Dmitrievsky #:
Não, não vi. Verei o que é hoje à noite.
Esses métodos são dependentes do modelo. Os dados em si não são divididos ou separados. Não sei como explicar isso. Tentei fazer isso uma vez e tive problemas com os otimizadores novamente. Isso está nos livros.
Se você for para a esquerda aqui, perderá um cavalo. Se for para a direita, perderá o dragão de duas cabeças.

É isso mesmo - é uma forma de isolar exemplos que degradam o aprendizado - essa é a teoria.

A ideia é treinar 100 modelos e ver quais exemplos, em média, "atrapalham" a classificação confiável e, em seguida, tentar detectá-los com outro modelo.

 

Então, peguei o modelo e dei uma olhada na contagem de folhas. O modelo está desequilibrado com apenas 12,2% de unidades. 17 mil folhas.

Fiz uma marcação das folhas em classes - se a amostra de respostas com o alvo "1" fosse maior que o valor inicial - 12,2%, então a classe seria "1", caso contrário, seria "0". A ideia da classe aqui é ter informações úteis para melhorar a classificação.

No histograma, vemos os valores nas folhas do modelo (X) e sua % no modelo (Y) - sem classificá-los.

0

E aqui é a mesma coisa, mas a classe é apenas "0".


A classe é apenas "1".

Esses coeficientes nas folhas são somados e transformados via logit, o que significa que um sinal "+" aumenta a probabilidade da classe "1" e um "-" a diminui. Em geral, a divisão por classe parece válida, mas há um viés no modelo.

Agora podemos examinar a distribuição percentual apenas (em termos de precisão de classificação), separadamente para as planilhas com "1" e com "0".


O histograma para "0" é um grande número de folhas com precisão próxima a "100%".


E aqui há um agrupamento maior próximo ao valor de separação inicial, ou seja, há muitas folhas com pouca informação, mas ao mesmo tempo também há aquelas próximas a 100%.

Observando o Recall, fica claro que essas folhas são todas folhas com um pequeno número de ativações - menos de 5% de sua classe.


Recall para a classe "0"


Recall para a classe "1".

Em seguida, podemos observar a dependência do peso na folha em relação à precisão da classificação, também separadamente para cada classe.

00

Para o alvo "0"


Para o alvo "1".

A presença de linearidade, embora com um intervalo tão grande, é digna de nota. Mas a "coluna" com uma probabilidade de 100 está fora de lógica, espalhando-se muito pelo intervalo do valor da folha.

Talvez esse aspecto feio deva ser removido?

Além disso, se observarmos o valor nas folhas dependendo do indicador Recall, veremos um peso pequeno nas folhas (próximo a 0), que às vezes tem um valor muito grande de respostas. Essa situação indica que a folha não é boa, mas o peso está ligado a ela. Então, essas folhas também podem ser consideradas como ruído e zeradas?

000

Para o alvo "0".


Para o alvo "1".

Gostaria de saber qual porcentagem de folhas na nova amostra (não treinada) "mudará" sua classe?

 

E, além disso, um clássico: a interdependência da integridade e da precisão.

0

Classe 0.


Classe um.

De qualquer forma, estou pensando em como pesar isso....

 

E é assim que o modelo se parece em termos de probabilidades.

trem

Na amostra de trem - até 35% de lucro começa a ser obtido - como em um conto de fadas!


Na amostra de teste - no intervalo de 0,2 a 0,25, perdemos uma grande parte do lucro - os pontos de máximos de classe estão misturados.


Na amostra do exame - ainda está ganhando, mas já está corroendo o modelo.

 
Aleksey Vyazmikin #:

Eu me pergunto qual a porcentagem de folhas em uma nova amostra (não em um trem) que "mudará" de classe?

Sim, eu me pergunto....

________________________

Na verdade, encontrei uma maneira de encontrar esses recursos que não mudam em relação ao alvo nem no treinamento nem no teste... Mas o problema é que esses recursos são catastroficamente poucos e o método de triagem em si é extremamente caro em termos de potência e, em geral, o método em si é implementado por meio de treinamento sem um professor, só que dessa forma conseguimos evitar o ajuste


 
E qual foi o papel da quantificação nesse processo? Em uma escala de 10.
Passei pelo campo estelar e é como se a singularidade tivesse começado. Entrei em um multiverso e encontrei uma cópia de mim mesmo. Agora estou correndo em diferentes versões de universos. E não há como sair disso. Agora tenho que encontrar novos significados.

Quando o cérebro ou a rede neural atinge os limites da razoabilidade, começa a singularidade.
 
Aleksey Vyazmikin #:

É isso mesmo - é uma forma de destacar exemplos que degradam o aprendizado - isso é na teoria.

A ideia é treinar 100 modelos e ver quais exemplos, em média, "interferem" na classificação confiável e, em seguida, tentar detectá-los com um modelo diferente.

Divida a trilha principal em 5 a 10 subtrains, cada um deles dividido em uma trilha e um eixo. Em cada um deles, treine o tipo de cv e, em seguida, faça a previsão em todo o trem principal. Você compara os rótulos originais de todos os modelos com os rótulos previstos. Os que não adivinharam são colocados na lista negra. Em seguida, você remove todos os exemplos ruins ao treinar o modelo final, calculando a aspiração média de cada amostra. Opcionalmente, você pode ensinar o segundo modelo a separar amostras brancas de amostras pretas, seja por meio da 3ª classe.

3 linhas de código, resultados no nível de... bem, não tenho muito com o que comparar... bem, em algum nível.

O kozol aqui está em cv, o que significa que você determina estatisticamente quais exemplos são ruins e quais são bons, usando vários modelos, cada um treinado em diferentes partes do histórico. Isso é chamado de pontuação de propensão, ou seja, a propensão de cada amostra para desempenhar um papel no treinamento.

É claro que os rótulos podem ser muito ruins, e essa abordagem pode remover quase tudo. Por isso, no início, usei amostragem aleatória de transações para adicionar diferentes variantes de marcação. Considerando que não queremos ou não sabemos como pensar em como marcar um gráfico.

Esta é, grosso modo, a aparência de um AMO com elementos kozol que busca TCs por conta própria.
Razão: