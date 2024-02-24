Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 3334
Não, será o mesmo local relativo - o número de divisores (splits) - fixo para todos.
Você tem muitos preditores binários com 0 e 1. Eles não se dividirão em 32. Mas se você os normalizar, poderá obter algo com a quantização uniforme. Se os quanta não forem uniformes, então, apenas com os números, todas as distâncias serão distorcidas; você precisará obter valores abdominais após a normalização.
O erro será na previsão se você não conseguir se livrar do ruído como no treinamento.
A quebra é ainda mais divertida nesse caso - folhas incertas na soma podem mudar a probabilidade em uma direção ou em outra - eu continuo querendo fazer um gráfico para mostrar como os pesos são distribuídos dependendo da mudança de probabilidade, mas continuo adiando. Durante três dias, o computador considera a similaridade das folhas do modelo - penso em otimizar o algoritmo - muito tempo....
Você tem muitos preditores binários com 0 e 1. Eles não se dividirão por 32. Mas se você os normalizar, poderá obter algo com a quantização uniforme. Se os quanta não forem uniformes, então, apenas com os números, todas as distâncias serão distorcidas; você precisará obter valores abdominais após a normalização.
Sim, com os binários é mais complicado. Mas não entendo a ideia de como a normalização pode ajudar aqui.
Em geral, acho que é necessário reduzir a dimensionalidade. Mas, nesse caso, não é exatamente o que os autores pretendiam. Até o momento, estou longe de entender.
É um conceito diferente - os dados são divididos em duas partes - como "pode prever" e "não pode prever" - um modelo é responsável por isso. E quando novos dados chegam, eles são avaliados para determinar se devem ou não fazer uma previsão. Assim, as previsões são feitas somente em dados que eram "facilmente" separáveis e bem agrupados durante o treinamento, ou seja, tinham um sinal de validade.
Não importa se é árvore, floresta ou arbusto. Se a previsão do modelo for de 50%, significa que haverá 50% de 0s e 50% de 1s na previsão.
Essa não é a questão, de forma alguma. Forest e bousting têm construção de árvore forçada, ou seja, não há algoritmo para descartar se a árvore for ruim. Em ambos os casos, a árvore recebe pesos. Ela pode ser ruim devido ao excesso de aleatoriedade no algoritmo, tanto na seleção de recursos quanto na seleção de exemplos (subamostras).
Não, não vi. Verei o que é hoje à noite.
É isso mesmo - é uma forma de isolar exemplos que degradam o aprendizado - essa é a teoria.
A ideia é treinar 100 modelos e ver quais exemplos, em média, "atrapalham" a classificação confiável e, em seguida, tentar detectá-los com outro modelo.
Então, peguei o modelo e dei uma olhada na contagem de folhas. O modelo está desequilibrado com apenas 12,2% de unidades. 17 mil folhas.
Fiz uma marcação das folhas em classes - se a amostra de respostas com o alvo "1" fosse maior que o valor inicial - 12,2%, então a classe seria "1", caso contrário, seria "0". A ideia da classe aqui é ter informações úteis para melhorar a classificação.
No histograma, vemos os valores nas folhas do modelo (X) e sua % no modelo (Y) - sem classificá-los.
E aqui é a mesma coisa, mas a classe é apenas "0".
A classe é apenas "1".
Esses coeficientes nas folhas são somados e transformados via logit, o que significa que um sinal "+" aumenta a probabilidade da classe "1" e um "-" a diminui. Em geral, a divisão por classe parece válida, mas há um viés no modelo.
Agora podemos examinar a distribuição percentual apenas (em termos de precisão de classificação), separadamente para as planilhas com "1" e com "0".
O histograma para "0" é um grande número de folhas com precisão próxima a "100%".
E aqui há um agrupamento maior próximo ao valor de separação inicial, ou seja, há muitas folhas com pouca informação, mas ao mesmo tempo também há aquelas próximas a 100%.
Observando o Recall, fica claro que essas folhas são todas folhas com um pequeno número de ativações - menos de 5% de sua classe.
Recall para a classe "0"
Recall para a classe "1".
Em seguida, podemos observar a dependência do peso na folha em relação à precisão da classificação, também separadamente para cada classe.
Para o alvo "0"
Para o alvo "1".
A presença de linearidade, embora com um intervalo tão grande, é digna de nota. Mas a "coluna" com uma probabilidade de 100 está fora de lógica, espalhando-se muito pelo intervalo do valor da folha.
Talvez esse aspecto feio deva ser removido?
Além disso, se observarmos o valor nas folhas dependendo do indicador Recall, veremos um peso pequeno nas folhas (próximo a 0), que às vezes tem um valor muito grande de respostas. Essa situação indica que a folha não é boa, mas o peso está ligado a ela. Então, essas folhas também podem ser consideradas como ruído e zeradas?
Para o alvo "0".
Para o alvo "1".
Gostaria de saber qual porcentagem de folhas na nova amostra (não treinada) "mudará" sua classe?
E, além disso, um clássico: a interdependência da integridade e da precisão.
Classe 0.
Classe um.
De qualquer forma, estou pensando em como pesar isso....
E é assim que o modelo se parece em termos de probabilidades.
Na amostra de trem - até 35% de lucro começa a ser obtido - como em um conto de fadas!
Na amostra de teste - no intervalo de 0,2 a 0,25, perdemos uma grande parte do lucro - os pontos de máximos de classe estão misturados.
Na amostra do exame - ainda está ganhando, mas já está corroendo o modelo.
