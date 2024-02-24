Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2109
selecionar todos os arquivos e baixá-los, eles serão zipados
diferentes comprimentos de amostra, então se uma peça
Eu acho que não é necessário aplicar este método à amostra - caso contrário, como posso usá-lo na vida real.
Estou a geri-lo para o treino, vamos ver o que acontece.
Não preciso dele para exames, mas pode vir a ser útil.
Muito preguiçoso para converter)
Deixe-me explicar:
1) ordenamos a coluna
2) contamos o número médio de elementos em um quantum, por exemplo 10000 elementos / 255 quanta = 39,21
3) no loop, nos movemos por 39,21 elementos em cada passo e adicionamos o valor do array ordenado ao array de valores do quantum. Isto é, valor da matriz 0 = valor 0 quantum, 39º valor = 1 quantum, 78º valor = 2 quantum, etc.
Se o valor já estiver no array, ou seja, se entrarmos numa área com muitas duplicatas, saltamos a duplicata e não a adicionamos.
A cada passo, adicionamos exatamente 39,21, e então arredondamos a soma para selecionar um elemento da matriz, de modo que ele seja igual. Ou seja, em vez de 195 (39*5 = 195), tomar 196 ( 39,21 * 5 = (int) 196,05).
Com uma distribuição uniforme é claro - eu criaria um conjunto de valores únicos e os utilizaria para o corte.
Mas há outros métodos de dividir a grelha:
Deve haver muitas amostras, senão o modelo não vai aprender nada
Estes são os métodos de quantificação por amostragem para CatBoost - estes são os limites pelos quais a enumeração/aprendizagem prossegue.
Meus experimentos mostram que a grade deve ser escolhida para cada preditor separadamente, então o aumento de qualidade é observado, mas não é capaz de fazê-lo CatBoost e eu não sou capaz de construir uma grade e eu tenho que construir grades e carregá-las para csv, e então iterá-las para estimar o comportamento dos alvos nelas. Eu acho que é uma ferramenta muito promissora, mas preciso traduzir o código para MQL.
isto está nas configurações do próprio modelo (parâmetros)? não sei o que é
se não estiver nas configurações, então é uma merda.
Está nas configurações, pelo menos para a linha de comando
-- tipo de recurso de fronteira
O modo dequantização de características numéricas.
Faz grande diferença? Deve estar dentro de uma percentagem
A escolha da repartição certa tem um impacto significativo no resultado.
Aqui está um exemplo na Recall - até 50% de variação - para mim, que é significativo.
Aumentando os limites de 16 para 512 em incrementos de 16 - embora não em ordem no histograma - os meus títulos são um pequeno obstáculo.
Ainda estou experimentando a seleção de malhas, mas já é óbvio que existem diferentes preditores para os quais são necessárias malhas diferentes, para observar a lógica, e não apenas para ajustar.