Existe um padrão para o caos? Vamos tentar encontrá-lo! Aprendizado de máquina com o exemplo de uma amostra específica. - página 19

 

O lucro é igual ao delta do movimento de preços a partir de algum ponto no tempo.

Nada me surpreende ainda.

Já passamos pelas caudas longas ....

 
Renat Akhtyamov #:

O lucro é igual ao delta do movimento do preço a partir de algum ponto no tempo.

Nada me surpreende ainda.

Já passamos pelas caudas longas ....

Por que você acabou de escrever isso? Bem, certo, você não pode usar nenhum tópico para marcar seus pensamentos nas margens....

 
Aleksey Vyazmikin #:

A Figura 13 mostra que quase todos os preditores disponíveis são usados, exceto um, mas duvido que essa seja a raiz do problema. Então não é tanto o uso, mas a sequência de uso na construção do modelo?

Sim, é. Se você treinar dois modelos com os mesmos preditores, mas um deles tiver a primeira divisão em um preditor e o outro no outro, toda a árvore subjacente de cada variante será bem diferente.

A outra pergunta é: por que o bousting no mesmo conjunto de dados faz com que as primeiras divisões sejam diferentes? O coeficiente para o número de colunas é !=1 como na floresta? Na floresta, é para a aleatoriedade. Mas acho que deveria ser ==1.
Então, outra opção: Seed diferente para os modelos? Tente com a mesma, se o resultado for o mesmo, então acho que é muito ruim que a semente possa tornar um modelo lucrativo não lucrativo.

 
A propósito, o que em Cutbust Seed é randomização?
 
Aleksey Vyazmikin #:

Por que você acabou de escrever isso? Bem, certo, você não pode usar nenhum tópico para marcar seus pensamentos nas margens....

sobre seus gráficos

 
elibrarius #:

Sim, é verdade. Se você treinar dois modelos com os mesmos preditores, mas um deles tiver a primeira divisão de acordo com um preditor e o outro de acordo com outro, toda a árvore subjacente de cada variante será bem diferente.

Isso prova mais uma vez que o método greed é falho ao selecionar divisões. Eu mesmo fiz experiências com isso quando estava selecionando folhas e cheguei à mesma conclusão.

elibrarius #:

A questão é diferente: por que o bousting com o mesmo conjunto de dados faz com que as primeiras divisões sejam diferentes? O coeficiente para o número de colunas é !=1 como na floresta? Na floresta, é para a aleatoriedade. Mas acho que deveria ser ==1.

Pelo que entendi, há um análogo aqui para selecionar parte das colunas para avaliação, mas eu o configurei para forçar todas elas.

elibrarius #:

Então, outra opção: Seed diferente para os modelos? Tente com a mesma, se o resultado for o mesmo, acho muito ruim que a semente possa tornar um modelo lucrativo em não lucrativo.

O Seed fixa o resultado, ou seja, tudo será igual.

elibrarius #:
A propósito, o que o Seed randomiza no Cutbust?

Pelo que entendi, ele define o contador do gerador de números aleatórios para um determinado valor, e esse gerador é usado, pelo menos, como eles escrevem "there is a randomisation of the metric by which the best tree is chosen." e ele usa o gerador de números aleatórios mais um coeficiente, que, pelo que entendi, é obtido do parâmetro --random-strength (é 1 para mim).

A fórmula é a seguinte:

Score += random_strength * Rand (0, lenofgrad * q)

q é um multiplicador que diminui à medida que a iteração aumenta. Assim, o randômico diminui perto do final.

"

Mas eles também escrevem que uma subamostra pode ser usada para construir uma árvore, mas eu uso o modo para aplicação completa da amostra "--boosting-type Plain".


Também existe esse efeito, se eu remover colunas após o treinamento, que não usam o modelo, não poderei obter o modelo com a mesma Semente - o que não está claro.

 
Renat Akhtyamov #:

seus gráficos estão escritos

Como " O lucro é igual ao delta do movimento do preço a partir de algum ponto no tempo " se aplica a esses gráficos. " ?

E essa frase "Long tails we have already passed ...." (Caudas longas, já passamos por ....), devo entender que estou lhe oferecendo algum tipo de treinamento? Mas eu não faço isso, e as caudas são normalmente usadas aqui no fórum para modelar a densidade de distribuição da mudança de preço - não é o que eu tenho no histograma. E aqui não devemos falar sobre riscos, mas sobre o fato de que é mais difícil criar um modelo por acaso do que se você entender a estrutura de significância dos preditores e sua dependência.

 
Aleksey Vyazmikin #:

Como " O lucro é igual ao delta do movimento do preço a partir de algum ponto no tempo " se relaciona com esses gráficos. " ?

E essa frase "Long tails we have already passed ...." (Caudas longas, já passamos por ....), devo entender que estou lhe oferecendo alguma forma de treinamento? Mas eu não faço isso, e as caudas são normalmente usadas aqui no fórum para modelar a densidade de distribuição da mudança de preço - não é o que eu tenho no histograma. E aqui não devemos falar sobre riscos, mas sobre o fato de que é mais difícil criar um modelo por acaso do que se você entender a estrutura de significância dos preditores e sua dependência.

Eu estava respondendo ao fato de que há um padrão no caos.

O padrão é exatamente esse tipo de histograma, independentemente da lógica/abordagem/fórmula/teoria etc. que você aplicou e não encontrará outro padrão. Você aplicou e não encontrará outros padrões

 
Aleksey Vyazmikin #:

Isso prova mais uma vez que o método greed de seleção de divisões é falho. Eu mesmo fiz experiências com ele ao selecionar folhas e cheguei à mesma conclusão.

E sem a ganância? Você poderia calcular outro para cada divisão e selecionar um par de uma só vez, mas, no seu caso, a duração dos cálculos aumentará mais de 5.000 vezes. É mais fácil calcular a média de cem modelos.

Pelo que entendi, há um análogo para selecionar uma parte das colunas para estimativa, mas forcei o uso de todas elas.

Mas eles também dizem que uma subamostra pode ser usada para construir uma árvore, mas eu uso o modo para aplicação completa da amostra "--boosting-type Plain".

Para reduzir a influência da aleatoriedade, isso é correto. Caso contrário, você precisará calcular a média de 20 a 100 modelos, como na floresta.

Aleksey Vyazmikin #:

Pelo que entendi, ele define o contador do gerador aleatório para um determinado valor, mas esse gerador é usado pelo menos como eles escrevem "there is a randomisation of the metric, by which the best tree is chosen." e ele meio que usa um gerador aleatório mais um coeficiente, que, pelo que entendi, é obtido do parâmetro --random-strength (eu tenho 1).

Aqui está a fórmula:

Score += random_strength * Rand (0, lenofgrad * q)

q é um multiplicador que diminui à medida que a iteração aumenta. Assim, o randômico diminui próximo ao final.

Ou seja, verifica-se que as árvores de refinamento podem não ser as melhores, mas aleatoriamente piores.
Daí a dispersão nos modelos, de ameixa a lucrativo.
A julgar pelos gráficos de distribuição, há mais modelos de drenagem, ou seja, se fizermos uma média, o resultado médio não será lucrativo.



Devo tentar random-strength = 0? Espero que as alterações de Seed parem de alterar o modelo depois disso. Talvez criar um modelo com árvores de refinamento melhores em vez de árvores ruins aleatórias. Se o melhor modelo for o de ameixa, então pesquisar nesses dados, a partir de 10.000 modelos aleatórios, o melhor é o caminho para a ameixa de verdade.

Ou ainda fazer a média de alguns modelos selecionados aleatoriamente, como na floresta. Porque o melhor pode ser treinado novamente.

 
Renat Akhtyamov #:

Eu estava respondendo ao fato de que existe um padrão para o caos.

Os histogramas são apenas esse tipo de histograma, independentemente da lógica/abordagem/fórmula/teoria etc. que você aplicar. Você aplicou e não encontrará nenhum outro padrão

Então, como você quer dizer que há um padrão, mas você não o encontrará? Ou a regularidade está na aleatoriedade?

Razão: