Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 395

 
Dr. Trader:


Eu ainda estava começando a aprender R na época, o roteiro é quase inteiramente gerado em chocalhos (ambiente visual para datamining em R), por isso é tão complexo e personalizado para todas as ocasiões.


Este aqui

deve ser mudado para...

Deve ser bom.


Geralmente é uma má abordagem, não se deve definir a importância dos inputs desta forma. Por alguma razão, funcionou daquela vez, mas nunca mais me ajudou.

Experimentei um pouco mais...

Se você definir 1 - 2 neurônios em uma camada oculta, os inputs importantes são várias vezes diferentes:

152,33, 7,82, 132,57, 12,19, 132,86, 10,54, 135,56, 19,16, 137,32, 14,84, 127,36, 7,43, 11,35, 6,66, 13,6, 10,18, 10,74, 10,66, 11,18, 8,95 (1 neurônio)

Se você definir 10 (como em sua segunda experiência), então os pesos estão manchados nos neurônios e você não consegue distinguir os importantes dos ruidosos:

113963.27, 91026.57, 100833.22, 134980.44, 154190.05, 146455.03, 198703.01, 135775.2, 184353.78, 160766.79, 152433.73, 105753.11, 151673.83, 135421.64, 165343.94, 70277.93, 175038.87, 150342.56, 59153.02, 121012.76 (10 neurônios)

Aparentemente, para esse problema lógico, 1 neurónio é o ideal.

 
Maxim Dmitrievsky:


E experimente as árvores de decisão de algibeira, elas contam mais rápido e têm um valor melhor do que mlp. A diplomacia também é mais rápida, mas não em algibe.

O principal é a relação velocidade/qualidade, para que serve esperar uma semana ou mesmo um dia ou até uma hora para conseguir a combinação certa, nunca conseguirá acertar). Se o modelo leva alguns segundos para aprender, então você pode usar a genética para a autosimulação de parâmetros ou preditores, então é pura IA, caso contrário é lixo)

Com a 1ª coluna removida, não é 5%, mas muito pior...

Forest dá aproximadamente o mesmo erro que MLP (mas conta mais rápido)

Erro médio no gráfico de treinamento (60,0%) =0,264 (26,4%) nTrees=100 codResp=1
Erro médio na validação (20,0%) gráfico =0,828 (82,8%) nTrees=100 codResp=1
Erro médio no gráfico de teste (20,0%) =0,818 (81,8%) nTrees=100 codResp=1

 
elibrarius:

Com a 1ª coluna removida, já não é 5%, mas muito pior...

Forest dá aproximadamente o mesmo erro que MLP (mas conta mais rápido)

Erro médio no gráfico de treinamento (60,0%) =0,264 (26,4%) nTrees=100 codResp=1
Erro médio na validação (20,0%) gráfico =0,828 (82,8%) nTrees=100 codResp=1
Erro médio no gráfico de teste (20,0%) =0,818 (81,8%) nTrees=100 codResp=1


Sim, o mlp clássico não tem vantagem sobre a floresta, pelo menos para mim a floresta ganha sempre em termos de velocidade e qualidade.

a propósito, o diplerning pode também não ser uma vantagem... já que em estúdio a rede neural é semelhante ao diplerning - não há sequer camadas, mas existem várias redes convolucionais... como os autoencoders, que se inicializam em série (pelo menos é o que diz), mas os resultados são ainda piores que o forest

 
Mihail Marchukajtes:


Eu não sei o que dizer. Excepto para dar um exemplo do relatório. Os resultados da optimização têm este aspecto e você pode interpretá-lo da forma que quiser, mas quando a optimização termina, o resultado tem a seguinte aparência.

* Sensibilidade de generalização abiliy: 55,12820512820513%

* Especificidade da capacidade de generalização: 55,5045871559633%

* Capacidade de generalização: 55,30973451313274336%

* TruePositives: 129

* FalsePositivos: 105

* TrueNegative: 121

* FalseNegative: 97

* Total de padrões em amostras com estatísticas: 452

Em vermelho, sublinhei o resultado geral da capacidade de generalização. A primeira é a percentagem de adivinhar uns, a segunda é a percentagem de adivinhar zeros, e a terceira é o total.



O classificador Reshetov dá melhores resultados do que o mlp, pelo menos, e não recicla, essa é sua vantagem ... mas leva muito tempo para contar com seu conjunto, ontem eu tinha 2 horas para contar e hoje eu continuei novamente após a hibernação ... Estou esperando quando eu terminar de contar para poder comparar erros :)

No entanto, eu quero reescrevê-lo para mql5 e convertê-lo para OpenCL aqui para uma utilização mais eficiente. Depois alugue uma nuvem do google e calcule um neurônio em minutos (segundos?) no tesla, ou compre o Tesla por 500 000 :) Para 3000 núcleos de cuda

 
Maxim Dmitrievsky:


O classificador Reshetov dá melhores resultados que o mlp, pelo menos, e não recicla, essa é a sua vantagem... mas demora tanto tempo a contar com o seu conjunto, ontem contei 2 horas e hoje continuei novamente após a hibernação... à espera que termine a contagem para poder comparar erros :)

No entanto, eu quero reescrevê-lo para mql5 e convertê-lo para OpenCL aqui para uma utilização mais eficiente. Depois alugue uma nuvem do google e calcule um neurônio em minutos (segundos?) no tesla, ou compre o Tesla por 500 000 :) Para 3000 núcleos de cuda


Bem, esta é a sua grande vantagem - não é reeducado, mesmo que o modelo se complique cada vez mais. Assim, obtemos o modelo mais complexo (grande) que não é reeducado. Então o modelo fica mais esperto, algo como tapka. Já estava a pensar no co-processador matemático Intel Xeon, mas custa 200 k. Tem 60 núcleos e 120 núcleos lógicos. Pense nisso, como você pode construir um modelo em 5 segundos, processando mesmo isto como você diz não é um grande conjunto e obter um modelo adequado ao mais complexo processo não-estacionário como o kotir currency???? Para obter um modelo adequado, é necessário gastar tempo suficiente na máquina. Então o modelo será adequado, e durará mais tempo.

Eu ainda gostaria de o correr numa GPU. Pelo menos 10 vezes o desempenho e seria bom.... Talvez funcione afinal de contas?

 
Dr. Trader:

Os resultados da avaliação da importância são os seguintes. Quanto mais alto o prognosticador na mesa, melhor. SomenteVVolum6, VDel1, VVolum9, VQST10 passaram no teste.

No guizo podemos construir 6 modelos ao mesmo tempo sobre estes 4 preditores, e SVM mostra uma precisão de cerca de 55% na validação e dados de teste. Nada mal.


Óptimo, agora o optimizador está a contar, nem sei quando vai acabar, mas vou definitivamente atirar-lhe estes inputs e ver o que ele dá, como vai ser este modelo..... Obrigado!
 
Maxim Dmitrievsky:


Mas leva muito tempo a contar com o teu seth, ontem demorei 2 horas e hoje continuou novamente depois da hibernação... Estou à espera que termine a contagem para poder comparar erros :)

No entanto, eu quero reescrevê-lo no mql5 e convertê-lo para OpenCL aqui para uma utilização mais eficiente. Depois alugue uma nuvem google e calcule uma rede neural em minutos (segundos?) no Tesla, ou compre o Tesla por 500 000 :) Para 3000 núcleos de cuda


Mais uma vez, quantos núcleos são usados nos cálculos? Tenho 4 núcleos carregados a 100% e não me atrevi a correr um conjunto completo de 452 linhas, porque sinto que é uma semana, não menos.....
 
Mihail Marchukajtes:

Mais uma vez, quantos núcleos são usados nos cálculos? Tenho 4 núcleos carregados a 100% e não me atrevi a correr o conjunto completo de 452 linhas, porque sinto que é uma semana, não menos.....


De qualquer forma, eu mexi na última versão do programa, onde há paralelismo, mas a última versão funciona de forma diferente da primeira, existem 2 redes neurais no comitê, mlp e autor, e elas interagem ao obter resultados, muito código, respeito ao autor :) Há alguma descrição da última versão, teoria?

Há algo de muito difícil nisto em particular em ser usado. Muito tempo terá que ser gasto no estudo do código.

Tente contactar o próprio autor e chamá-lo, talvez ele próprio o faça em paralelo... pois há um gesto

Метод МГУА для социально экономического прогнозирования, математического моделирования, статистического анализа данных, аналитической оценки систем и программирования.
  • Григорий Ивахненко
  • gmdh.net
Метод Группового Учета Аргументов применяется в самых различных областях для анализа данных и отыскания знаний, прогнозирования и моделирования систем, оптимизации и распознавания образов. Индуктивные алгоритмы МГУА дают уникальную возможность автоматически находить взаимозависимости в данных, выбрать оптимальную структуру модели или сети, и...
 
Mihail Marchukajtes:


Bem, essa é a sua grande vantagem - não se retrai e o modelo fica cada vez mais complicado. Assim, obtemos o modelo mais complexo (grande), que não é reeducado. Então o modelo fica mais esperto, algo como tapka. Já estava a pensar no co-processador matemático Intel Xeon, mas custa 200 k. Tem 60 núcleos e 120 núcleos lógicos. Pense nisso, como você pode construir um modelo em 5 segundos, processando mesmo isto como você diz não é um grande conjunto e obter um modelo adequado ao mais complexo processo não-estacionário como o kotir currency???? Para obter um modelo adequado, é necessário gastar tempo suficiente na máquina. Então o modelo será adequado e funcionará por mais tempo.

Eu ainda gostaria de o correr numa GPU. Pelo menos 10 vezes o desempenho e seria bom.... Talvez funcione, afinal de contas.

O classificador da Reshetov não é ainda uma rede, mas um neurónio? Ou são fundidos na rede de neurónios da Reshetov?
 
Maxim Dmitrievsky:


De qualquer forma, eu cavei a última versão do programa, onde há paralelo, mas a última versão funciona de forma diferente da primeira, existem 2 redes neurais no comitê, mlp e autor, e elas então interagem ao obter resultados, muito código, respeito ao autor :) Há alguma descrição da última versão, teoria?

Há algo de muito difícil nisto em particular em ser usado. Muito tempo terá de ser gasto a estudar o código.

Tente contactar o próprio autor e ligue-lhe, talvez ele próprio o faça em paralelo... pois há um gesto


Acho que não vou conseguir falar com o autor, já o escrevi para os dois lados. Ele não diz nada. Mas, tanto quanto sei, ele escreveu que é paralelo a tudo o que lá está. Sim, duas grades que trabalham no comitê estão de fato sendo treinadas. Eu escrevi isso no meu artigo. Se ambos mostram sim, então sim, se não, então não, se ambos são misturados então "não sei". Não sei sobre a última versão, mas a descrição é baseada no google, o link que você me deu. Uma vez rodada a versão 3 no servidor WWW e para minha decepção o otimizador carrega apenas um núcleo, mas as versões recentes carregam todos os núcleos uniformemente, então eu acho que ainda há disparidade. Só restava uma pequena coisa a fazer. Para aumentar o número de núcleos :-)
Razão: