L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 395

 
Dr. Trader:


Je commençais encore à apprendre R à l'époque, le script est presque entièrement généré dans rattle (environnement visuel pour l'analyse de données dans R), c'est pourquoi il est si complexe et personnalisé pour toutes les occasions.


Celui-là

devrait être changé en...

Ça devrait aller.


En général, c'est une mauvaise approche, vous ne devriez pas définir l'importance des entrées de cette façon. Pour une raison quelconque, cela a fonctionné cette fois-là, mais cela ne m'a plus jamais aidé.

J'ai expérimenté un peu plus...

Si vous placez 1 - 2 neurones dans une couche cachée, les entrées importantes sont plusieurs fois différentes :

152.33, 7.82, 132.57, 12.19, 132.86, 10.54, 135.56, 19.16, 137.32, 14.84, 127.36, 7.43, 11.35, 6.66, 13.6, 10.18, 10.74, 10.66, 11.18, 8.95 (1 neurone)

Si vous définissez 10 (comme dans votre deuxième expérience), les poids s'étalent sur les neurones et vous ne pouvez pas distinguer les neurones importants des autres :

113963.27, 91026.57, 100833.22, 134980.44, 154190.05, 146455.03, 198703.01, 135775.2, 184353.78, 160766.79, 152433.73, 105753.11, 151673.83, 135421.64, 165343.94, 70277.93, 175038.87, 150342.56, 59153.02, 121012.76 (10 neurones)

Apparemment, pour ce problème logique, 1 neurone est optimal.

 
Maxim Dmitrievsky:


Et essayez les arbres de décision d'alglib, ils comptent plus vite et ont une meilleure valeur que mlp. Diplerning est également plus rapide, mais pas dans alglib.

L'essentiel est le rapport vitesse/qualité, à quoi bon attendre une semaine ou même un jour ou même une heure pour obtenir la bonne combinaison, vous n'y arriverez jamais). Si le modèle prend quelques secondes pour apprendre, alors vous pouvez utiliser la génétique pour l'autosimulation des paramètres ou des prédicteurs, alors c'est de l'IA pure, sinon c'est de la camelote).

Avec la 1ère colonne enlevée, ce n'est pas 5%, mais bien pire...

Forest donne à peu près la même erreur que MLP (mais compte plus vite)

Erreur moyenne dans la parcelle de formation (60,0 %) =0,264 (26,4 %) nTrees=100 codResp=1
Erreur moyenne sur la validation (20,0%) parcelle =0,828 (82,8%) nTrees=100 codResp=1
Erreur moyenne sur le test (20,0%) plot =0,818 (81,8%) nTrees=100 codResp=1

 
elibrarius:

Avec la 1ère colonne enlevée, ce n'est plus 5%, mais bien pire...

Forest donne à peu près la même erreur que MLP (mais compte plus vite)

Erreur moyenne dans la parcelle de formation (60,0 %) =0,264 (26,4 %) nTrees=100 codResp=1
Erreur moyenne sur la validation (20,0%) parcelle =0,828 (82,8%) nTrees=100 codResp=1
Erreur moyenne sur le test (20,0%) plot =0,818 (81,8%) nTrees=100 codResp=1


oui, mlp classique n'a aucun avantage sur forest, du moins pour moi forest gagne toujours en termes de vitesse et de qualité

d'ailleurs, le diplerning n'est peut-être pas avantageux non plus... puisque dans le studio, le réseau neuronal est similaire au diplerning - il n'y a même pas de couches, mais plusieurs réseaux convolutifs sont là... comme les autoencodeurs, qui s'initialisent les uns les autres en série (du moins c'est ce qui est dit), mais les résultats sont toujours moins bons que la forêt

 
Mihail Marchukajtes:


Je ne sais pas quoi dire. Sauf pour donner un exemple tiré du rapport. Les résultats de l'optimisation ressemblent à ceci et vous pouvez les interpréter comme vous le souhaitez, mais lorsque l'optimisation se termine, le résultat ressemble à ceci.

* Sensibilité de la capacité de généralisation : 55.12820512820513%.

* Spécificité de la capacité de généralisation : 55,5045871559633%.

* Capacité de généralisation : 55,309734513274336%.

* TruePositives : 129

* Faux positifs : 105

* TrueNegatives : 121

* Faux négatifs : 97

* Total des motifs dans les échantillons avec statistiques : 452

En rouge, j'ai mis en évidence le résultat global de la capacité de généralisation. Le premier est le pourcentage de personnes qui devinent des uns, le deuxième est le pourcentage de personnes qui devinent des zéros, et le troisième est le total.



Le classificateur de Reshetov donne de meilleurs résultats que mlp au moins, et ne se ré-entraîne pas, c'est son avantage ... mais il prend beaucoup de temps pour compter avec votre ensemble, hier j'ai eu 2 heures pour compter et aujourd'hui j'ai repris après hibernation ... J'attends quand il termine le comptage pour pouvoir comparer les erreurs :)

Néanmoins, je veux le réécrire en mql5 et le convertir en OpenCL ici pour une utilisation plus efficace. Ensuite, louez un google cloud et calculez un réseau neuronal en quelques minutes (secondes ?) sur Tesla, ou achetez le Tesla pour 500 000 :) Pour 3000 cœurs cuda

 
Maxim Dmitrievsky:


Le classificateur de Reshetov donne de meilleurs résultats que mlp au moins, et ne se réapprend pas, c'est son avantage... mais il prend tellement de temps à compter avec votre ensemble, hier j'ai compté 2 heures et aujourd'hui encore j'ai continué après l'hibernation... j'attends qu'il finisse de compter pour pouvoir comparer les erreurs :)

Néanmoins, je veux le réécrire en mql5 et le convertir en OpenCL ici pour une utilisation plus efficace. Ensuite, louez un google cloud et calculez un neuronet en quelques minutes (secondes ?) sur tesla, ou achetez le Tesla pour 500 000 :) Pour 3000 cœurs cuda


C'est d'ailleurs son grand avantage : il n'est pas réentraîné, même si le modèle se complique à chaque fois. Ainsi, nous obtenons le modèle le plus complexe (grand) qui n'est pas recyclé. Donc le modèle s'avère plus intelligent, quelque chose comme Tapka. Je pensais déjà au coprocesseur mathématique Intel Xeon, mais il coûte 200 000. Il y a 60 cœurs et 120 cœurs logiques. Réfléchissez-y, comment pouvez-vous construire un modèle en 5 secondes, en traitant même ceci comme vous le dites n'est pas un grand ensemble et obtenir un modèle adéquat pour le processus non-stationnaire le plus complexe comme la monnaie kotir ????. Afin d'obtenir un modèle adéquat, il est nécessaire de consacrer suffisamment de temps à la machine. Le modèle sera alors adéquat, et il durera plus longtemps.

J'aimerais quand même le faire fonctionner sur un GPU. Au moins 10 fois la performance et ce serait bon..... Peut-être que ça va marcher après tout ?

 
Dr. Trader:

Les résultats de l'évaluation de l'importance sont les suivants. Plus le prédicteur est élevé dans le tableau, mieux c'est. SeulsVVolum6, VDel1, VVolum9, VQST10 ont passé le test.

Dans rattle, nous pouvons construire 6 modèles à la fois sur ces 4 prédicteurs, et le SVM montre une précision d'environ 55% sur les données de validation et de test. Pas mal.


Super, maintenant l'optimiseur est en train de compter, je ne sais même pas quand il va finir, mais je vais certainement lui envoyer ces données et voir ce qu'il va donner, à quoi ressemblera ce modèle...... Merci !
 
Maxim Dmitrievsky:


Mais cela prend un temps fou pour compter avec votre seth, hier cela m'a pris 2 heures et aujourd'hui cela a repris après hibernation... J'attends qu'il finisse de compter pour pouvoir comparer les erreurs :)

Néanmoins, je veux le réécrire sur mql5 et le convertir en OpenCL ici pour une utilisation plus efficace. Ensuite, louez un google cloud et calculez un neuronet en quelques minutes (secondes ?) sur tesla, ou achetez le Tesla pour 500 000 :) Pour 3000 cœurs cuda


Encore une fois, combien de cœurs sont utilisés dans les calculs ? J'ai 4 cœurs chargés à 100% et je n'ai pas osé lancer un jeu complet de 452 lignes, car j'ai l'impression que c'est une semaine, pas moins......
 
Mihail Marchukajtes:

Encore une fois, combien de cœurs sont utilisés dans les calculs ? J'ai 4 cœurs chargés à 100% et je n'ai pas osé lancer l'ensemble des 452 lignes car j'ai l'impression que c'est une semaine, pas moins......


Quoi qu'il en soit, j'ai creusé la dernière version du programme, où il y a un parallélisme, mais la dernière version fonctionne différemment de la première, il y a 2 réseaux neuronaux dans le comité, mlp et l'auteur, et ils interagissent ensuite lors de l'obtention des résultats, beaucoup de code, respect à l'auteur :) Y a-t-il quelque part une description de la dernière version, la théorie ?

Il y a quelque chose de très hardcore dans l'utilisation de CELA en particulier. Il faudra consacrer beaucoup de temps à l'étude du code.

Essayez de contacter l'auteur lui-même et appelez-le, peut-être qu'il le parallélisera lui-même... comme il y a un geste

Метод МГУА для социально экономического прогнозирования, математического моделирования, статистического анализа данных, аналитической оценки систем и программирования.
  • Григорий Ивахненко
  • gmdh.net
Метод Группового Учета Аргументов применяется в самых различных областях для анализа данных и отыскания знаний, прогнозирования и моделирования систем, оптимизации и распознавания образов. Индуктивные алгоритмы МГУА дают уникальную возможность автоматически находить взаимозависимости в данных, выбрать оптимальную структуру модели или сети, и...
 
Mihail Marchukajtes:


C'est son grand avantage : il ne se réentraîne pas et le modèle devient plus compliqué à chaque fois. Nous obtenons donc le modèle le plus complexe (grand), qui n'est pas réentraîné. Donc le modèle s'avère plus intelligent, quelque chose comme Tapka. Je pensais déjà au coprocesseur mathématique Intel Xeon, mais il coûte 200 000. Il y a 60 cœurs et 120 cœurs logiques. Réfléchissez-y, comment pouvez-vous construire un modèle en 5 secondes, en traitant même ceci comme vous le dites n'est pas un grand ensemble et obtenir un modèle adéquat pour le processus non-stationnaire le plus complexe comme la monnaie kotir ????. Afin d'obtenir un modèle adéquat, il est nécessaire de consacrer suffisamment de temps à la machine. Le modèle sera alors adéquat et fonctionnera plus longtemps.

J'aimerais quand même le faire fonctionner sur un GPU. Au moins 10 fois la performance et ce serait bon..... Est-ce que ça peut marcher ?

Le classificateur de Reshetov n'est-il pas encore un réseau, mais un seul neurone ? Ou bien ils sont fusionnés dans le réseau de neurones de Reshetov ?
 
Maxim Dmitrievsky:


Quoi qu'il en soit, j'ai creusé la dernière version du programme, où il y a un parallélisme, mais la dernière version fonctionne différemment de la première, il y a 2 réseaux neuronaux dans le comité, mlp et celui de l'auteur, et ils interagissent ensuite lors de l'obtention des résultats, beaucoup de code, respect à l'auteur :). Y a-t-il quelque part une description de la dernière version, la théorie ?

Il y a quelque chose de très hardcore dans l'utilisation de CELA en particulier. Il faudra passer beaucoup de temps à étudier le code.

Essayez de contacter l'auteur lui-même et appelez-le, peut-être qu'il le mettra en parallèle lui-même... car il y a un geste


Je pense que je n'arriverai pas à joindre l'auteur, je lui ai écrit dans les deux sens. Il ne dit rien. Mais pour autant que je sache, il a écrit qu'il a tout mis en parallèle. Oui, en effet, deux grilles qui travaillent au sein du comité sont en cours de formation. Je l'ai écrit dans mon article. Si les deux indiquent oui, alors oui, si non, alors non, si les deux sont mixtes, alors "ne sait pas". Je ne connais pas la dernière version, mais la description est basée sur google, le lien que vous m'avez donné. J'ai lancé la version 3 sur le serveur WWW et à ma grande déception, l'optimiseur ne charge qu'un seul cœur, mais les versions récentes chargent tous les cœurs de manière égale, donc je pense qu'il y a encore des disparités. Il ne restait qu'une petite chose à faire. Pour augmenter le nombre de cœurs :-)
Raison: