L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 1964

 
Aleksey Vyazmikin:

Je n'ai peut-être pas précisé plus tôt qu'il devait rester au moins 1 % des indicateurs dans la feuille pour les petits échantillons et 100 pour les grands échantillons, de sorte que la répartition ne sera évidemment pas telle qu'il n'y ait aucune erreur dans la feuille pour aucune classe.

Vous semblez mal comprendre la dernière étape - je la vois comme une évaluation statistique de l'échantillon de 1% restant - dans cet échantillon, nous observons que le résultat s'améliore avec des divisions par différents prédicteurs, nous obtenons des informations de sous-espace, par exemple :

Si A>x1, alors la cible 1 sera correcte à 40%, soit 60% du sous-échantillon.

Si B>x2, alors la cible 1 sera correctement identifiée avec 55%, soit 45% du sous-échantillon.

Si A<=x1, alors la cible 1 sera correctement définie par 70%, soit 50% du sous-échantillon.

Chacune de ces divisions a un facteur de signification (je n'ai pas encore décidé comment le calculer), et la dernière division en a un aussi.

et ainsi de suite, disons jusqu'à 5-10 prédicteurs, puis lors de l'application, si nous atteignons la dernière division, nous additionnons les coefficients (ou utilisons une méthode plus compliquée de sommation), et si la somme des coefficients dépasse le seuil, alors la feuille est classée 1, sinon zéro.


Une façon simple de mettre cela en œuvre est de construire de force une forêt jusqu'à l'avant-dernière division, puis d'exclure les prédicteurs déjà sélectionnés de l'échantillon, de sorte que de nouveaux prédicteurs soient sélectionnés. Ou simplement, après avoir construit l'arbre, filtrer l'échantillon par feuille et passer en revue chaque prédicteur par lui-même à la recherche de la meilleure répartition qui répond au critère de complétude et de précision.

Et, le résultat sur l'échantillon de formation s'améliorera si l'autre classe "0" signifie aucune action et non l'entrée opposée, sinon il peut y avoir à la fois amélioration et détérioration.

Le résultat de la formation se situera toujours entre un arbre formé à N et N+1 profondeurs, par exemple 6 et 7. Si au niveau 6 l'erreur est de 20% et au niveau 7 l'erreur est de 18%, votre méthode donnera une erreur entre les deux, par exemple 19%. Pensez-vous que le gain de 1 % en vaut la peine ?
Nous avons décrit précédemment une méthode simple : former certains arbres au niveau 6 et d'autres au niveau 7 de profondeur. Cela nécessiterait de réécrire le code.
J'ai maintenant trouvé une méthode plus simple, car vous ne devez rien réécrire. Il suffit de construire une forêt aléatoire avec n'importe quel paquet au niveau 6 et une autre forêt au niveau 7, puis de faire la moyenne.


L'échantillon deformation ne doit pas nous inquiéter - il est toujours parfait.

 
elibrarius:
Tout de même, le résultat de la formation sera quelque chose entre un arbre formé à la profondeur N et N+1, par exemple 6 et 7. Si au niveau 6 l'erreur est de 20% et au niveau 7 de 18%, votre méthode vous donnera l'erreur entre les deux, par exemple 19%. Pensez-vous que le gain de 1 % en vaut la peine ?
Nous avons décrit précédemment une méthode simple : former certains arbres au niveau 6 et d'autres au niveau 7 de profondeur. Cela nécessiterait de réécrire le code.
J'ai maintenant trouvé une méthode plus simple, car vous ne devez rien réécrire. Il suffit de construire une forêt aléatoire avec n'importe quel paquet au niveau 6 et une autre forêt au niveau 7, puis de faire la moyenne.


L'échantillon deformation ne doit pas nous inquiéter - il est toujours bon.

Le gain est généralement supérieur à 1 %.

Bien sûr, vous pouvez randomiser les forêts, mais comment faire pour qu'elles soient identiques jusqu'à l'avant-dernière division ? Supposons que vous formiez 10 arbres jusqu'à la 6e division, et que vous en formiez 10 autres de la même manière, mais jusqu'à la 7e.

 
Aleksey Vyazmikin:

Le gain est généralement supérieur à 1 %.

Bien sûr, on peut avoir des forêts aléatoires, mais comment faire pour qu'elles soient identiques jusqu'à l'avant-dernière division ? Disons que nous enseignons 10 arbres à la 6e division, et que nous enseignons les 10 autres de la même manière, mais à la 7e division.

Pas du tout. C'est pourquoi elles sont aléatoires, car nous prenons des colonnes aléatoires pour l'entraînement. Le calcul de la moyenne donne alors de bons résultats.
Vous pouvez essayer de définir la fraction de colonnes = 1. En d'autres termes, toutes les colonnes participeraient à la construction de l'arbre, plutôt qu'un échantillon aléatoire de 50 % de toutes les colonnes. Tous les arbres seront les mêmes, donc définissez également 1 arbre dans la forêt. Au total, une forêt avec un arbre est entraînée à 6, l'autre à 7 niveaux de profondeur.
Si vous avez besoin de plus de deux arbres, vous pouvez retirer certaines colonnes de l'ensemble et former des forêts supplémentaires sur toutes les colonnes restantes.

Ajouter également : le nombre de rangs participant à la formation doit également être fixé à 1, c'est-à-dire tous pour que la formation soit la même. Ainsi, tout ce qui est aléatoire dans la forêt aléatoire est supprimé.
 

C'est un défi de trouver une logique de négociation pour ce type d'appartement.

Jusqu'à présent, nous avons trouvé ceci.


de plus l'architecture des ns varie sur une large gamme

l'essentiel est de bien faire les choses

 
Maxim Dmitrievsky:

C'est un défi de trouver une logique de négociation pour cela.

Jusqu'à présent, nous avons trouvé ceci.


de plus l'architecture des ns varie sur une large gamme

l'essentiel est de choisir la bonne récompense

De nouveau pris sur le NS avec des renforts ? Ils semblent utiliser la récompense

 

Je suggère de faire des tests sur ces données, il y a certainement un modèle et l'objectif à atteindre est clair.

ps enlever .txt du nom

Dossiers :
test.zip.001.txt  15360 kb
test.zip.002.txt  13906 kb
 

Dans 1,5 mois. Auto-apprentissage complet sansintervention

Je creuserai un peu plus tard... trop de paramètres...

 
Maxim Dmitrievsky:

Dans 1,5 mois. Auto-apprentissage complet sansintervention

Je creuserai un peu plus tard... trop de paramètres...

Pas mal.)
 
Maxim Dmitrievsky:

Dans 1,5 mois. Auto-apprentissage complet sansintervention

Je creuserai un peu plus tard... trop de paramètres...

S'agit-il de nouvelles données commerciales ou comment les comprendre ?

 
mytarmailS:

S'agit-il de nouvelles données commerciales ou comment les comprendre ?

Vous le faites fonctionner et il négocie, il apprend au fur et à mesure.
Raison: