L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 18

 

Juste quelques idées :

J'ai essayé de réaliser un tel système uniquement dans MQL4 :

a formé un vecteur d'intrants (juste la différence entre les prix avec un décalage)

formé des entrées et sorties idéales (il y a beaucoup de méthodes, j'ai pris celle qui m'a plu).

Tout cela pour des barres de 5 minutes par exemple.

J'ai ensuite reconstitué le tableau à chaque nouvelle barre et j'ai également essayé de trouver des modèles similaires dans le passé et de calculer le pourcentage d'entrées pour l'achat et la vente dans une sphère multidimensionnelle de rayon variable. Cette chose a été testée pendant longtemps. Les résultats étaient instables.

Je veux essayer à nouveau un jour en R. C'est-à-dire qu'il s'agit d'une recherche d'entrée et de sortie par distance euclidienne.

 
mytarmailS:

Eh bien, disons que le marché correspond à l'amas № 5, la prochaine bougie sera l'amas № 18 et elle ne nous donnera rien car nous n'aurons pas le temps de négocier l'amas № 5, et en SMM il y a un concept d'état, l'état peut durer un certain temps

Ou peut-être que je ne comprends pas votre pensée ?

Les clusters sont des séquences de longues lignes (même 100 bougies). Vous pouvez faire un tas d'entrées sur la base de ces longues séquences. Et à un moment donné, le système passe du groupe 5 au groupe 45, mais cela se passe, pour ainsi dire, en douceur.
 
Alexey Burnakov:

Juste quelques idées :

J'ai essayé de réaliser un tel système uniquement dans MQL4 :

a formé un vecteur d'intrants (juste la différence entre les prix avec un décalage)

formé des entrées et sorties idéales (il y a beaucoup de méthodes, j'ai pris celle qui m'a plu).

Tout cela pour des barres de 5 minutes par exemple.

J'ai ensuite reconstitué le tableau à chaque nouvelle barre et j'ai également essayé de trouver des modèles similaires dans le passé et de calculer le pourcentage d'entrées pour l'achat et la vente dans une sphère multidimensionnelle de rayon variable. Cette chose a été testée pendant longtemps. Les résultats étaient instables.

Je veux essayer à nouveau un jour en R. C'est-à-dire la recherche d'entrée et de sortie par la distance euclidienne.

J'ai également fait la même chose, aussi la proximité a cherché à travers Euclid et la corrélation de Pearson, Euclid devrait être inférieur à 0,27 et la corrélation supérieure à 0.97, c'est-à-dire que les modèles étaient presque identiques, des similitudes ont été recherchées dans les séries avec trois chandeliers pour les 4 prix OHLC + volume + volatilité, les prix sont normaux, juste mis à l'échelle et centrés (échelle, centre). Comme je l'ai écrit précédemment, le prix va à l'encontre de mes propres prédictions avec une corrélation inverse -0.6.-0,9, je crains que même la validation croisée ne soit d'aucune utilité ici, du moins dans l'espace euclidien, c'est peut-être la raison pour laquelle 99 % des traders perdent leur argent.
 
Alexey Burnakov:
Regroupement de longues séquences de lignes (même 100 chandeliers). Il est possible de faire un tas d'entrées sur la base de ces longues séquences. À un moment donné, le système passe de l'amas 5 à l'amas 45, mais cela se produit pour ainsi dire lentement.
Le truc, c'est que si on fait l'amas 5 sur la séquence de 100 chandeliers, on sait que c'est l'amas 5 sur 101 chandeliers de l'amas 5, c'est-à-dire qu'on a perdu 100 chandeliers). Et dans SMM, étant sur le cluster #45, nous savons déjà que nous allons probablement aller sur le cluster #5.
 

Et une autre question pour le R

bibliothèque(kza)

DAT <- rnorm(1000)

KZP <- kzp(DAT,m=100,k=3)

summary(KZP ,digits=2,top=3)


comment puis-je le sortir de "summary" http://prntscr.com/bhtlo9 pour que nous puissions travailler avec ces chiffres ?

Скриншот
Скриншот
  • prnt.sc
Снято с помощью Lightshot
 
Dr.Trader:


J'ai essayé de lire l'article sur p-bloggers, mais comme je ne connais pas l'anglais je ne comprends rien, pouvez-vous m'expliquer en langage clair quelle est l'essence de cette méthode de sélection, comment elle fonctionne ?

Purement intuitivement et sur la base des premiers résultats de tests, je soupçonne que cette méthode est très similaire à la méthode des composantes principales, et peut-être même la même ...

Premier test, j'ai eu un échantillon de 30 prédicteurs, j'ai entraîné RF error et j'ai obtenu Précision : 0.6511

puis je les ai sélectionnés en utilisant votre méthode

nous avons obtenu 14 prédicteurs, l'erreur était Précision : 0.6568

En fait, nous avons éliminé la moitié des prédicteurs et amélioré un peu le résultat de la prévision, ce qui n'est pas mal.

Je vais essayer d'autres jeux de données.....

Autre question, pourquoi est-ce que j'obtiens une erreur de 3-6% sur les données de validation lorsque je charge les mêmes données dans rattle ?

 
mytarmailS:
Le truc c'est que si on fait un cluster sur une séquence de 100 bougies alors on sait que c'est le cluster #5 sur 101 bougies du cluster #5, soit 100 bougies qu'on a soufflées). Et comme SMM se trouve sur le cluster #45, nous savons déjà que nous allons probablement passer au cluster #5.
Nous n'avons rien perdu. Lors de la première mesure, nous déterminerons le cluster, puis il y aura une série de changements de cluster. Aux points de transition d'un cluster à l'autre, nous pouvons construire une matrice carrée et modifier le mode de transaction : entrer en achat sur le cluster n, fermer le trade sur le cluster m. Puis la même matrice pour la vente. Toutes les variantes ne font que passer. Et nous pouvons faire varier les paramètres de clustering et regarder le résultat dans la boucle.
 
mytarmailS:

J'ai essayé de lire l'article sur p-bloggers, mais comme je ne connais pas l'anglais je ne comprends rien, pouvez-vous m'expliquer en langage clair quelle est l'essence de cette méthode de sélection, comment elle fonctionne ?

Purement intuitivement et sur la base des premiers résultats de tests, je soupçonne que cette méthode est très similaire à la méthode des composantes principales, et peut-être même la même ...

Premier test, j'avais un échantillon de 30 prédicteurs, j'ai entraîné RF error et j'ai obtenu Précision : 0.6511

puis je les ai sélectionnés en utilisant votre méthode

nous avons obtenu 14 prédicteurs, l'erreur était Précision : 0.6568

En fait, nous nous sommes débarrassés de la moitié des prédicteurs et avons légèrement amélioré le résultat de la prévision, ce qui n'est pas mauvais

Je vais essayer d'autres jeux de données.....

Une autre question, pourquoi si nous utilisons les mêmes données dans rattle, l'erreur est de 3-6% sur les données de validation, comment puis-je le savoir ?

1. C'est la méthode des composantes principales avec quelques modifications qui est utilisée.

2. l'idée principale de l'utilisation de cette méthode n'est pas d'améliorer la précision de la prédiction. L'idée principale est que la précision de prédiction résultante resterait approximativement la même dans le futur. Dans la pratique, et nous le savons grâce au testeur, nous pouvons presque toujours obtenir des données étonnantes des conseillers experts grâce à l'optimisation. Cependant, avec la monotonie monotone à venir, ces grails drainent le dépo. Cela se produit parce que, pendant la formation, le conseiller expert apprend certaines particularités qui ne sont pas répétées à l'avenir. Les prédicteurs qui n'ont rien à voir avec la variable cible, c'est-à-dire le bruit, sont particulièrement utiles en tant que telles singularités. Lors de l'optimisation ou de l'ajustement du modèle à R, il est toujours possible d'extraire de ce bruit certaines valeurs qui peuvent améliorer radicalement les performances. Mais cela ne se produira pas à l'avenir et le conseiller expert échouera.

Encore une fois : vous utilisez un outil qui vous permet d'éliminer les différences de performance du modèle sur l'échantillon d'entraînement et sur les cotations futures. À mon avis, ce n'est qu'en résolvant le problème de la reconversion que nous pourrons aller de l'avant.

3. une erreur de moins de 10% et de plus de 5% est une forte preuve que le modèle est réentraîné. Et le surentraînement du modèle est causé par l'ensemble des prédicteurs d'entrée, et non par le modèle lui-même.

 
SanSanych Fomenko:


3. Une erreur de moins de 10 %, et encore moins de 5 %, est une preuve évidente que le modèle est surentraîné. Et la suradaptation du modèle est due à l'ensemble des prédicteurs d'entrée, et non au modèle lui-même.

La question n'est pas de savoir pourquoi les résultats sont différents dans R et Rattle pour les mêmes données et le même modèle.

Question deux : quel est l'intérêt de contrôler le cliquetis d'un modèle "hors échantillon" s'il montre l'enfer ?

 
mytarmailS:

La question n'est pas de savoir pourquoi les résultats sont différents dans R et Rattle pour les mêmes données et le même modèle.

Deuxième question : quel est l'intérêt de vérifier le modèle " hors échantillon " sur le cliquetis s'il montre l'enfer...

Vous avez probablement des paramètres d'échafaudage différents dans r et rattle, d'où les résultats différents. Dans le hochet lui-même, vous pouvez également modifier le nombre d'arbres et de variables.

Et votre hochet a 34% d'erreur sur les données de formation et 3% d'erreur sur les données de validation ? Quelque chose ne va pas avec les données de validation, soit elles existaient déjà dans les données de formation, soit vous avez un très petit ensemble de données et cela s'est produit comme ça.