L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 419

 
Très bien, je vais lancer quelques informations ici. Le truc c'est que j'ai une idée des données à utiliser pour prédire le marché, mais malheureusement je ne peux pas les rassembler en totalité et sous la bonne forme, si quelqu'un m'aidait dans l'organisation de la collecte, je partagerais son optimiseur, bien, et la stratégie dans son ensemble. Les données sont déjà assez bonnes, mais pour être super, nous devons ajouter quelque chose. Qui est fort en programmation et capable d'obtenir des données en ligne de plusieurs sites dans le fichier csv ?
 
Mihail Marchukajtes:
Très bien, je vais mettre l'information ici. J'ai une idée des données à utiliser pour faire des prévisions de marché, mais malheureusement je ne peux pas les rassembler dans leur intégralité et sous la forme requise. J'aimerais partager mon optimiseur et la stratégie en général avec ceux qui m'ont aidé à organiser cette collecte. Les données sont déjà assez bonnes, mais pour être super, nous devons ajouter quelque chose. Qui est fort en programmation et capable d'obtenir les données en ligne de plusieurs sites dans le fichier csv ?
Mon modèle est basé sur des données multifilières et diversifiées. J'ai de l'expérience dans l'analyse des données. Je serais heureux de participer.
 

J'ai écrit dans mon blog sur le choix des paramètres du réseau neuronal - SELECTING NEUROSET CONFIGURATION.

Au moins au stade initial, il est préférable de le faire, c'est-à-dire que plus tard, si nécessaire, vous pourrez simplifier la DS.

L'exemple de choix présenté dans le blog est abstrait, mais c'est à partir de considérations similaires que j'ai choisi les paramètres de mon NS. Les résultats de l'apprentissage ne sont généralement pas mauvais.

Le volume du SN est quelque peu effrayant - dans l'exemple déjà pour 3 MA, il s'agit déjà de plus de 100 neurones, et ce n'est pas encore un TS, mais seulement un modèle pour celui-ci.

 
Yuriy Asaulenko:

J'ai écrit dans mon blog sur le choix des paramètres du réseau neuronal - SELECTING NEUROSET CONFIGURATION.

Au moins au stade initial, il est préférable de le faire, c'est-à-dire que plus tard, si nécessaire, vous pourrez simplifier la DS.

L'exemple de choix présenté dans le blog est abstrait, mais c'est à partir de considérations similaires que j'ai choisi les paramètres de mon NS. Les résultats de l'apprentissage ne sont généralement pas mauvais.

J'ai un peu peur du volume de NS - dans l'exemple pour 3 MA, c'est déjà plus de 100 neurones, et ce n'est pas encore un TS, mais seulement un modèle pour celui-ci.

Essayons comme suit : le week-end ou la semaine prochaine, je lancerai ici des prédicteurs intéressants, et vous me direz ce que vous en pensez. Seulement des prédicteurs sous forme d'indicateurs dans MT5, 4 d'entre eux

Je vais essayer de les utiliser comme prédicteurs dans le trading, et j'aurai l'occasion d'organiser un Challenge - qui sera capable d'enseigner à NS de gagner par ces prédicteurs :) Je ne les ai pas encore appris mais je n'ai pas encore expérimenté.

 
Maxim Dmitrievsky:

Essayons comme suit : le week-end ou la semaine prochaine, je publierai ici des prédicteurs intéressants et vous donnerez votre avis à leur sujet... ? Seulement des prédicteurs sous forme d'indicateurs dans mt5, 4 d'entre eux

Il sera possible d'organiser un Challenge - qui pourra apprendre à NS à gagner par ces prédicteurs :) Mais pour l'instant, je ne peux pas apprendre aux députés à faire des transactions rentables en les utilisant.

(Bon, il me reste encore beaucoup de chemin à parcourir avant de me lancer dans le vrai trading). Je le fais depuis plus d'un mois.

Si je veux utiliser vos indicateurs, ce sera intéressant, mais je n'utiliserai pas les miens. Cependant, la base (la version initiale de 2008) peut être trouvée ici -ButterworthMoving Average - indicateur pour MetaTrader 4. Bien sûr, tout a été fait différemment maintenant.

 
Yuriy Asaulenko:

Eh bien, j'ai encore un long chemin à parcourir avant de pouvoir vraiment faire du commerce). Je le fais depuis plus d'un mois maintenant.

Si vous avez un bon conseiller expert, il me sera utile. Cependant, la base (la version initiale de 2008) peut être trouvée ici -ButterworthMoving Average - indicateur pour MetaTrader 4. Bien sûr, tout est différent maintenant.


Oui, je vais le faire, juste parce que parfois mon cerveau se transforme en tube et j'ai besoin de l'opinion des autres :)
 

Je ne veux contrarier personne, mais hélas, la plupart d'entre vous ne savent pas comment préparer correctement des cibles. Tous ces résultats enthousiasmants (75-80% de précision) sur des bougies plus lentes (>10min) sont en réalité de purs ateliers clandestins. La précision de 55% est suffisante pour rendre le ratio de Sharpe supérieur à 2, et la précision de 60% sur des données lentes est le même graal, qui est la légende, ratio de Sharpe 3-4, personne ne trade comme ça en réel, seulement les gars HFT, mais ils ont une échelle différente des coûts de trading, il y a moins de SR <2 n'est pas rentable.

En bref...

Vous ne pouvez pas voir laoules cibles !

En d'autres termes, lors du calcul de la cible, vous ne pouvez pas utiliser des données qui sont PAR CONTRE utilisées lors du calcul des caractéristiques, sinon le résultat sera un poky. Pour des raisons évidentes, un tel "tour de passe-passe" comme ZZ à l'enfer, il interpole entre les extrema loin dans la zone où les caractéristiques sont calculées, le résultat est exorbitant, au moins 90% de précision sans problèmes, mais c'est un faux. C'est la base des discussions obscurantistes sur "la prévision n'est pas importante", il faut quand même développer le TS, etc. Donc, en fait, ces "90%" sont toujours les mêmes 50% "bien-aimés".


Soyez raisonnable :)

 
Aliosha:


En bref...

NE PAS VOIR la cible(caractéristiques) !

En d'autres termes, lors du calcul de l'objectif, vous ne pouvez pas utiliser des données qui ne sont JAMAIS utilisées dans le calcul des caractéristiques, sinon le résultat sera un balayage. Pour des raisons évidentes, un tel "tour de passe-passe" comme ZZ à l'enfer, il interpole entre les extrema loin dans la zone où les caractéristiques sont calculées, le résultat est exorbitant, au moins 90% de précision sans problèmes, mais c'est un faux. C'est la base des discussions obscurantistes sur "la prévision n'est pas importante", il faut quand même développer le TS, etc. Donc, en fait, ces "90%" sont toujours les mêmes 50% "bien-aimés".


Soyez raisonnable :)

Je ne suis pas d'accord avec vos conclusions sur ZZ, ainsi qu'avec vos conclusions en général.

RSI par exemple. qui interpole ZZ ou vice versa dans ce prédicteur particulier. En attendant, je peux montrer que le RSI en tant que prédicteur de ZZ n'a pas une mauvaise capacité de prédiction. Et, par exemple, l'ondulation n'a aucune capacité prédictive pour ZZ et est un bruit à 100% pour ZZ - complètement inutile comme prédicteur. Vous pouvez obtenir un modèle basé sur mashka avec moins de 10% d'erreur, mais si vous exécutez ce modèle entraîné sur un nouveau fichier non associé à un fichier d'entraînement, vous obtiendrez une erreur arbitraire.

En plus du problème que vous avez mentionné, à savoir qu'il existe des prédicteurs parmi les prédicteurs pour une ZR dont cette même ZR est dérivée, il existe un autre problème fondamental et indépendant de la variable cible : c'est le problème que le prédicteur n'est PAS lié à la variable cible est le bruit pour une variable cible particulière (la ZR ne fait pas exception). Le bruit est un prédicteur très pratique. Vous pouvez toujours trouver des valeurs parmi les valeurs de bruit qui réduiront l'erreur de prédiction. Lorsque je ne comprenais pas cela, j'obtenais très souvent des erreurs de prédiction autour de 5%.

Mais si l'on est capable de nettoyer l'ensemble initial de prédicteurs du bruit pour une variable cible particulière, il est alors extrêmement difficile de réduire l'erreur en dessous de 30%, du moins pour moi.

Conclusion : le surentraînement est causé par des prédicteurs bruités pour une variable cible particulière et ZZ ne fait pas exception.

 
SanSanych Fomenko:

Je ne peux pas être d'accord avec vos conclusions sur ZZ, ni avec vos conclusions en général.

RSI par exemple. qui interpole ZZ ou vice versa dans ce prédicteur particulier. En attendant, je peux montrer que le RSI en tant que prédicteur de ZZ n'a pas une mauvaise capacité de prédiction. Et, par exemple, l'ondulation n'a aucune capacité de prédiction pour ZZ et est un bruit à 100% pour ZZ - complètement inutile comme prédicteur. Vous pouvez obtenir un modèle basé sur mashka avec moins de 10% d'erreur, mais si vous exécutez ce modèle entraîné sur un nouveau fichier non associé à un fichier d'entraînement, vous obtiendrez une erreur arbitraire.

En plus du problème que vous avez mentionné, à savoir qu'il existe des prédicteurs parmi les prédicteurs pour une ZR dont cette même ZR est dérivée, il existe un autre problème fondamental et indépendant de la variable cible : c'est le problème que le prédicteur n'est PAS lié à la variable cible est le bruit pour une variable cible particulière (la ZR ne fait pas exception). Le bruit est un prédicteur très pratique. Vous pouvez toujours trouver des valeurs parmi les valeurs de bruit qui réduiront l'erreur de prédiction. Lorsque je ne comprenais pas cela, j'obtenais très souvent des erreurs de prédiction autour de 5%.

Mais si l'on est capable de nettoyer l'ensemble initial de prédicteurs du bruit pour une variable cible particulière, il est alors extrêmement difficile de réduire l'erreur en dessous de 30%, du moins pour moi.

En conclusion : l'overfitting est causé par des prédicteurs qui sont du bruit pour une variable cible particulière et ZZ ne fait pas exception.


Bien ! Ayons un débat sur ce sujet extrêmement important. Je suggère que nous menions une série d'expériences pour aller au fond des choses.

Donc, j'argumente :

1) Correct, la synthèse des caractéristiques et la classification d'un ensemble aléatoire de séries temporelles, en 2 classes, donne une précision de 50% (comme une pièce de monnaie), avec suffisamment d'échantillons (de 5-10k). S'il y a un biais statistiquement significatif dans la précision (>51%), il y a des erreurs dans le processus de synthèse des caractéristiques et/ou de classification.

2) Lorsque l'on utilise des cibles qui reprennent des données utilisées dans le calcul des caractéristiques, on obtient des biais significatifs dans la précision (55, 60, 90%) SUR DES TEMPS AYANTS qui ne peuvent être prédits a priori (50%). Ce qui signifie que ce chagrin est faux.

 
Aliosha:


2) Lorsque nous utilisons les données de ciblage utilisées dans le calcul des traits, nous obtenons un biais significatif de précision(55, 60, 90%) SUR DES TEMPS AYANTS qui ne peuvent être prédits a priori(50%). Ce qui signifie que cette jauge est fausse.

Et pourquoi vérifier quoi que ce soit ? Pour moi, c'est évident.

J'ai donné un exemple de RSI-ZZ - rien de commun, et vous pouvez construire un modèle avec moins de 50% d'erreur.

Autre exemple : mashka-ZZ - facilement moins de 10% d'erreur. Lorsqu'on le teste sur un nouveau fichier, on obtient un résultat complètement arbitraire.

Raison: