L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 365

 
elibrarius:

J'ai déjà supprimé les entrées corrélées, mais je me demande comment améliorer les entrées.

Donc, je suis d'accord avec vous qu'il doit y avoir une corrélation avec la cible, c'est pourquoi je veux éliminer les entrées non corrélées avec la cible, par exemple avec Ккорр<0,5 ou 0,3. Cela devrait accélérer le processus d'apprentissage sans trop affecter la qualité. Mais il y a une hypothèse selon laquelle je devrai supprimer toutes les entrées ;)))

Sur les inputs utilisés (pris au hasard parmi les indicateurs tech), je n'ai pour l'instant trouvé aucune corrélation avec l'objectif, erreur d'apprentissage = 0.44, c'est-à-dire presque une pièce de monnaie. L'équilibre est en baisse.


en aucun cas il ne doit y avoir de corrélation avec la cible, où est-ce même écrit ? quel sens cela a-t-il ? Si vous avez une corrélation 1 avec la cible, vous connaissez l'avenir et vous n'avez pas besoin d'un réseau neuronal.
 
Maxim Dmitrievsky:

en aucun cas il ne doit y avoir de corrélation avec la cible, où est-ce que c'est écrit ? quel sens cela a-t-il ? Si vous avez une corrélation de 1 avec la cible, vous connaissez l'avenir et vous n'avez pas besoin d'un réseau neuronal.


Toute la MO est basée sur le fait que les variables d'entrée doivent être en corrélation avec la variable de sortie.

Sinon, il n'y a aucun intérêt à utiliser TOUS les modèles de MO.

Dans le Data Mining, TOUS LES MODÈLES DE SÉLECTION DE VARIABLES mettent en œuvre un mécanisme de corrélation maximale entre la variable d'entrée et la variable de sortie :

Procédure de sélection en avant,
Procédure d'élimination à rebours,
la procédure Stepwise,
Procédure des meilleurs sous-ensembles.
 
Dimitri:


Toutes les MDE sont basées sur le fait que la variable d'entrée doit être en corrélation avec la variable de sortie.

Sinon, il n'y a aucun intérêt à utiliser TOUS les modèles de MO.

En Data Mining, les MODÈLES DE SÉLECTION DE VARIABLES mettent en œuvre un mécanisme visant à maximiser la corrélation entre la variable d'entrée et la variable de sortie :

Procédure de sélection en avant,
Procédure d'élimination à rebours,
la procédure Stepwise,
Procédure des meilleurs sous-ensembles.

Corréler dans le sens où les vecteurs (courbes) d'entrée et de sortie devraient être corrélés ou la corrélation signifie-t-elle simplement la dépendance de la variable de sortie par rapport à celle d'entrée, dans un sens général ?
 
Maxim Dmitrievsky:

Corréler dans le sens où les vecteurs (courbes) d'entrée et de sortie doivent être corrélés ou la corrélation signifie-t-elle simplement la dépendance de la variable de sortie par rapport à la variable d'entrée, dans un sens général ?


La dépendance est un cas particulier de corrélation. Si deux variables sont dépendantes, il y a certainement une corrélation. S'il y a corrélation, il n'y a pas nécessairement dépendance.

Il n'existe aucune méthode pour détecter la dépendance dans les modèles statistiques. Il n'y a que l'espoir que la corrélation identifiée entre un ensemble de variables d'entrée et une variable de sortie constitue une relation.

Par conséquent, les variables doivent être corrélées.

 
Dimitri:


La dépendance est un cas particulier de corrélation. Si deux variables sont dépendantes, alors il y a certainement une corrélation. S'il y a corrélation, il n'y a pas nécessairement dépendance.

Il n'existe aucune méthode pour détecter la dépendance dans les modèles statistiques. Il n'y a que l'espoir que la corrélation identifiée entre un ensemble de variables d'entrée et une variable de sortie constitue une relation.

Par conséquent, les variables doivent être corrélées.


Et s'il y a une corrélation inverse, est-ce que ce n'est plus une dépendance ou quoi ? ) Et le SN se retrouvera bloqué par cette approche.

Alléluia... zigzag en entrée et zigzag en sortie avec décalage... la corrélation est presque parfaite, mais à quoi bon ? )

 
Maxim Dmitrievsky:

Si la corrélation est inverse, n'est-ce plus une corrélation ? ) Et NS s'enlise dans cette approche


Il n'y a pas de corrélation lorsque le coefficient de corrélation est égal à 0.

Comment pouvez-vous construire un modèle si les données entrantes et sortantes ne sont pas du tout corrélées ?

 
Dimitri:


Il n'y a pas de corrélation lorsque le coefficient de corrélation est égal à 0.

Comment pouvez-vous construire un modèle si les données entrantes et sortantes ne sont pas du tout corrélées ?


Oui, car la corrélation des entrées et des sorties n'a aucune importance lorsque le modèle recherche des modèles dans un ensemble de prédicteurs... C'est une contradiction de supprimer les entrées corrélées mais de chercher des entrées corrélées aux sorties... )) C'est-à-dire qu'au moins nous aurons une entrée corrélée avec la sortie, puis toutes les autres entrées que nous devrons supprimer, car elles sont aussi corrélées avec la sortie, et par conséquent avec les autres entrées... cool, hein ?
 
Maxim Dmitrievsky:

C'est parce que la corrélation des entrées et des sorties n'est pas du tout importante lorsque le modèle recherche des modèles dans un ensemble de prédicteurs... C'est une contradiction - supprimer les entrées corrélées mais rechercher les entrées corrélées aux sorties. )) C'est-à-dire qu'au moins nous aurons une entrée corrélée avec la sortie, puis toutes les autres entrées que nous devrons supprimer, car elles sont aussi corrélées avec la sortie, et par conséquent avec les autres entrées... cool, non ?


Non, pas cool.

Si la première variable est corrélée à la variable sortante par un coefficient de 0,7, par exemple, et la seconde par un coefficient de 0,65, cela ne signifie pas que les deux variables sont fortement corrélées entre elles.

Supposons maintenant que le premier est corrélé avec 0,7 et le second avec le coefficient de -0,69.

 
Dmitry:


Non, ce n'est pas cool.

Si la première variable est corrélée à la variable sortante avec un coefficient de, disons, 0,7 et la deuxième variable avec un coefficient de 0,65, cela ne signifie pas du tout que les deux variables sont fortement corrélées entre elles.

Imaginez maintenant que le premier a un coefficient de 0,7 et le second un coefficient de -0,69.


Et si vous imaginez aussi que la corrélation définit la "similarité" d'une manière très particulière... Je ne lui accorderais pas beaucoup de crédit.

Nous construisons un réseau neuronal high-tech précis et sommes guidés par la corrélation lors du choix des prédicteurs? C'est un peu faux ou quelque chose comme ça... mais c'est tout "à mon avis"... )

 
Maxim Dmitrievsky:

Et si vous imaginez aussi que la corrélation définit la "similarité" d'une manière très particulière... Je ne lui ferais pas vraiment confiance.


Ensuite, la deuxième option - mettre tout ce que vous avez dans NS. Mais il y a deux "MAIS" :

1. espérer que les variables non corrélées ne dégradent pas la qualité du modèle (la régression existe).

2. sacrifier la dimensionnalité et le temps.

Raison: