L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 364

 
Vladimir Perervenko:

Regardez ici.

Lorsqu'on évalue l'importance des prédicteurs, il est important de se rappeler qu'il s'agit d'une quantité complexe, qui n'est pas déterminée par les seuls critères d'information. et


A mon sens, l'importance du prédicteur déterminée à la fois par des moyens intégrés dans l'algorithme de base et par des moyens séparés, ne résout pas le problème, car cette importance est en fait la fréquence d'utilisation du prédicteur pour la classification. Si les prédicteurs incluent les anneaux de Saturne, le marc de café, l'algorithme utilisera également ces prédicteurs.


J'ai écrit à de nombreuses reprises sur ce fil et sur d'autres fils que les prédicteurs doivent être "liés" à la variable cible.

Je vous donne à nouveau un exemple.

La variable cible est l'homme/femme

Prédicteur : vêtements.

Pour les pays aux mœurs strictes, si le prédicteur se compose de pantalons et de jupes, il se divise en deux sous-ensembles non chevauchants, dont chacun identifie de manière unique la variable cible, c'est-à-dire que l'erreur de classification est nulle.

Si nous commençons à inclure des vêtements unisexes ou de style écossais dans le prédicteur, il y a alors un chevauchement, ce qui détermine l'erreur de classification. Il n'y a en principe aucun moyen de se débarrasser de cette erreur.


Ce ne sont pas seulement mes pensées, mais dans ce fil, j'ai donné des références à des publications ayant des pensées similaires.

 
SanSanych Fomenko:


En ce qui me concerne, l'importance des prédicteurs, déterminée par des moyens intégrés à l'algorithme de base ou par des moyens séparés, ne résout pas le problème, car cette importance est en fait la fréquence d'utilisation d'un prédicteur dans la classification. Si les prédicteurs incluent les anneaux de Saturne, le marc de café, l'algorithme utilisera également ces prédicteurs.


J'ai écrit à de nombreuses reprises sur ce fil et sur d'autres fils que les prédicteurs doivent être "liés" à la variable cible.

Je vous donne à nouveau un exemple.

La variable cible est l'homme/femme

Prédicteur : vêtements.

Pour les pays aux mœurs strictes, si le prédicteur se compose de pantalons et de jupes, il se divise en deux sous-ensembles non chevauchants, dont chacun identifie de manière unique la variable cible, c'est-à-dire que l'erreur de classification est nulle.

Si nous commençons à inclure des vêtements unisexes ou de style écossais dans le prédicteur, il y a un chevauchement, qui déterminera l'erreur de classification. Il n'y a en principe aucun moyen de se débarrasser de cette erreur.


Ce ne sont pas seulement mes pensées, mais dans ce fil, j'ai fourni des liens vers des publications ayant des pensées similaires.

La vérité est unique, il y a un million de chemins pour y accéder.

Chacun a droit à sa propre voie. L'essentiel est que cela ne mène pas à une impasse.

Bonne chance

 
Maxim Dmitrievsky:


Mais je crois qu'il est possible de fabriquer un bon appareil auto-optimisant qui ne fonctionnera pas parfaitement pour toujours, mais qui donnera occasionnellement

Mais il est clair que ce ne sera pas sur des indicateurs standards et une sortie en zigzag :) Cela ressemble même à un jeu d'enfant pour moi, juste à titre d'exemple si seulement.

Je l'espère aussi, mais je suis loin des illusions, que j'avais il y a 3 ans, que cela peut se faire en configurant une douzaine de paramètres, des classificateurs de bibliothèques populaires. Il s'est avéré être très non trivial et lent, surtout le soir après le travail(((

ZZ est un mauvais ciblage, je suis tout à fait d'accord.

 
Vladimir Perervenko:

Lorsqu'on évalue l'importance des prédicteurs, il est important de se rappeler...

... l'importance des prédicteurs peut être déterminée par leurs poids dans la première couche

elibrarius:

l'algorithme de calcul de l'importance dans cette fonction

Je procède en deux étapes : je traite d'abord les caractéristiques PCA linéairement corrélées, par exemple, puis je construis un modèle non linéaire riche, par exemple une forêt ou un XGB, je passe en revue les caractéristiques (PCA comprimée) et j'élimine celles sans lesquelles la jauge diminue le moins.
 

Installation d'Open R, installation de tous les paquets, VS 2017 se bloque toujours lors de la création d'un projet R.

Les projets Python fonctionnent bien

J'ai supprimé R Studio et R 3.4, il ne reste plus qu'Open R, et ça marche). Apparemment, ils sont contradictoires.

Et il n'y a aucun intérêt à utiliser R Studio, c'est la même chose.


 
Serait-il judicieux de construire une corrélation entre les variables d'entrée et la cible avant la formation ? Et retirer les plus décorrélées, pour accélérer le calcul et augmenter le degré d'apprentissage ?
 
elibrarius:
Est-il utile d'établir une corrélation entre les variables d'entrée et la cible avant la formation ? Et supprimer les plus décorrélées, pour accélérer le calcul et augmenter le degré d'apprentissage ?
En fait, vous devriez supprimer les entrées corrélées :) Si vous avez des entrées en corrélation avec la cible, alors c'est un graal et vous n'avez pas besoin de NS))).
 
Il y a une fois un logiciel intéressant sur Internet. Vous énumérez mentalement un personnage ou une personnalité populaire et l'ordinateur, en vous posant des questions spécifiques, peut prédire votre pensée avec une forte probabilité. C'est comme ça qu'un réseau neuronal est censé fonctionner. Le bon questionnement. C'est là que réside le mystère.
 
elibrarius:
Serait-il judicieux d'établir une corrélation entre les variables d'entrée et la cible avant la formation ? Et supprimer les plus décorrélées, pour accélérer le calcul et augmenter le degré d'apprentissage ?

Ce n'est pas la corrélation des variables avec la cible qui doit être vérifiée (elle devrait l'être), mais l'absence de corrélation entre les variables qui ne devraient pas l'être (multicollinéarité).
 
Dmitry:

Nous ne devons pas vérifier la corrélation des variables avec la cible (il doit y en avoir une), mais nous devons vérifier l'absence de corrélation entre les variables - il ne doit pas y en avoir (multicollinéarité).

J'ai déjà procédé à la suppression des entrées corrélées, je me demande simplement comment améliorer les entrées.

Je suis donc d'accord avec vous pour dire qu'il doit y avoir une corrélation avec la cible, c'est pourquoi je veux en plus éliminer les entrées les moins corrélées avec la cible, par exemple avec Kcorr<0.5 ou 0.3. Cela devrait accélérer le processus d'apprentissage sans trop affecter la qualité. Mais il y a une hypothèse selon laquelle je devrai supprimer toutes les entrées ;)))

Sur les inputs utilisés (pris au hasard parmi les indicateurs tech), je n'ai pour l'instant trouvé aucune corrélation avec l'objectif, erreur d'apprentissage = 0.44, c'est-à-dire presque une pièce de monnaie. L'équilibre est en baisse.

Raison: