L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 2746
Vous manquez des opportunités de trading :
- Applications de trading gratuites
- Plus de 8 000 signaux à copier
- Actualités économiques pour explorer les marchés financiers
Inscription
Se connecter
Vous acceptez la politique du site Web et les conditions d'utilisation
Si vous n'avez pas de compte, veuillez vous inscrire
Il convient donc de vérifier avant de le faire.
Vérifier quoi ? Si vous avez une rotation ???
Ce n'est même plus drôle.
Pour résumer la théorie de Sanych (puisqu'il n'a pas lui-même réussi à la formaliser correctement et à donner des exemples) :
Elle est complètement erronée.
1. J'ai écrit plus haut ce que j'entendais par "pouvoir prédictif"
2. La signification n'est pas claire
3. il n'y a pas de formation au sens habituel du terme. Ajustement de la forêt aléatoire. Taille de l'échantillon = 1500 barres, nombre d'arbres = 150. La taille de l'échantillon est déterminée à partir du graphique d'erreur d'ajustement. Sur cet échantillon de 170 prédicteurs, la sélection et le prétraitement des prédicteurs sur la base de différents critères sont effectués. Finalement, sur les 20 à 30 prédicteurs restants, 5 à 10 prédicteurs sont sélectionnés sur la base de la capacité prédictive maximale et le modèle est ajusté. La barre suivante est prédite à l'aide du modèle obtenu. À l'arrivée d'une nouvelle barre, l'ensemble du processus de construction du modèle est répété.
L'erreur d'ajustement maximale est d'environ 20 %, mais elle est assez rare. Elle est généralement de l'ordre de 10 %.
4. J'ai décrit mon approche précédemment.
Encore une fois.
mais la cible n'est pas un zigzag, n'est-ce pas ?
Complètement faux
1. L'auteur de l'article ci-dessus a parlé de sa compréhension de la "capacité de prédiction"
2. Le sens n'est pas clair
3. pas de trayne au sens habituel. Ajustement de la forêt aléatoire. Taille de l'échantillon = 1500 barres, nombre d'arbres = 150. La taille de l'échantillon est déterminée à partir de la courbe d'erreur d'ajustement. Sur cet échantillon de 170 prédicteurs, la sélection et le prétraitement des prédicteurs sur la base de différents critères sont effectués. Finalement, sur les 20 à 30 prédicteurs restants, 5 à 10 prédicteurs sont sélectionnés sur la base de la capacité prédictive maximale et le modèle est ajusté. La barre suivante est prédite à l'aide du modèle obtenu. À l'arrivée d'une nouvelle barre, l'ensemble du processus de construction du modèle est répété.
L'erreur d'ajustement maximale est d'environ 20 %, mais elle est assez rare. Elle est généralement de l'ordre de 10 %.
4. J'ai décrit mon approche plus haut.
La confiance dans le fait que les résultats futurs seront aussi satisfaisants provient de la statistique de capacité prédictive, qui :
1. devrait avoir une valeur sd suffisamment élevée
2. une valeur sd faible.
Comme d'habitude, si l'on peut trouver des prédicteurs dont la valeur sd est inférieure à 10 %, la variation de l'erreur de prédiction sera à peu près la même.
Ma conclusion :
1. Nous devrions adopter (ou développer) l'un des algorithmes de "capacité de prédiction".
2. Trouver une liste de prédicteurs dont les valeurs de capacité prédictive diffèrent d'un facteur un.
3. Lancez une fenêtre et obtenez des statistiques : moyenne et écart par rapport à la moyenne. Si vous avez de la chance, vous trouverez une telle liste. C'est ce que j'ai fait.
Le modèle n'a pas d'importance. Sur mes prédicteurs RF, ada, GBM, GLM donnent à peu près le même résultat. SVM est légèrement moins bon. Pas bon du tout avec nnet.
Toute la réussite réside dans les prédicteurs et leur prétraitement. Et vous dites n'importe quoi ici !
C'est plus logique. D'où viennent les cibles, à partir des résultats du regroupement ?
J'ai le signe des incréments normaux.
La cible est secondaire. Le problème avec la cible, ce sont les prédicteurs : on peut faire correspondre des prédicteurs à une cible particulière ou non.
J'ai un signe pour les incréments normaux.
La cible est secondaire. Le problème de la cible est celui des prédicteurs : on peut adapter les prédicteurs à une cible particulière ou non.
La capacité prédictive est une corrélation d'informations et NON :
1. La corrélation est la "similitude" d'une série stationnaire avec une autre, et il y a toujours une certaine valeur, et il n'y a pas de valeur "pas de relation". La corrélation a toujours une certaine valeur, de sorte que vous pouvez facilement utiliser la corrélation pour trouver la relation entre un professeur et le marc de café.
2. La sélection de fiches est la fréquence d'utilisation des fiches lors de la construction de modèles. Si nous prenons des prédicteurs qui n'ont rien à voir avec l'enseignant, nous obtenons toujours un classement des fiches.
Un analogue à ma compréhension du "pouvoir prédictif" est par exemple caret::classDist(), qui définit les distances d'échantillonnage de Mahalanobis pour chaque classe de centres de gravité. Ou woeBinning. Il existe de nombreuses approches et de nombreux packages dans R. Il en existe d'autres basées sur la théorie de l'information.
J'ai un signe pour les incréments normaux.
La cible est secondaire. Le problème de la cible est celui des prédicteurs : vous pouvez faire correspondre des prédicteurs à une cible particulière ou non.
Le signe des incréments et le signe de ZZ ne garantissent pas le profit. 5 petits incréments se superposeront facilement à un fort incrément, mais dans le sens inverse. Et 10, par exemple, barres rentables de nuit seront également couvertes par 1 barre perdante de jour (juste 10% d'erreur).
Quelle ligne d'équilibre sera obtenue sur les nouvelles données ? J'espère qu'elle n'est pas horizontale avec de petites fluctuations à la hausse ou à la baisse ?
Dans les articles de Vladimir, l'erreur est également de l'ordre de 10-20%, mais la ligne d'équilibre n'incite pas à l'optimisme.
Je ne comprends toujours pas. Il ne s'agit pas de corrélation ou de fréquence d'utilisation. Comment la presc.sp. est-elle estimée dans la formation ou par quoi est-elle estimée ?
Même algèbre vectorielle, même cartographie des caractéristiques qui élimine le problème de la multicolinéarité.
- c'est-à-dire la sélection/projection spatiale des mêmes "composantes" .... L'emplacement dans l'espace des caractéristiques multicollinéaires offre un champ d'application de l'algèbre vectorielle ( !), afin de ne pas se débarrasser de la multicollinéarité de manière artisanale, il est préférable d'en tenir compte (par exemple, en la réduisant à l'espace 3D ou à ce que vous voulez et en opérant avec des projections, et si nécessaire, les données initiales peuvent être multipliées par ces estimations, comme quelque chose comme les charges factorielles, bien qu'habituellement la bibliothèque elle-même mesure cette distance de Mahalanobis et donne les résultats).
Quoi qu'il en soit, le résultat final est la même approximation de la moyenne et de l'écart-type et la prise de décisions commerciales sur cette base.
- il n'y a pas d'autre modélisation dans la nature - il n'y a que des façons de résoudre des problèmes communs (hétéroscédasticité, multicollinéarité, autocorrélation des résidus) dans un espace à (différentes) n-dimensions...
et il est impossible d'échapper aux statistiques ... la solution au problème de la corrélation des traits est ici sous forme explicite ...
p.s..
MISE A JOUR : cet outil(MD) est toujours utilisé pour le clustering/grouping/multidimensional_classification... pour sélectionner les valeurs aberrantes dans un espace multidimensionnel... est parfois utilisé avec la distance euclidienne... "lorsque les variables ne sont pas corrélées - la distance de Mahalanobis coïncide avec la distance euclidienne habituelle".... dans LDA... en général, la tz est celle que j'ai décrite précédemment....
par ce message, je n'ai nullement voulu mettre sur un pied d'égalité l'ACP et le clustering, je me suis simplement souvenu que l'ACP et la MD permettent toutes deux de se débarrasser des valeurs aberrantes dans l'espace multidimensionnel... mais l'essence de ma mise à jour ne change pas : il s'agit de solutions à des problèmes spatiaux par l'algèbre vectorielle pour prendre en compte le problème de la multicollinéarité (de sorte qu'elle ne fausse pas les estimations statistiques).