L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 2739
Alexei, c'est une tâche de recherche normale, comme vous le souhaitez, quel est le problème ?
Le script le fait-il ou non ?
Je me demande simplement combien de personnes ici perdent facilement le fil de la conversation.
Je peux poster un échantillon avec un grand nombre de prédicteurs, quiconque peut sélectionner les meilleurs - bien joué - organisons un concours.
Les meilleurs seront déterminés sur un échantillon indépendant, après avoir entraîné le modèle sur les prédicteurs sélectionnés.
Est-ce que quelqu'un veut participer, ou est-ce qu'ils sont tous si capables par le bouche à oreille ?
SSF n'a pas dit grand-chose de nouveau, bien sûr, l'objectif de trouver une corrélation entre les prédicteurs et les résultats est un objectif évident. La seule nouveauté que j'ai relevée est qu'il a trouvé environ 200 caractéristiques significatives pour l'ensemble de la formation, mais que pour des données spécifiques, il n'utilise que 5 % d'entre elles.
J'en déduis qu'il existe des moyens de déterminer rapidement l'état/les propriétés d'une série afin de sélectionner des prédicteurs plus significatifs pour les données les plus récentes. La question du volume ou de la longueur se pose bien sûr pour une sélection appropriée. Mais apparemment, cela fonctionne même avec seulement 200 prédicteurs trouvés et sélectionnés dans l'ensemble de la formation.
Jevois les choses de la manière suivante. Une série a des propriétés qui sont stables dans certains indices, mais ces indices et leur nombre sont différents dans différentes sections. MO trouve différents états d'une durée suffisante de stabilité de la série, qui peuvent être décrits par différents modèles et par les paramètres de modèle correspondants - les prédicteurs. Le nombre total de prédicteurs est le nombre total de paramètres pour les différents modèles et, par conséquent, en définissant un modèle, on peut rapidement trouver des paramètres précédemment trouvés pour celui-ci.
J'ai déjà publié un tableau dans ce fil de discussion, mais comme je ne l'ai pas sous la main, je vais clarifier mon idée avec des mots.
Je m'appuie sur la notion de corrélation prédicteur-enseignant. Le "lien" n'est PAS la corrélation ou l'"importance" des prédicteurs dans l'ajustement de presque n'importe quel modèle de ME. Cette dernière reflète la fréquence d'utilisation d'un prédicteur dans un algorithme, de sorte qu'une grande valeur d'"importance" peut être accordée aux anneaux de Saturne ou au marc de café. Il existe des logiciels qui permettent de calculer le "lien" entre le prédicteur et l'enseignant, par exemple, sur la base de la théorie de l'information.
Un mot donc sur le tableau que j'ai affiché ici.
Le tableau contient une estimation numérique du "lien" entre chaque prédicteur et l'enseignant. Plusieurs centaines de valeurs de "connectivité" ont été obtenues au fur et à mesure que la fenêtre se déplaçait. Ces valeurs varient pour un prédicteur particulier. J'ai calculé la moyenne et l'écart-type pour chaque "connexion", ce qui m'a permis d'isoler les prédicteurs qui ont un "lien" avec l'enseignant :
- d'isoler les prédicteurs qui ont une valeur de "couplage" trop faible - bruit ;
- d'isoler les variables prédicteurs dont la valeur de "couplage" est trop variable. Il a été possible de trouver des prédicteurs ayant une valeur de "couplage" suffisamment grande et un écart-type inférieur à 10 %.
Une fois de plus, le problème de la construction d'un CT basé sur la MO est de trouver des prédicteurs qui ont une grande valeur de "couplage" et une petite valeur de sd lorsque la fenêtre se déplace. À mon avis, de tels prédicteurs garantiront la stabilité de l'erreur de prédiction à l'avenir.
Ce n'est pas la première fois que je dis cela. Malheureusement, la discussion tourne constamment autour du bruit et du narcissisme.
En effet, j'ai demandé un script - oui, je cite " Pouvez-vous faire un script en R pour les calculs de mon échantillon - je l'exécuterai pour le bien de l'expérience. L'expérience devrait révéler la taille optimale de l'échantillon. "Mais il s'agit d'une réponse à quelque chose qui a déjà été fait.
Plus tôt, j'ai écrit "... Et comment proposez-vous d'observer la dynamique, comment la réaliser ? "Je posais ici la question de la mise en œuvre de l'estimation du prédicteur dans la dynamique, c'est-à-dire l'estimation régulière par une fenêtre quelconque, et il n'est pas clair s'il s'agit d'une fenêtre à chaque nouvel échantillon ou après chaque n échantillons. Si c'est ce que vous avez fait, je ne comprends pas.
Le code que vous avez posté est excellent, mais il m'est difficile de comprendre ce qu'il fait exactement ou ce qu'il prouve en substance, c'est pourquoi j'ai commencé à poser des questions supplémentaires. Que signifient les deux images avec les graphiques ?
Vous avez donc essentiellement la même approche que moi, c'est curieux ! Seulement, nous cherchons peut-être la "connexion" différemment. En tant que fenêtre, je prends 10 échantillons de parcelles et j'y cherche une "connexion", comment procédez-vous ?
Quel est votre algorithme pour trouver une connexion, pouvez-vous le décrire ?
Ce n'est pas la première fois que je dis cela. Malheureusement, la discussion dérive constamment vers le bruit et le narcissisme.
oui, la vraie discussion va à la présentation du dartagnan le plus dartagnan sur le fond (mot modéré) :-)
tout cela à cause de l'absence de résultats. On peut améliorer et changer la méthode, mais le résultat est comme un rocher 50/50.
J'utilise mon propre algorithme - il fonctionne beaucoup plus rapidement que de nombreuses bibliothèques R. Par exemple,
library("entropy")
Vous pouvez simplement utiliser des graphiques :
Tout a été posté sur ce fil de discussion. Tout est systématiquement décrit et décortiqué au niveau du code dans les articles de Vladimir Perervenko