L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 1203

 
Aleksey Vyazmikin:

Merci. Randomiser avec les mêmes valeurs que le prédicteur dans l'échantillon, non ?

En général, l'approche est claire, merci, je dois réfléchir à la manière de la mettre en œuvre et de l'essayer.

Hélas, je ne peux pas le maîtriser, alors je vais écouter un récit de vos lèvres à cette occasion.

Non, pour tout randomiser, c'est-à-dire nettoyer complètement les valeurs des prédicteurs et y introduire un bruit blanc.

puis remettez les valeurs d'origine quand vous allez vérifier la suivante.

En gros, on remplace chaque prédicteur par un bruit blanc, un par un. C'est probablement plus facile à comprendre.

Une condition importante : les perdants ne doivent pas être corrélés, sinon vous obtiendrez un charabia avec des erreurs... Pour cela, j'ai d'abord transformé par PCA, mais il est possible de faire une matrice de corrélation et d'enlever toutes les corrélations fortes. Il existe un autre mécanisme, mais il est compliqué
 
Maxim Dmitrievsky:

Non, il faut tout randomiser en fonction de la gaucherie, c'est-à-dire supprimer complètement les valeurs des prédicteurs et y insérer un bruit blanc.

puis remettez les valeurs d'origine en place lorsque vous vérifiez le prochain.

Si ce n'est que du bruit, alors nous casserons tout fractionnement, par exemple, il y a un fractionnement avec la règle "plus de 100", mais nous ajouterons des aléas de 0 à 99, alors le fractionnement ultérieur ne sera plus actif. Il est probablement important de voir comment le fractionnement ultérieur fonctionnera si l'une des règles de la liste disparaît...

 
Maxim Dmitrievsky:


Une condition importante : les prédicteurs ne doivent pas être corrélés, sinon vous obtiendrez un charabia d'erreurs... Pour cela, j'ai d'abord transformé par PCA, mais il est possible de faire une matrice de corrélation et d'enlever toutes les corrélations fortes. Il existe un autre mécanisme, mais il est compliqué

Quel type de corrélation est acceptable ? Après tout, les bons prédicteurs doivent être en corrélation avec la cible, ce qui signifie qu'ils seront en corrélation les uns avec les autres dans une certaine mesure...

 
Aleksey Vyazmikin:

Si c'est juste du bruit, alors nous briserons le fractionnement du tout, par exemple il y a un fractionnement avec la règle "plus de 100", et nous mettrons un aléatoire de 0 à 99, alors le fractionnement ultérieur ne sera plus actif, et il est probablement important de voir comment le fractionnement ultérieur fonctionnera quand une des règles de la feuille tombera....

donc l'erreur va baisser beaucoup et tout ira bien, l 'importance est faible. Ne vous lancez pas dans les modèles, comment savoir comment les arbres sont divisés, et chacun est différent avec un nombre différent de caractéristiques. Ils ressemblent toujours à la moyenne de l'hôpital.

 
Aleksey Vyazmikin:

Quel type de corrélation est acceptable ? Après tout, les bons prédicteurs doivent avoir une corrélation avec la cible, ce qui signifie qu'ils auront une corrélation entre eux dans une certaine mesure...

c'est une hérésie pour la régression linéaire avec un seul prédicteur, dans les modèles non linéaires rien ne doit être corrélé avec la cible, surtout s'il s'agit d'une classification

Je ne sais pas lequel des deux est acceptable, c'est difficile... ou expérimental. Il est plus facile d'utiliser l'ACP dans ce sens, bien sûr.
 
Maxim Dmitrievsky:

Donc l'erreur va chuter drastiquement et tout ira bien, les importations sont faibles. Ne vous lancez pas dans les modèles, comment savoir comment les arbres sont divisés, et chacun est différent avec un nombre différent de caractéristiques. On regarde toujours la moyenne de l'hôpital.

Ensuite, vous pouvez simplement annuler la valeur ou la remplacer par n'importe quelle autre valeur - le même hasard, mais cela ne me semble pas logique... Quoi qu'il en soit, si je peux le mettre en œuvre, je vais essayer deux variantes.

Maxim Dmitrievsky:

c'est une hérésie pour la régression linéaire, dans les modèles non linéaires rien ne doit être corrélé avec la cible

Quel est l'argument selon lequel s'il y a une corrélation avec la cible, alors le prédicteur est mauvais ?

 
Aleksey Vyazmikin:

Vous pourriez alors simplement annuler la valeur ou la remplacer par n'importe quelle autre valeur - le même hasard, mais cela ne me semble pas logique... Quoi qu'il en soit, si je peux le mettre en œuvre, je vais essayer deux options.

Quel argument peut-on avancer pour dire que s'il y a une corrélation avec la cible, alors le prédicteur est mauvais ?

Je me fiche de la façon dont vous le faites, l'essentiel est le principe de remaniement des fiches, il me semble que c'est plutôt une broutille.

Je ne parle pas d'un seul mais de plusieurs et les importations sont à peu près les mêmes parce que la corrélation entre elles est forte. Il s'avère que si l'on supprime une caractéristique forte lors du réarrangement, l'erreur de modélisation ne diminuera pas, car il y aura des caractéristiques similaires avec la même importance, et aucune des caractéristiques fortes ne sera reconnue. C'est pourquoi il faut soit randomiser toutes les caractéristiques corrélées en une seule fois (ce qui est plus difficile à mettre en œuvre), soit faire attention à ne pas corréler fortement les caractéristiques.

 
Maxim Dmitrievsky:

faites ce que vous voulez, l'essentiel est le principe de réarrangement de la puce, je pense que c'est plutôt une broutille

Je ne parle pas d'un seul, mais quand il y en a beaucoup et que l'importance est à peu près la même, car la corrélation est forte. Ainsi, la suppression d'une caractéristique forte dans le réarrangement ne fera pas diminuer l'erreur du modèle, car il y aura des caractéristiques similaires avec la même importance et aucune des caractéristiques fortes ne sera reconnue.

C'est ainsi que le modèle devrait construire des prédicteurs pour construire des arbres symétriques - sans ré-entraînement, c'est peu probable, comme il me semble, donc cela n'a pas de sens lors de la création du modèle.

Alors quelle corrélation est acceptable ?
 
Aleksey Vyazmikin:

C'est toujours au modèle de faire en sorte que les prédicteurs construisent des arbres symétriques - car sans réapprentissage, c'est peu probable, me semble-t-il, car cela n'a pas de sens lors de la création du modèle.

ça marche bien en cas de forêt, en cas de catbust il faut lire, je ne me souviens plus comment ça marche. Peut-être que les importations sont bonnes en elles-mêmes, en raison de la structure du modèle lui-même.

Je ne sais pas ce qui est acceptable, fixez un seuil et voyez. +- peu de choses changeront dans le modèle. Le boosting ne fonctionne pas de la même manière que la RF, peut-être y a-t-il une importance claire dès le début.

ou si vous êtes sûr que les caractéristiques sont hétérogènes et ne sont pas corrélées, oubliez cette étape.

Ce sont tous des éléments importants, surtout si vous avez beaucoup de caractéristiques et que vous devez éliminer le bruit du modèle, mais pas au point de devoir vous préoccuper de chaque % de corrélation, je pense. Une fourchette de -0,5 à 0,5 est probablement normale.

Je ferai moi-même une telle variante plus tard et je la vérifierai.

 
Maxim Dmitrievsky:

ça marche bien dans le cas de la forêt, dans le cas du catbust il faut lire, je ne me souviens plus comment ça marche. Peut-être qu'il a de bonnes importations par lui-même, à cause de la structure du modèle lui-même.

Je ne sais pas ce qui est acceptable, fixez un seuil et voyez. +- peu de choses changeront dans le modèle. D'autant plus que le boosting ne fonctionne pas comme RF, peut-être y a-t-il une importance claire dès le début.

ou si vous êtes sûr que les caractéristiques sont hétérogènes et ne sont pas corrélées, oubliez cette étape.

Ce sont tous des éléments importants, surtout si vous avez beaucoup de caractéristiques et que vous devez éliminer le bruit du modèle, mais pas au point de devoir vous préoccuper de chaque % de corrélation, je pense. Une fourchette de -0,5 à 0,5 est probablement normale.

Je ferai moi-même une telle variante plus tard et j'y jetterai un coup d'œil.

Je vois, je vais devoir l'essayer. Je sais que l'appariement des modèles est possible - une simple recherche l'a montré, mais je dois tout faire raisonnablement, et la corrélation détectée réduira le nombre d'itérations pour l'appariement des modèles.

Raison: