Retraining - page 4

 
Aliaksandr Hryshyn:
Qui utilise quelles techniques pour minimiser le recyclage du modèle/conseiller ?
Nous devons partir du fait que, dans ce cas, nous ne pouvons pas nous passer de l'analyse des données historiques, et le concept d'"adaptation à l'histoire" doit être complètement éliminé. Ce qui devrait être primordial, c'est l'idée même de l'AT, ce sur quoi elle se fonde. Chaque TS est basé sur les relevés d'un ou plusieurs indicateurs. Ces derniers ont un paramètre tel que le volume d'échantillonnage N, qui atteint son verdict après avoir analysé l'ensemble du volume d'échantillonnage. Il est naturel de supposer qu'aucun indicateur ne peut traiter toutes les données historiques de manière égale. Par conséquent, des paramètres tels que SL et TP viennent à la rescousse. Voici 3 paramètres de base qui doivent être optimisés. Il est nécessaire de trouver leurs valeurs pour que le TS puisse passer toute la gamme de données historiques sur le TF sélectionné. Après avoir obtenu le graphique de build-up pour toute la période, nous devons analyser et accepter le fait que, dans les pires sections, l'idée originale derrière le TS ne fonctionne pas, en raison des multiples visages du marché. Essayer de rechercher et de diviser l'ensemble de l'intrigue en "mauvais" et "bon", ainsi qu'en "formation" et "avancée" est une perte de temps. Le TS doit être évalué sur l'ensemble du matériel historique disponible.
 
Youri Tarshecki:

Alors dites-moi, comment décidez-vous si un attaquant est sur-entraîné ou sous-entraîné. Le surentraînement se dégrade-t-il d'une manière différente du sous-entraînement ?

La seule façon de déterminer la qualité des conditions d'entraînement est de voir la qualité correspondante du test hors échantillon. Et ce n'est qu'en comparant les résultats que vous pourrez dire si l'optimisation est sur- ou sous-optimisée. Mais je ne vois nulle part de sujet traitant de la sous-optimisation. Pour une raison quelconque, tout le monde voit la racine du problème dans la mythique sur-optimisation au lieu de la qualité du code.

La dégradation vers l'avant donne une estimation de la capacité de généralisation du système (c'est-à-dire la stabilité, l'adéquation aux données inconnues). Lorsqu'elle (l'aptitude) est faible, d'un point de vue pratique, peu importe que nous nous entraînions trop ou pas assez - dans tous les cas, nous serons rejetés. Mais si le conseiller expert est formé de manière classique - en utilisant l'ensemble des paramètres et le testeur MT - alors nous ne pouvons pas être sous-formés (d'un point de vue technique). Et si l'apprentissage se fait à l'aide d'un algorithme propre, nous pouvons utiliser des méthodes bien connues (par exemple, l'arrêt anticipé) pour trouver le point optimal où "l'erreur est minimale" (le meilleur résultat en OOS) : à ce point, la sous-optimisation est terminée, tandis que la sur-optimisation n'a pas encore eu lieu. Malheureusement, le testeur standard ne fournit pas une telle fonctionnalité automatique pour comparer les performances du système à la période d'optimisation et à l'arrêt. L'OOS en MT est le test de l'avant. Donc, ce qui est souligné en gras est en fait la même chose que ce que je dis. La personne qui a lancé le sujet a posé une question sur la reconversion, et les réponses qui suivent portent donc sur ce sujet. Quant au sous-apprentissage, si l'on entend par là non pas le degré d'optimisation mais plutôt la "qualité du code" abstraite qui semble inclure le choix des prédicteurs, les méthodes de préparation des données d'entrée, la profondeur de l'échantillon d'apprentissage et d'autres méta-connaissances, alors le sous-apprentissage est défini très simplement - par l'absence de résultats d'optimisation positifs.

 

Je ne suis pas d'accord avec le sous-entraînement - techniquement, ce n'est pas difficile à faire. C'est-à-dire que le fait de la dégradation elle-même ne dit pas si elle est surentraînée ou sous-entraînée.

Si l'auteur se détache de ce terme et comprend que l'optimum est quelque chose en Gauss, il formulera alors la question d'une manière légèrement différente - comment déterminer la quantité et la densité optimales d'entraînement.

Nous pourrons alors être plus précis.

Personnellement, je la définis en fonction des résultats du test.

 

Stanislav Korotky:
Термин этот не дурацкий, а давно устоявшийся и "одобренный лучшими собаководами"

En fait, le sur-apprentissage n'est pas vraiment un sur-entraînement, c'est un sur-apprentissage.

 

Essayons d'aborder la question sous un angle légèrement différent.

Le modèle/TS, lorsqu'il est entraîné (s'il en a la possibilité), est capable de se souvenir de certaines régularités à partir de données historiques, mais aussi, en raison de son imperfection, il se souvient du "bruit". Nous considérerons le bruit comme le fait que le TS peut "apprendre" et ne pas donner de bons résultats sur de nouvelles données, le bruit peut être différent pour d'autres stratégies.

La question intéressante est de savoir comment nous pouvons, au moins partiellement, limiter le TS/modèle afin qu'il ne puisse pas "se souvenir" du bruit. Ou comment "nettoyer" les données historiques du bruit, encore une fois, du bruit par rapport au TS.

Voici un exemple simple dans l'image, supposons que les lignes 1 et 2 sont du même modèle.

Voici un autre exemple, dans la zone entre les deux lignes verticales, le modèle (lignes rouges) est très faux.

 
De quoi parlent ces photos, d'ailleurs ? Et les axes ? Le nombre d'optimisations ?
 
Комбинатор:

En fait, le sur-apprentissage n'est pas vraiment un sur-entraînement, c'est un sur-apprentissage.

Exactement. L'ajustement ou l'excès d'ajustement est la même chose que l'excès d'ajustement.
 
Youri Tarshecki:
Exactement. Le montage ou le remontage est le même que celui de la bite.
Si l'ajustement ou le réajustement est effectué sur la totalité des données historiques, il ne fait qu'améliorer la qualité de la TS.
 
Youri Tarshecki:
De quoi parlent ces photos ? Qu'y a-t-il sur les axes ? Le nombre d'optimisations ?
Ils ne sont pas spécifiques au commerce. Ils montrent des exemples simples de la façon dont un modèle (les lignes 1 et 2 dans la première image, et la ligne rouge dans la seconde) peut être "faux" sur les données (petits carrés et, en dessous, points).

Supposons que sur l'axe horizontal sera la valeur de l'indicateur, et sur l'axe vertical, pour les points - comment TS devrait prédire une certaine propriété du prix, en utilisant cette valeur de l'indicateur, afin d'être dans le plus. Pour les lignes - comment le TS prédit. Sur la base de cette prédiction, TS peut faire du commerce. C'est un exemple très conditionnel. La propriété prédite peut être la présence d'une tendance ou d'un plat, la volatilité, etc.
 
Aliaksandr Hryshyn:
Ils ne sont pas spécifiques au commerce. Elles montrent les exemples les plus simples de la façon dont un modèle (lignes 1 et 2 dans la première figure, et la ligne rouge dans la seconde) peut "se tromper" sur les données (petits carrés et, en dessous, points).

Que l'axe horizontal soit la valeur de l'indicateur, et l'axe vertical, pour les points - comment TS devrait prédire une certaine propriété de prix en utilisant cette valeur d'indicateur afin d'être rentable. Pour les lignes - comment le TS prédit. Sur la base de cette prédiction, TS peut faire du commerce. C'est un exemple très conditionnel. La propriété prédite peut être la présence d'une tendance ou d'un plat, la volatilité, etc.

Horizontalement, il devrait y avoir le nombre d'opérations d'optimisation des valeurs de l'indicateur ou du groupe d'indicateurs, survenant au même moment de l'histoire. Et sur la ligne verticale, le résultat de la vérification de l'ensemble du système. Ensuite, nous pourrons parler du surentraînement et du sous-entraînement et de ce qu'ils sont. Et alors la courbe sera très différente. Il s'agira presque d'une distribution normale, à la seule différence qu'à un moment donné, ajouter le nombre de passages (ou diminuer le pas pour le paramètre indicateur) ne donnera rien de nouveau.

Comment ajuster le nombre de passages ?

1. En modifiant simplement le nombre de sessions de formation, ou en modifiant la distance (pas) des paramètres de l'indicateur.

2. En modifiant la profondeur de l'historique de la formation par rapport à l'"étape" de la vérification de l'OOS. Ensuite, la même partie de l'histoire sera optimisée un nombre différent de fois, mais avec un nombre différent de "voisins".

3. En modifiant un algorithme d'optimisation génétique, si nous l'utilisons. Par exemple, en modifiant le nombre de générations, le caractère aléatoire, etc.

Voici, peut-être, tous les outils disponibles pour combattre PERE et NEDO.

Je noterai également que si nous nous concentrons exactement sur le contrôle et non sur le résultat lors de l'optimisation (fitting), alors la nature de la courbe ne dépendra pas du fait que le système lui-même soit non rentable ou non. C'est-à-dire que si le système est perdant, il perdra encore plus s'il est surentraîné, c'est tout. La tâche de la formation est de trouver l'optimum des paramètres. Et la tâche du codage consiste à trouver des variantes exploitables, l'optimum de formation ne crée rien de nouveau par lui-même.

Raison: