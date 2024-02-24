L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 556
Sur-ajustement - Se produit en présence de poids importants (~10^18), une conséquence de la multicollinéarité, qui conduit à un modèle instable A(x, w).
Le surentraînement est traité par : l'arrêt précoce de l'apprentissage du modèle, la limitation de la croissance des poids (régularisation L1(Lasso) et L2), la limitation des liens dans le réseau (Dropout), également l'application possible de fonctions de pénalité (ElacticNet, Lasso).
Et la régularisation L1 conduit à la sélection des caractéristiques, car elle se concentre sur leurs coefficients de poids.
L'élimination des caractéristiques "bruyantes" correspond à la sélection des caractéristiques. Il existe des méthodes pour cela. Cela ne profite pas toujours au modèle, c'est pourquoi on utilise parfois la régularisation L2 (qui aide à résoudre le problème de la multicollinéarité).
SanSanych Fomenko, votre déclaration sur la relation entre les caractéristiques et les cibles est un peu présomptueuse. Car comment affirmer quelque chose qui n'a pas encore été prouvé ; c'est pour cela que le modèle MO est construit. Un modèle qui est construit et qui fonctionne donne une certaine estimation de la relation avec une précision de "untel".
Et l'exemple des pantalons et des jupes montre le manque de connaissances du chercheur sur la zone d'étude, car dans un tel modèle, vous éliminez des attributs précieux sur le lieu de résidence, la période de l'année, la latitude et la longitude de la région de résidence, etc.
Mon exemple est un cas dégénéré, une pensée pure, une classification sans erreur. Il n'existe pas de telles caractéristiques en économie, mais en génétique, si ce n'est pas 100%, un peu moins est possible.
Maintenant, parlons de la régularisation.
Sans aucun doute.
Mais la cohérence est importante.
D'abord, toujours, la sélection des traits en fonction de la "relation" avec la cible. S'il s'agit de marchés boursiers, basés sur des relations économiques.
C'est toujours la première chose à faire et ensuite tout le reste.
J'ai un TS qui fonctionne avec la rf. Je sélectionne 27 prédicteurs parmi plusieurs centaines de signes en utilisant la "relation". Ensuite, je sélectionne parmi 27 avec l'algorithme standard sur chaque barre (H1), 5 à 15 restent, ils sont toujours différents. Je limite le nombre d'arbres, 100 c'est beaucoup, 50 ce n'est pas suffisant, l'erreur à 50 ne se stabilise pas.
C'est une expérience concrète. L'erreur de classification ZZ est légèrement inférieure à 30%. Pas de moyen de réduire - besoin d'autres prédicteurs, et pas d'idées dans les prédicteurs.
Puisque vous avez tant de paramètres à saisir en même temps, ce que vous voulez dire est clair.
Dans ce cas, la reconversion est quelque peu secondaire ici, et c'est probablement ce qui a attiré mon attention. C'est plus proche de "l'assouplissement" des calculs.
Pourquoi secondaire ?
Qu'est-ce que le primaire ?
Qu'est-ce qui pourrait être plus effrayant que l'overfitting ?
C'est pourquoi je dis que dans la question posée, le surentraînement est secondaire.
Bien que vous l'ayez noté à juste titre, j'aurais dû dire ceci : "La sélection des paramètres est secondaire par rapport au recyclage, et il vaut la peine d'examiner la question de plus près à partir de là.
https://habrahabr.ru/post/345950/
il s'avère que la simple NS au-delà des limites de l'échantillon d'entraînement fonctionne plutôt mal (va vers une constante tangente hyperb.)... dans le cas de la régression, c'est-à-dire pas beaucoup mieux que la RF
article très illustratif
https://habrahabr.ru/post/322438/
Lisez à votre guise.
https://habrahabr.ru/post/345950/
Il s'agit d'un article inutile, d'une mauvaise traduction ou d'un mauvais lecteur, mais pour moi, il s'agit d'un empilement trivial d'idées dépassées et, malheureusement, d'une nouvelle confirmation de la crise de l'apprentissage profond en tant que technologie de pointe, même le véritable père de cette tendance, Jeffrey Hinton, dans ses articles sur les réseaux neuronaux en capsule, en a parlé dernièrement.
Respect à Uber Taxi, cependant...))
Article utile et informatif à mon avis, sans prétention à la nouveauté, mais avec un bon sens pratique.
C'est pourquoi il est facile de s'embrouiller, disons que nous utilisions la régression linéaire ou la régression et que tout allait bien, puis nous avons décidé de passer à MLP pour les mêmes tâches... et pas question :)
C'est pourquoi tout le monde préfère utiliser la classification, bien que la régression soit bonne pour les pronostics :)
Je dirais même que pour les tendances, la méthode linéaire ou de régression est plus appropriée, et pour les aplatissements, la méthode MLP.
L'exercice avec le garch a produit un modèle étonnant.
Voici le quotient EURCAD
Et voici l'autocorrélation des incréments absolus
Une régularité étonnante !
1. Qu'est-ce que cela signifie ?
2. Comment utiliser cette régularité ?
PS.
Toutes les paires de devises n'ont pas ce point de vue.
Voici l'USDJPY