L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 556

 
Aleksey Terentev:
Sur-ajustement - Se produit en présence de poids importants (~10^18), une conséquence de la multicollinéarité, qui conduit à un modèle instable A(x, w).


Le surentraînement est traité par : l'arrêt précoce de l'apprentissage du modèle, la limitation de la croissance des poids (régularisation L1(Lasso) et L2), la limitation des liens dans le réseau (Dropout), également l'application possible de fonctions de pénalité (ElacticNet, Lasso).

Et la régularisation L1 conduit à la sélection des caractéristiques, car elle se concentre sur leurs coefficients de poids.

L'élimination des caractéristiques "bruyantes" correspond à la sélection des caractéristiques. Il existe des méthodes pour cela. Cela ne profite pas toujours au modèle, c'est pourquoi on utilise parfois la régularisation L2 (qui aide à résoudre le problème de la multicollinéarité).


SanSanych Fomenko, votre déclaration sur la relation entre les caractéristiques et les cibles est un peu présomptueuse. Car comment affirmer quelque chose qui n'a pas encore été prouvé ; c'est pour cela que le modèle MO est construit. Un modèle qui est construit et qui fonctionne donne une certaine estimation de la relation avec une précision de "untel".

Et l'exemple des pantalons et des jupes montre le manque de connaissances du chercheur sur la zone d'étude, car dans un tel modèle, vous éliminez des attributs précieux sur le lieu de résidence, la période de l'année, la latitude et la longitude de la région de résidence, etc.


Mon exemple est un cas dégénéré, une pensée pure, une classification sans erreur. Il n'existe pas de telles caractéristiques en économie, mais en génétique, si ce n'est pas 100%, un peu moins est possible.

Maintenant, parlons de la régularisation.

Sans aucun doute.

Mais la cohérence est importante.

D'abord, toujours, la sélection des traits en fonction de la "relation" avec la cible. S'il s'agit de marchés boursiers, basés sur des relations économiques.

C'est toujours la première chose à faire et ensuite tout le reste.


J'ai un TS qui fonctionne avec la rf. Je sélectionne 27 prédicteurs parmi plusieurs centaines de signes en utilisant la "relation". Ensuite, je sélectionne parmi 27 avec l'algorithme standard sur chaque barre (H1), 5 à 15 restent, ils sont toujours différents. Je limite le nombre d'arbres, 100 c'est beaucoup, 50 ce n'est pas suffisant, l'erreur à 50 ne se stabilise pas.

C'est une expérience concrète. L'erreur de classification ZZ est légèrement inférieure à 30%. Pas de moyen de réduire - besoin d'autres prédicteurs, et pas d'idées dans les prédicteurs.

 
SanSanych Fomenko:

Puisque vous avez tant de paramètres à saisir en même temps, ce que vous voulez dire est clair.

Dans ce cas, la reconversion est quelque peu secondaire ici, et c'est probablement ce qui a attiré mon attention. C'est plus proche de "l'assouplissement" des calculs.

 
Aleksey Terentev:

Puisque vous avez tant de paramètres à saisir en même temps, ce que vous voulez dire est clair.

Dans ce cas, l'overfitting est quelque peu secondaire ici, et c'est probablement ce qui a attiré mon attention. Il s'agit plutôt d'un "assouplissement" des calculs.


Pourquoi secondaire ?

Qu'est-ce que le primaire ?

Qu'est-ce qui pourrait être plus effrayant que l'overfitting ?

 
SanSanych Fomenko:

Pourquoi secondaire ?

Qu'est-ce que le primaire ?

Qu'est-ce qui pourrait être plus effrayant que le sur-entraînement (over-fitting) ?

Dans la question posée sur les paramètres d'échantillonnage pour la classification avec certaines corrélations entre les données cibles, vous avez mentionné l'overfitting. J'ai essayé de vous corriger et de généraliser cette question à la tâche de sélection des caractéristiques. En même temps, j'ai donné des considérations sur le surentraînement, où la question de la sélection se pose en conséquence.
C'est pourquoi je dis que dans la question posée, le surentraînement est secondaire.
Bien que vous l'ayez noté à juste titre, j'aurais dû dire ceci : "La sélection des paramètres est secondaire par rapport au recyclage, et il vaut la peine d'examiner la question de plus près à partir de là.
 
Ajout d'un indicateur de signal, si cela vous intéresse. https://www.mql5.com/ru/blogs/post/712023
 
Lisez à votre guise.
https://habrahabr.ru/post/345950/
Добро пожаловать в эру глубокой нейроэволюции
Добро пожаловать в эру глубокой нейроэволюции
  • habrahabr.ru
От имени команды Uber AI Labs, которая также включает Joel Lehman, Jay Chen, Edoardo Conti, Vashisht Madhavan, Felipe Petroski Such и Xingwen Zhang. В области обучения глубоких нейронных сетей (DNN) с большим количеством слоев и миллионами соединений, для тренировки, как правило, применяется стохастический градиентный спуск (SGD). Многие...
 

il s'avère que la simple NS au-delà des limites de l'échantillon d'entraînement fonctionne plutôt mal (va vers une constante tangente hyperb.)... dans le cas de la régression, c'est-à-dire pas beaucoup mieux que la RF

article très illustratif

https://habrahabr.ru/post/322438/


Нейронные сети в картинках: от одного нейрона до глубоких архитектур
Нейронные сети в картинках: от одного нейрона до глубоких архитектур
  • 2022.02.17
  • habrahabr.ru
Многие материалы по нейронным сетям сразу начинаются с демонстрации довольно сложных архитектур. При этом самые базовые вещи, касающиеся функций активаций, инициализации весов, выбора количества слоёв в сети и т.д. если и рассматриваются, то вскользь. Получается начинающему практику нейронных сетей приходится брать типовые конфигурации и...
 
Maxim Dmitrievsky:

il s'avère que la simple NS au-delà des limites de l'échantillon d'entraînement fonctionne plutôt mal (va vers une constante tangente hyperb.)... dans le cas de la régression, c'est-à-dire pas beaucoup mieux que la RF

article très illustratif

https://habrahabr.ru/post/322438/


Il s'agit d'un article utile et stimulant, qui ne prétend pas à la nouveauté mais à un bon sens pratique.


Aleksey Terentev:
Lisez à votre guise.
https://habrahabr.ru/post/345950/

Il s'agit d'un article inutile, d'une mauvaise traduction ou d'un mauvais lecteur, mais pour moi, il s'agit d'un empilement trivial d'idées dépassées et, malheureusement, d'une nouvelle confirmation de la crise de l'apprentissage profond en tant que technologie de pointe, même le véritable père de cette tendance, Jeffrey Hinton, dans ses articles sur les réseaux neuronaux en capsule, en a parlé dernièrement.

Respect à Uber Taxi, cependant...))

 
Ivan Negreshniy:
Article utile et informatif à mon avis, sans prétention à la nouveauté, mais avec un bon sens pratique.

C'est pourquoi il est facile de s'embrouiller, disons que nous utilisions la régression linéaire ou la régression et que tout allait bien, puis nous avons décidé de passer à MLP pour les mêmes tâches... et pas question :)

C'est pourquoi tout le monde préfère utiliser la classification, bien que la régression soit bonne pour les pronostics :)

Je dirais même que pour les tendances, la méthode linéaire ou de régression est plus appropriée, et pour les aplatissements, la méthode MLP.

 

L'exercice avec le garch a produit un modèle étonnant.

Voici le quotient EURCAD


Et voici l'autocorrélation des incréments absolus


Une régularité étonnante !

1. Qu'est-ce que cela signifie ?

2. Comment utiliser cette régularité ?


PS.

Toutes les paires de devises n'ont pas ce point de vue.

Voici l'USDJPY