L'étiquette du marché ou les bonnes manières dans un champ de mines - page 82

 
Neutron >> :

C'est là que je n'ai pas une compréhension complète moi-même.

Selon la déclaration(Alexander Ezhov, Sergey Shumsky"Neurocomputing"), il existe une longueur optimale, à laquelle l'erreur de généralisation Popt=w^2/d est minimisée, où d est la dimension de l'entrée du NS, w est le nombre de tous les paramètres réglables du NS. Ainsi, de ce point de vue, le SN est surentraîné si P<Popt le SN "se souvient" de l'échantillon d'entraînement. La variante P>Popt n'est pas bonne non plus, car à plus longue échéance, il y a plus de probabilité de renversement de tendance du marché, ce qui équivaut à une diminution des corrélations entre les échantillons.

D'autre part, NS peut être "traîné" à un nombre excessif d'époques d'entraînement et, par conséquent, l'erreur de généralisation recommencera à croître ou ne croîtra pas... En général, il est nécessaire d'effectuer des expériences numériques avec un ensemble de statistiques, ce qui est en soi très rébarbatif ! Mais, il faut le faire. Il sera beaucoup plus facile de prouver l'équation ci-dessus pour la longueur optimale du vecteur d'apprentissage. gpwr, tu veux bricoler ?

Si vous regardez vos graphiques


alors plusieurs questions se posent. Si je comprends bien, la ligne rouge dans les cercles est l'erreur d'apprentissage moyenne de plusieurs expériences statistiques avec différents poids initiaux aléatoires. La ligne bleue dans les cercles est l'erreur de prédiction moyenne sur les données non entraînées. N'est-ce pas ? Les lignes fines montrent l'étendue de la dispersion. Maintenant, les questions

1. La ligne bleue fine du bas correspond-elle à la ligne rouge fine du bas ? En d'autres termes, la précision des prédictions hors échantillon s'améliore-t-elle pour les expériences statistiques présentant la plus petite erreur d'apprentissage ?

2) Comme l'écart de l'erreur d'apprentissage ne se réduit pas à zéro, l'apprentissage n'atteint pas un minimum global.

Je suis maintenant très préoccupé par cette question : dois-je chercher un algorithme d'apprentissage qui atteint le minimum global dans l'espoir que les prédictions sur les échantillons non entraînés seront plus précises ? Je fais tourner ma grille et je vois à quel point ses prédictions sont incohérentes selon l'endroit où j'arrête de l'entraîner. Même si je fixe le même nombre d'époques à 1000, les prédictions sont différentes sur les différentes exécutions sur les mêmes échantillons d'entraînement. La moitié des prédictions sont que le prix va augmenter, l'autre moitié va baisser. Je ne suis pas content de ça. Si vous vous entraînez très longtemps, le réseau se rapproche d'un minimum global et ses prédictions sont les mêmes sur différents parcours.

Concernant le nombre optimal d'échantillons, je vais y réfléchir. Ce n'est pas facile. Vous devez connaître les statistiques du marché et la rapidité avec laquelle sa distribution évolue. L'augmentation du nombre d'échantillons conduira à une situation où le filet détectait provisoirement une vache et où, au cours du processus, la vache a été remplacée par une tortue. Le filet finira par conclure qu'il s'agit d'une tortue à cornes avec des sabots. Si vous réduisez le nombre d'échantillons, disons que le filet n'a été donné que pour sentir les cornes d'une vache, alors il y aura de nombreuses variantes : vache, élan, chèvre, cerf, etc.

 
gpwr писал(а) >>

En augmentant le nombre d'échantillons, le filet utilisera ses tentacules pour identifier une vache et, ce faisant, transformera la vache en tortue. En conséquence, le filet conclut qu'il s'agit d'une tortue à cornes avec des sabots. Si, pour réduire le nombre d'échantillons, on ne donnait au filet qu'à sentir les cornes d'une vache, il y aurait alors de nombreuses variantes : vache, élan, chèvre, cerf, etc.

+5 Je suis tout à fait d'accord.

Mais vous, vous feuilletez Jejov et Shumsky. Vous aurez peut-être des idées concernant les preuves.

La ligne bleue dans les cercles est l'erreur de prédiction moyenne sur les données brutes. Correct ?

Correct.

1. La ligne bleue fine du bas correspond-elle à la ligne rouge fine du bas ? En d'autres termes, la précision des prédictions hors échantillon s'améliore-t-elle pour les expériences statistiques présentant la plus petite erreur d'apprentissage ?

En raison de l'intensité des ressources, je n'ai pas fait d'expérience complète. Mais je suis d'accord pour dire que c'est nécessaire et je vais me forcer à le faire.

P.S. gpwr, j'ai rencontré un lien sur le net vers le travail de deux Américains qui, il y a 5 ans, ont pu prouver l'existence et mettre en œuvre un algorithme ORO modifié pour la NS non linéaire bicouche avec UN neurone de sortie. Ainsi, avec un type spécial de fonction d'activation (et son type spécifique n'affecte pas la puissance de calcul du réseau), la vitesse d'apprentissage par le nouvel algorithme dépasse l'ORO classique de plus de deux ordres de grandeur ! Avez-vous déjà vu quelque chose comme ça ?

 
Neutron >> :

+5 Je suis tout à fait d'accord.

Tu devrais quand même feuilleter Jejov et Shumsky. Peut-être que vous aurez des idées sur les preuves.

Bien.

En raison de l'intensité des ressources, je n'ai pas fait d'expérience complète. Mais je suis d'accord, c'est nécessaire et je vais me forcer à le faire.

P.S. gpwr, j'ai rencontré sur le net une référence au travail de deux américains qui, il y a 5 ans, ont pu prouver l'existence et réaliser l'algorithme ORO modifié pour une NS non linéaire bicouche avec UN neurone de sortie. Ainsi, avec un type spécial de fonction d'activation (et son type spécifique n'affecte pas la puissance de calcul du réseau), la vitesse d'apprentissage par le nouvel algorithme dépasse l'ORO classique de plus de deux ordres de grandeur ! Vous n'avez jamais rencontré quelque chose comme ça ?

J'ai vu plusieurs variantes de RFO :

QuickProp - 1988, dérivée de second ordre ajoutée pour accélérer la convergence

RProp - Resilient back-Propagation - 1993, Riedmiller, Allemagne, le but de l'algorithme est de remplacer le gradient par son signe.

iRProp - Improved RProp - 2000, Igel, allemand, même RProp mais le réseau fait un pas en arrière si l'erreur d'apprentissage de l'époque précédente est augmentée.

SARProp - Simulated Annealing back-Propagation - 1998, Treadgold, Australian, pour une convergence globale, ajout d'une taille de pas aléatoire dans certaines conditions lorsque l'erreur de l'époque précédente augmente.

JRProp - Jacobi RProp, 2005, Anastasiadis, Grec d'Angleterre, même iRProp, mais méthode légèrement différente de retour lorsque l'erreur est augmentée

GRProp, GJRProp - Global RProp/JRProp - 2005, Anastasiadis, à chaque époque le plus petit pas de poids est choisi et remplacé par une formule étrange

Je les ai tous essayés. RProp, iRProp, JRProp fonctionnent de manière presque identique. Les méthodes Global SARProp et GRProp ne fonctionnent pas. Vous pouvez facilement trouver des articles sur ces algorithmes.

Jetez un coup d'œil ici en russe

http://masters.donntu.edu.ua/2005/kita/tkachenko/library/article01/index.htm

www.iis.nsk.su/preprints/pdf/063.pdf

 

Merci. Je vais regarder.

Ces deux Américains ont mis au point leur algorithme rapide uniquement pour les NS à sortie unique, c'est-à-dire qu'il s'agit de quelque chose de très spécialisé.

 

Je me suis acheté un 2001i Pro.

Pouvez-vous commenter brièvement les graphiques de répartition que j'ai publiés hier ?

 

Bien sûr.

Ils ont raison. Les première et troisième figures ne présentent aucun intérêt en raison des petites statistiques sur la dernière et du petit H sur la première. Cependant, le deuxième chiffre est représentatif :

Pour la distribution de Kagi (fig. de gauche), on peut noter l'absence de longueurs d'épaule inférieures au pas de division H(paralocus, tu es bien sûr un grand original en matière de représentations inhabituelles des dnans, par exemple mesurer le pas de division en écarts au lieu de points...) et la diminution exponentielle de la fréquence d'apparition des longueurs d'épaule avec l'augmentation de leur longueur. Pour un certain nombre de transactions, nous pouvons noter une distribution presque en forme de bande de la fréquence d'occurrence des longueurs dans les prépositions +/-H et la même décroissance exponentielle lors de la transition vers des longueurs supérieures à H. Ceci est visible dans la Fig. de droite. Je pense qu'une telle représentation des données d'entrée pour NS (normalisées toujours sur Н), est presque idéale, car elle ne nécessite pas de procédures "astucieuses" de normalisation et de centrage (MO est identiquement égal à zéro). Cependant, la question de l'optimalité de la représentation de Cagi reste ouverte. Ici, le problème doit être résolu de manière globale, et le deuxième bloc important du lien est MM. Pour les CT sans réinvestissement, le partitionnement de Kagi- est en effet optimal.

 
Merci. MM est toujours terra incognita pour moi. Plusieurs fois, j'ai essayé de réinvestir l'argent accumulé avec un seul lot et j'ai subi une perte importante. Au début de ce fil de discussion, vous avez parlé du MM par rapport à l'effet de levier. Mais l'effet de levier est-il réglable par le trader ? À mon avis, l'effet de levier = 100 et c'est tout. Vous ne pouvez choisir que des paires pour réduire le risque. Je préfère l'AUDUSD - je l'ai trouvé dans votre post aussi. Eh bien, le moment n'est pas encore venu (pour moi). Je vais maintenant travailler sur la double couche. Je vais coder aujourd'hui et je vous montrerai ce que j'ai obtenu demain.
 
L'effet de levier est proportionnel à la valeur du lot par rapport au montant du capital. Par conséquent, en augmentant ou en diminuant la taille du lot négocié, vous modifiez essentiellement la taille de l'effet de levier. Pour l'analyse, il est plus facile d'utiliser l'effet de levier que la taille du lot, car il est sans dimension. C'est pourquoi je l'ai utilisé dans mes formules.
 

En substance, un testeur MT est une boîte noire avec plusieurs entrées (MAs, stochastiques et autres indicateurs TA), avec un nombre incalculable de paramètres ajustables (périodes des MAs, amplitudes optimales, etc.) et un algorithme "rusé" pour tout mélanger à l'intérieur. Dans le résultat, nous avons un ordre de vente/achat ou d'arrêt. Il existe une procédure d'optimisation qui permet de choisir les meilleurs paramètres en fonction du bénéfice maximal du TS sur les données historiques. Cela vous rappelle-t-il quelque chose ? Exactement, si nous considérons que les indicateurs TA ainsi que l'algorithme astucieux (non linéaire) de leur traitement, l'essence est une fonction non linéaire d'activation de pseptron multicouche, alors nous tous ici faisons la même chose depuis de nombreuses années - construire et éduquer notre NS ! Seulement, ce fait n'est pas évident, ce qui cause tant de problèmes dans le travail avec le testeur de stratégie (ajustement, instabilité de l'optimum trouvé, etc.). De nombreuses personnes respectables sur le forum sont souvent sceptiques à propos du NS, alors qu'elles font la même chose tout leur temps libre et qu'il semble n'y avoir rien d'autre ! Pensez-y.

Si c'est effectivement le cas, nous devons évidemment passer au langage des termes de l'IA. Beaucoup de choses deviendront évidentes à partir de ce qui nous a tourmenté pendant tant d'années. Par exemple, l'ajustement d'un testeur sur l'historique, n'est tout simplement pas assez long (mesuré en événements TC, c'est-à-dire en transactions, et non en nombre de barres) ou, de même, un nombre excessif de paramètres réglables. Rentabilité insuffisante - des indicateurs avec une transformation linéaire du prix sont utilisés (les corrélations non linéaires entre les événements du marché ne sont pas exploitées), etc. Autre point important - il est prouvé dans la théorie des NS que la puissance de calcul du réseau ne dépend pas d'un type spécifique de non-linéarité. Il s'ensuit que cela n'a pas beaucoup de sens de bourrer des indicateurs et des algorithmes intelligents et non triviaux de traitement des séries de prix dans les TS, cela ne peut pas affecter de manière significative les propriétés prédictives des TS. Mais il est très important de minimiser l'erreur de généralisation (en termes de CT), et pour cela il suffit de choisir la longueur optimale des données historiques et le nombre d'indicateurs !

En bref, nous ferons tous la même chose, et peu importe que nous peaufinions notre testeur de stratégie ou que nous écrivions notre propre réseau. L'important est que nous comprenions exactement ce que nous faisons et pourquoi.

P.S. J'ai fait un petit perseptron solitaire sur les synthétiques.

On voit bien que dans le processus d'apprentissage le neurone descend avec confiance vers le minimum global (fig. de gauche en rouge), ceci est indiqué par une dispersion diminuant jusqu'à zéro (lignes fines), caractérisant le processus d'apprentissage pour les expériences avec différentes valeurs des poids d'initialisation. En revanche, l'erreur de généralisation (l'inverse de la capacité de prédiction) recommence à croître à un moment donné du processus d'apprentissage, ce qui indique que le neurone perd sa capacité à généraliser les connaissances. La figure de droite montre les mêmes données mais sur l'axe des bosses. L'optimum d'apprentissage est bien indiqué.

 

Lorsque je "polissais le testeur", j'ai eu un sentiment similaire, mais il ne s'est pas concrétisé... - :)

Mais aujourd'hui, des idées apparemment simples, mais plus efficaces, ont vu le jour. Quelque chose que j'ai formulé hier :

Оптимальным каги-разбиением тикового ВР с порогом Н, следует считать такое разбиение, при котором имеется минимальное количество следующих друг за другом одноцветных плеч ряда транзакций. При этом средняя длина плеча равна величине средней взятки.


C'est-à-dire qu'il s'avère en fait ce que vous avez écrit - prendre est égal à arrêter ! Il y a un point subtil ici :

Si la distribution des séries de transactions reçues est telle que plus de 50% des épaules successives ont une couleur différente, alors pourquoi la NGS ? (ne me donnez pas de coup de pied, je viens de demander... - :))


P.S. Correction de la faute de frappe

Raison: