L'étiquette du marché ou les bonnes manières dans un champ de mines - page 81

 
En effectuant cet arrondi, n'oubliez pas de diviser par 2 le nombre de valeurs égales à zéro dans la distribution.
 
Oui, je l'ai (+/-0).
 
Neutron >> :

Le fait est que je ne tape pas les statistiques pour le même échantillon d'entraînement, mais que je change un échantillon à la fois sur chaque cycle. Par conséquent, les résultats de la formation ne coïncident pas entre eux. Je ne me souviens pas pourquoi j'ai fait ça, mais ça ne change rien à l'essentiel. Apparemment, je voulais montrer les processus quasi-stationnaires du marché et refléter leur influence sur la vitesse d'apprentissage.

Voici à quoi ressemblent les résultats obtenus en faisant la moyenne de 10 expériences sur le même échantillon d'entraînement (fig. gauche) :

Vous pouvez voir qu'il n'y a pas de variation statistique pour les poids à initialisation nulle.

La figure de droite est basée sur une architecture de réseau avec 12 entrées, 5 neurones dans la couche cachée et 1 neurone dans la sortie et avec un échantillon d'entraînement de 120 échantillons, c'est-à-dire qu'il s'agit d'une copie de votre cas. Les statistiques ont été recueillies à partir de 50 expériences numériques indépendantes. De plus, tout fonctionne correctement.

Non, j'ai utilisé la première différence de prix d'ouverture comme entrée (je pensais que c'était clair d'après le contexte). Il est clair que la moyenne est de zéro. Prédire l'amplitude et le signe de la prochaine différence.

Quant au théorème, il m'a plu. Mais, elle concerne nos réseaux comme un cas particulier !

Vous avez prouvé le cas dégénéré pour une longueur d'échantillon d'entraînement tendant vers l'infini. Vraiment, dans ce cas pour le vecteur de données d'entrée représentant SV avec zéro MO nous obtenons des poids nuls - la meilleure prévision pour demain pour SV intégré est la valeur actuelle d'aujourd'hui ! Mais, dès que nous prenons un échantillon d'apprentissage de longueur finie, les poids formés tendront vers l'équilibre, minimisant le carré de l'erreur. Pour prouver cette affirmation, prenons le cas de SLAE (the same NS). Dans ce cas, les poids sont définis de manière unique, l'erreur d'apprentissage sur l'échantillon d'apprentissage est identiquement égale à zéro (le nombre d'inconnues est égal au nombre d'équations) et les poids (coefficients aux inconnues) ne sont évidemment pas égaux à zéro.

Je suis d'accord avec votre commentaire sur mon théorème. En effet, la réduction du nombre d'ensembles dans l'ensemble d'apprentissage fera dévier les poids de zéro. Mais je pense que le théorème est applicable aux réseaux, car pour calculer la corrélation, je n'ai pas besoin d'utiliser un nombre infini d'ensembles d'apprentissage. La moyenne statistique R(m)=E{x[i]x[i+m]} est calculée comme la somme(x[i]x[i+m]) des données disponibles. Ce théorème est important car il montre que le réseau n'aura un pouvoir prédictif que si ces sommes (corrélations) sont significativement différentes de zéro ; sinon, les poids convergeront vers des zéros. C'est pourquoi il est important de trouver des données de formation avec une corrélation non nulle entre les entrées et les sorties. Les entrées qui ont une faible corrélation peuvent être écartées car elles n'aideront pas le réseau dans ses prédictions.

D'après ce que je comprends, votre erreur d'apprentissage sur les graphiques ci-dessus n'est pas divisée par 2 ou par le nombre de séries. Est-ce exact ? Je voudrais exécuter vos entrées sur mon réseau pour m'assurer que tout fonctionne correctement. Pourriez-vous les enregistrer dans un fichier au fur et à mesure qu'ils sont alimentés aux entrées et sorties du réseau, et les mettre ici. Vous pourriez utiliser votre réseau 5-4-1 avec 40 échantillons pour réduire la quantité de données.

 

Affectation des épaules du kagi de construction et de la série de transactions pour différents H


1. H = 1(un écart)


2. Н = 4


3. Н = 15


 
gpwr >> :

Je suis d'accord avec votre commentaire sur mon théorème. En effet, en réduisant le nombre d'ensembles dans l'échantillon d'entraînement, les poids s'éloigneront des zéros. Mais je pense que le théorème est applicable aux réseaux pour la raison que pour calculer la corrélation, il n'est pas nécessaire d'utiliser un nombre infini d'ensembles d'apprentissage. La moyenne statistique R(m)=E{x[i]x[i+m]} est calculée comme la somme(x[i]x[i+m]) des données disponibles. Ce théorème est important car il montre que le réseau n'aura un pouvoir prédictif que si ces sommes (corrélations) sont significativement différentes de zéro ; sinon, les poids convergeront vers des zéros. C'est pourquoi il est important de trouver des données de formation avec une corrélation non nulle entre les entrées et les sorties. Les entrées qui ont une faible corrélation peuvent être écartées car elles n'aideront pas le réseau dans ses prédictions.

D'après ce que je comprends, votre erreur d'apprentissage sur les graphiques ci-dessus n'est pas divisée par 2 ou par le nombre d'ensembles d'apprentissage. Est-ce exact ? Je voudrais exécuter vos entrées sur mon réseau pour m'assurer que tout fonctionne correctement. Pourriez-vous les enregistrer dans un fichier au fur et à mesure qu'ils sont alimentés aux entrées et sorties du réseau, et les mettre ici. Vous pouvez utiliser votre réseau 5-4-1 avec 40 échantillons pour réduire les données.

J'ai augmenté le nombre d'époques à 1000 et modifié les paramètres d'iProp+ pour que l'échelon de poids ne s'estompe pas rapidement. Suppression de la division de l'erreur d'apprentissage par 2*Nombre d'époques. J'obtiens maintenant des résultats plus satisfaisants, plus proches de Neutron. L'erreur d'apprentissage pour les poids aléatoires est 2 à 3 fois moins importante que pour les poids nuls, ce qui indique la présence d'une corrélation entre les entrées et les sorties. Mais je n'aime toujours pas le fait que de l'épochée 4 à 70 l'erreur d'apprentissage est presque inchangée. Nous devons améliorer l'algorithme d'apprentissage. Bien que la plupart des paquets NS commerciaux utilisent iProp+, je fais confiance à cet algorithme. Il reste donc les ML et BFGS, lents et complexes.


 
gpwr >> :

Je suis d'accord avec votre commentaire sur mon théorème.


Puisque vous êtes si bon en maths, pourquoi n'essayez-vous pas de prouver un autre théorème sur l'optimisation de la dimension d'entrée du réseau sur les BP du marché (mieux, pas les BP, mais les séries de transactions kagi) - c'est une chose vraiment utile !

 
paralocus >> :

Puisque vous êtes si bon en maths, pourquoi n'essayez-vous pas de prouver un autre théorème sur l'optimum de la dimension d'entrée du réseau sur les BP du marché (de préférence pas des BP, mais une série de transactions kagi) - ça, c'est du concret !

Je vais essayer.

 
gpwr писал(а) >>

Je suis d'accord avec votre commentaire sur mon théorème. En effet, réduire le nombre d'ensembles dans l'ensemble d'apprentissage fera dévier les poids de zéro. Mais je pense que le théorème est applicable aux réseaux, car pour calculer la corrélation, je n'ai pas besoin d'utiliser un nombre infini d'ensembles d'apprentissage. La moyenne statistique R(m)=E{x[i]x[i+m]} est calculée comme la somme(x[i]x[i+m]) des données disponibles. Ce théorème est important car il montre que le réseau n'aura un pouvoir prédictif que si ces sommes (corrélations) sont significativement différentes de zéro ; sinon, les poids convergeront vers des zéros. C'est pourquoi il est important de trouver des données de formation avec une corrélation non nulle entre les entrées et les sorties. Les entrées qui ont une faible corrélation peuvent être écartées car elles n'aident pas le réseau à faire des prédictions.

Il existe également une corrélation non linéaire entre les échantillons. Il est capturé par le NS non linéaire bicouche et n'est pas capturé par le discriminateur linéaire, dont vous avez prouvé le théorème limite.

D'après ce que j'ai compris, votre erreur de formation sur des diagrammes donnés n'est pas divisée par 2 ou par le nombre d'ensembles. Correct ? Je voudrais exécuter vos données d'entrée sur mon réseau pour m'assurer que tout fonctionne correctement. Pourriez-vous les enregistrer dans un fichier au fur et à mesure qu'ils sont alimentés aux entrées et sorties du réseau, et les mettre ici. Vous pouvez utiliser votre réseau 5-4-1 avec 40 échantillons pour réduire les données.

Vous trouverez ci-dessous le fichier avec les entrées que j'ai utilisées.

Dossiers :
dif.zip  14 kb
 
Neutron >> :

Il existe également une corrélation non linéaire entre les échantillons. Il est capturé par le NS non linéaire bicouche et n'est pas capturé par le discriminateur linéaire, dont vous avez prouvé le théorème limite.

Ci-dessous, vous trouverez en annexe un fichier contenant les données d'entrée que j'ai utilisées.

>> Merci. Il y a beaucoup de choses à dire sur la corrélation non linéaire. Je vous dirai ce que j'en pense dans un petit moment. En attendant, je suis intrigué par votre intéressante conclusion sur la "fille à rouages". Le fait que le réseau non appris ("fille ternaire") montre des prédictions plus précises sur les données hors échantillon m'inquiète. La variance de l'état non appris est beaucoup plus grande que la variance de l'état appris. Et si l'état appris est le minimum entropique global (erreur au carré), alors la variance d'un tel état est nulle, puisqu'il n'existe qu'un seul minimum global. Comme il y a beaucoup d'états non gonflés dans le réseau, il y aura beaucoup de prédictions différentes pour les mêmes données d'entrée. Vous pouvez le voir dans vos graphiques. En somme, une conclusion intéressante mais alarmante.

 

C'est là que je n'ai pas une compréhension complète moi-même.

Selon la déclaration(Alexander Ezhov, Sergey Shumsky"Neurocomputing"), il existe une longueur optimale, à laquelle l'erreur de généralisation Popt=w^2/d est minimisée, où d est la dimensionnalité de l'entrée du NS, w est le nombre de tous les paramètres réglables du NS. Ainsi, de ce point de vue, le SN est surentraîné si P<Popt le SN "se souvient" de l'échantillon d'entraînement. La variante P>Popt n'est pas bonne non plus, car à plus longue échéance, il y a plus de probabilité de renversement de tendance du marché, ce qui équivaut à une diminution des corrélations entre les échantillons.

D'autre part, NS peut être "traîné" à un nombre excessif d'époques d'apprentissage et, en conséquence, l'erreur de généralisation recommencera à croître, ou ne sera pas traîné... En général, nous devons réaliser des expériences numériques avec un ensemble de statistiques, ce qui est en soi très récursif ! Mais, il faut le faire. Il sera beaucoup plus facile de prouver l'équation ci-dessus pour la longueur optimale du vecteur d'apprentissage. gpwr, tu veux bricoler ?

Raison: