Que mettre à l'entrée du réseau neuronal ? Vos idées... - page 80

 
Aleksey Vyazmikin #:

Quelle était la période d'étude ? Les prix de clôture ont-ils été indiqués ? A partir de quelle TF ? Test de démonstration à partir du MQ ? Quelle est l'espérance mathématique pour 1 lot ?

Je suis passé à 21 ans : 2000 à 2021.

Les deux tracés sont trop inconciliables : 2000 à 2012 et 2012 à 2021.
Si les deux montent : soit recyclage, soit quelque chose fonctionne.

Test sur icMarkets, compte réel. Je ne connais pas les détails, je ne suis pas devant mon ordinateur en ce moment.

Pour ce qui est de la sélection des prix d'entrée : je ne m'étale pas encore ici, je creuse depuis deux ans, je garde les meilleurs. Je peux poster quelque chose de curieux.
 
Forester #:
S'il n'y avait pas les baisses de rendement sur six mois, ce serait parfait. Je les ai eus jusqu'à deux ans. Lors des tests avec 2015 valkingforward.

PS. Comment pouvez-vous tous travailler la nuit ? Le jour est le moment le plus efficace.
Oui, les résultats frontaux sont nuls.

Mais j'ai apprécié le fait que le "relais" fonctionne : si on le tourne dans un sens, il y a beaucoup de bruit (déchets) sur l'avant, si on le tourne dans l'autre sens, il y a moins de bruit, mais les bonnes affaires ne sont pas coupées.
 
Ivan Butko #:


Quel est ce programme ?

 
Andrey Dik #:

Quel est ce programme ?

J'essayais d'amener chat à faire tourner un NS python sur ma RTX 3080. Il m'a proposé un environnement de développement : Jupiter, GoogleCollab, Idle ou Spider.

J'aime l'aspect de Spider, j'y exécute les scripts du modèle.
 
Ma prédiction est que le seul modèle qui sera capable de réaliser un profit stable pendant une longue période est la collaboration CNN + BiLSTM + MLP

Lesréseaux convolutifs seront mieux déduits.
 
Je prédis que le seul modèle capable de réaliser des bénéfices stables pendant longtemps est la collaboration CNN + BiLSTM + MLP.

1) Les réseaux convergents seront meilleurs pour l'extraction de modèles et la généralisation. En d'autres termes, ils effectueront un prétraitement des données d'entrée.

2) Les réseaux récurrents travailleront avec des données déjà nettoyées des déchets, et leur module d'état précédent s'adaptera à l'évolution du marché.

3) Le perceptron multicouche apprendra simplement les règles de négociation à partir des données correctement traitées. Après tout, c'est le plus méticuleux des trois.


En cas de changements importants dans le comportement d'une paire de devises, les réseaux de récurrence ne vous laisseront pas vous vider rapidement, mais amèneront progressivement l'opération à plat, ce qui donnera le signal d'un nouvel entraînement de l'ensemble du système.


Il s'agit là de mon opinion subjective basée sur ma compréhension de ces méthodes.

Je n'ai pas encore fait tourner correctement ce paquet entre mes mains

Encore une fois, étant donné que toutes ces méthodes ont été discutées des centaines de fois par des professionnels ici, je peux me tromper. D'un autre côté, nous nous sommes éloignés de la prédiction standard de la prochaine bougie, qui est généralement faite dans les articles, en faveur du polissage TS. Et peut-être que cela donnera un changement.
[Supprimé]  
Ivan Butko Les réseaux convergents seront meilleurs pour l'extraction de modèles et la généralisation. En d'autres termes, ils effectueront un prétraitement des données d'entrée.

2) Les réseaux récurrents travailleront avec des données déjà nettoyées des déchets, et leur module d'état précédent s'adaptera à l'évolution du marché.

3) Le perceptron multicouche apprendra simplement les règles de négociation à partir des données correctement traitées. Après tout, c'est le plus méticuleux des trois.


En cas de changements importants dans le comportement d'une paire de devises, les réseaux de récurrence ne vous laisseront pas vider rapidement, mais amèneront progressivement l'opération à plat, ce qui donnera le signal d'un nouvel entraînement de l'ensemble du système.


Il s'agit là de mon opinion subjective basée sur ma compréhension de ces méthodes.

Je n'ai pas encore fait tourner correctement ce paquet entre mes mains

Cependant, étant donné que toutes ces méthodes ont été discutées des centaines de fois par des professionnels ici, je peux me tromper. D'un autre côté, nous nous sommes éloignés de la prédiction standard de la prochaine bougie, qui est généralement faite dans les articles, en faveur du polissage TS. Et peut-être que cela donnera un changement.
Tout cela est absurde, mais la question est différente
Est-ce que le donneur de TS ajoute aussi sur le forward) ?
 
Ivan Butko #:

Le problème des nombres.

... Mais il se trouve que les données d'entrée comportent déjà un facteur de force face à leur valeur quantitative. ...


Les échantillons, chacun des n nombres, introduits dans les entrées X[0 ... n-1] dans le processus d'apprentissage, doivent être pré-entraînés (normalisés) de manière à ce qu'ils soient ÉGAUX les uns aux autres, toutes choses étant égales par ailleurs.


Dans le contexte où la valeur Y à la sortie d'un neurone apparié est la somme de X[0]*W[0] + X[1]*W[1] + X[2]*W[2] + ... + X[n-1]*W[n-1], cette équivalence ne peut être obtenue que d'une seule manière :

Les sommes des valeurs |X[0]| + |X[1]| + |X[2]| + ... |X[n-1]| dans tous les échantillons d'apprentissage doivent être égales.

Où W[n] est considéré comme une "autre condition égale" à X[n].

En d'autres termes, en tenant déjà compte de l'"autre condition égale", deux échantillons sont numériquement équivalents si leurs sommes X[0]^2 + X[1]^2 + X[2]^2 + ... + X[n-1]^2 sont les mêmes.


Par exemple :

Si certaines sections de prix par ses incréments X[n][k]=close[n][k]-ouverture[n][k], où n est le numéro de valeur de X et k le numéro de l'échantillon, sont utilisées comme un sac d'échantillons d'entraînement,

la somme des valeurs |X[0][k]| + |X[1][k]| + |X[2][k]| + ... |X[n-1][k]| représente la longueur de la courbe parcourue par le prix à l'intérieur d'un échantillon k donné.

En d'autres termes, les échantillons d'apprentissage k doivent être prénormalisés les uns par rapport aux autres, au sens physique de cet exemple, littéralement par la longueur du trajet de la courbe des prix.

Il est maintenant possible (et nécessaire) d'effectuer une autre normalisation pour eux, dans la plage pas moins / pas plus de -+1, en divisant tous les X[n][k] par max, où max est le maximum |X[n][k]| trouvé parmi tous les X[n][k].

Ensuite, dans le processus d'apprentissage, ces échantillons normalisés X[0 ... n-1][k] sont utilisés comme échantillons d'apprentissage, chacun ayant son propre score d[k], qui détermine la contribution de cet échantillon au résultat global de l'apprentissage.


Encore une fois :

Je suppose que l'apprentissage ne devrait pas se faire avec tous les échantillons k disponibles, mais seulement avec ceux qui ont un score d[k] "décent" (j'utilise un tel mot).

Cependant, pour obtenir un échantillon "digne de ce nom", nous devons toujours disposer de tous les échantillons k avec leurs scores d[k].

Mais c'est un autre sujet...

 
Maxim Dmitrievsky #:
Le donneur de CT est également plus sur l'avant) ?

J'ai décrit la théorie : le but de NS est de filtrer les TS brutes qui montrent quelque chose, et non pas de chercher le graal.







Et non pas de chercher le graal. Et j'ai décrit l'approche : rechercher manuellement tout TS qui montre au moins quelques résultats. Et le filtrer avec NS. Voici le TS original.

Inapte à la négociation, mais montrant des signes de vie .


Et voici la même, seulement filtrée par Python NS : LSTM-key.

 
Evgeny Shevtsov #:


Les échantillons, chacun de n nombres, introduits dans les entrées X[0 ... n-1] pendant l'apprentissage, doivent être pré-entraînés (normalisés) de manière à ce qu'ils soient ÉGAUX les uns aux autres, toutes choses étant égales par ailleurs.


Dans le contexte où la valeur Y à la sortie d'un neurone apparié est la somme de X[0]*W[0] + X[1]*W[1] + X[2]*W[2] + ... + X[n-1]*W[n-1], cette équivalence ne peut être obtenue que d'une seule manière :

Les sommes des valeurs |X[0]| + |X[1]| + |X[2]| + ... |X[n-1]| doivent être les mêmes pour tous les échantillons d'apprentissage.

Où W[n] est considéré comme une "autre condition égale" égale à X[n].

En d'autres termes, en tenant déjà compte de l'"autre condition égale", deux échantillons sont numériquement équivalents si leurs sommes X[0]^2 + X[1]^2 + X[2]^2 + ... + X[n-1]^2 sont les mêmes.


Par exemple :

Si certaines sections du prix par ses incréments X[n][k]=clôture[n][k]-ouverture[n][k], où n est le numéro de valeur de X et k le numéro de l'échantillon, sont utilisées comme un ensemble d'échantillons de formation,

la somme des valeurs |X[0][k]| + |X[1][k]| + |X[2][k]| + ... |X[n-1][k]| signifie la longueur du chemin de la courbe parcourue par le prix dans un échantillon k donné.

En d'autres termes, les échantillons d'apprentissage k doivent être prénormalisés les uns par rapport aux autres, au sens physique de cet exemple, littéralement par la longueur du chemin parcouru par la courbe des prix.

Il est maintenant possible (et nécessaire) d'effectuer une autre normalisation pour eux, sous la fourchette pas moins / pas plus que -+1, en divisant tous les X[n][k] par max, où max est le maximum |X[n][k]| trouvé parmi tous les X[n][k].

Ensuite, dans le processus d'apprentissage, ces échantillons normalisés X[0 ... n-1][k] sont utilisés comme échantillons d'apprentissage, chacun ayant son propre score d[k], qui détermine la contribution de cet échantillon au résultat global de l'apprentissage.


Encore une fois :

Je pense que l'apprentissage ne devrait pas être effectué avec tous les échantillons disponibles k, mais seulement avec ceux qui ont un score d[k] "décent" (j'utilise un tel mot).

Cependant, pour créer un échantillon "valable", nous avons toujours besoin de tous les échantillons k avec leurs scores d[k].

Mais c'est un autre sujet...



Vous écrivez de manière intéressante C'est là que la dissonance avec la théorie des nombres problèmes intervient :

Et maintenant, il est possible (et nécessaire) d'effectuer une autre normalisation pour eux, sous l'intervalle au moins / au plus -+1, en divisant tous les X[n][k] par max, où max est le |X[n][k]| maximal trouvé à partir de tous les X[n][k].
Après toute normalisation, chaque gribouillis est décrit par un nombre quantitatif, qui affecte le résultat final de la SN plus sa valeur est grande. En fait, une telle trajectoire "aberrante" peut ne pas être un modèle, mais elle aura le nombre le plus "lourd".

Après tout, attribuer une "force" à un modèle équivaut à trouver un graal, grosso modo. Il n'y a pas besoin de NS, il suffit de prendre les motifs avec l'indice de puissance (numérique) le plus élevé, de les combiner avec un autre motif similaire et d'ouvrir une position, car selon cette logique, la probabilité de gagner est supposée être plus élevée.



C'est la raison pour laquelle je voulais m'éloigner des chiffres, ou trouver une méthode qui, d'une manière ou d'une autre, donnerait objectivement (aussi objectivement que possible) une certaine puissance à un motif qui, dans un certain contexte (mélange avec d'autres motifs), donnerait une forte probabilité de réussite. Il y aensuite une notion de prétraitement.