L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 2812

 
Maxim Dmitrievsky #:

Ce sujet a été abordé ici il y a plus d'un an, lorsque j'écrivais des algorithmes de NR.

Je ne veux pas revenir en arrière, et moi non plus.
Je ne me place pas du point de vue des étiquettes, mais du point de vue, par exemple, de certaines politiques très complexes et multi-détaillées du comportement des agents.
 
mytarmailS #:
Je ne parle pas de la position des étiquettes, mais de la position, par exemple, de certaines politiques très complexes à plusieurs étapes du comportement de l'agent.
Vous confondez avec le RL tabulaire, où les directions des transitions d'un état à l'autre sont optimisées dans des tableaux ; il s'agit de politiques. Ces tableaux ont ensuite été remplacés par des réseaux neuronaux. C'est le cas lorsqu'il y a de nombreux états de l'agent, par exemple dans les jeux. Vous n'avez que 2 ou 3 états d'achat/vente, etc. Vous optimisez alors les transitions vers ces états au moyen d'une fonction de récompense, par exemple en échantillonnant les transactions avec une certaine condition de rentabilité, et les politiques sont optimisées au moyen de réseaux neuronaux. Une politique est la relation entre l'environnement et l'état vers lequel vous souhaitez effectuer une transition. Par exemple, la relation entre les valeurs des indicateurs et la direction des transactions.

Il est absurde d'effectuer plusieurs passages de 100500 transitions dans la table lorsque le NS a déjà tout approximé et vous a montré l'erreur de vos actions. Cela est nécessaire si vous devez d'abord sauter, puis tirer, recharger, ramasser du butin, courir vers l'autre côté, etc. C'est-à-dire effectuer beaucoup d'actions, et vous n'en avez que 2 ou 3. Même si le boss est le boss :)

J'ai oublié d'ajouter que là, l'agent affecte aussi l'environnement, le change, et l'environnement sur l'agent. C'est pour cela qu'il faut apprendre des milliers de répétitions pour passer en revue toutes les combinaisons. Dans notre cas, ce n'est pas le cas, l'environnement ne change pas, nous pouvons donc le faire en une seule fois. Dans un tel contexte, l'apprentissage par renforcement perd complètement son sens. Vous pouvez trouver le chemin le plus court vers l'objectif en un seul passage.
 
Le schéma de la solution est simple, un prétraitement de l'ensemble des données est effectué. L'analyse standard est effectuée. A partir du reste, chaque entrée est prise comme variable cible, et la sortie à chaque ML est prise comme fic. La prédiction de chaque entrée est évaluée, les mauvaises entrées "prévisibles" sont éliminées. Les entrées qui passent le filtre sont incluses dans le modèle de travail par la prédiction de la sortie dans le ML. Je rejetterais les puces qui n'affectent pas la prédiction de cette manière.
 
Maxim Dmitrievsky #:
C'est le cas lorsqu'il y a beaucoup d'états d'agents, par exemple dans les jeux. Vous n'avez que 2 ou 3 états d'achat/vente, etc.

Non, c'est tellement primitif, sinon ce ne serait pas du tout cette direction.


L'état n'est pas un achat/vente, l'achat/vente est une action, et l'état est grosso modo le numéro de cluster de l'environnement actuel, et chaque cluster d' état a sa propre action...

Mais l'action n'a pas besoin d'êtreprimitive comme l'achat/vente, elle peut être le raisonnement de l'agent sur l'avenir pour exemple....

Par exemple, si j'achète maintenant à [i], et que sur la bougie [i+1] le prix va chuter, mais pas en dessous d'un certain prix, j'attendrai la bougie suivante [i+2], mais si le prix descend encore plus bas, je reviendrai en arrière, sinon je maintiendrai l'achat [i...20].

Il s'agit là d'un raisonnement non trivial sur l'avenir qui conduit à la découverte de la conscience poziya....

Mais il existe une myriade de combinaisons d'options de raisonnement, de sorte que nous n'avons pas à les passer toutes en revue, nous formons une fonction Q, c'est-à-dire que l'agent ne retient pour le raisonnement que les options qui ont une bonne valeur Q . Le neurone ou la matrice Q est formé avant que l'agent ne commence à raisonner sur l'avenir,

le neurone ou la matrice Q est entraîné au préalable...

C'est ainsi que je vois les choses...

 
peregrinus_vik #:
La solution est simple.

)))) oui, bien sûr...

J'ai peur de ceux qui disent "c'est simple".

 
mytarmailS #:

Non, c'est tellement primitif, sinon ce ne serait pas du tout cette direction...


l'état n'est pas un by\sel, le by\sel est une action, et l'état est grosso modo le numéro de cluster de l'environnement actuel, et chaque cluster d' état a sa propre action...

Mais l'action n'a pas besoin d'êtreprimitive comme un octet, il peut s'agir des pensées d'un agent sur l'avenir par exemple....

Par exemple, si j'achète à [i] maintenant, et que sur la bougie [i+1] le prix va chuter, mais pas en dessous d'un certain prix, j'attendrai la bougie suivante [i+2], mais si le prix descend encore plus bas, je reviendrai en arrière, sinon je garderai l'achat [i...20].

Il s'agit de raisonnements non triviaux sur l'avenir qui conduisent à la découverte de la position réalisée....

Mais il existe une myriade de combinaisons d'options de raisonnement de ce type ; pour ne pas avoir à les passer toutes en revue, nous entraînons la fonction Q, c'est-à-dire que l'agent ne prend pour raisonnement que les options qui ont une bonne valeur Q ,

Le neurone ou la matrice Q est entraîné au préalable...

C'est ainsi que je vois les choses...

Je suis d'accord, l'achat-vente-non-commerce n'est pas un état. Il existe une multitude d'états.))))))

 
Valeriy Yastremskiy #:

Je suis d'accord, l'achat, la vente et non le commerce n'est pas une affaire d'Etat. Il existe un grand nombre d'États.)))))

Il n'y a pas beaucoup d'états (s'il s'agit d'une grappe).

Il y a une horde d'options pour raisonner sur les actions futures.

mais le raisonnement est nécessaire pour trouver les actions les plus correctes dans chaque état, de plus, elles doivent être revues à chaque bougie.

 
mytarmailS #:

Non, c'est tellement primitif, sinon ce ne serait pas du tout cette direction...


l'état n'est pas un by\sel, le by\sel est une action, et l'état est grosso modo le numéro de cluster de l'environnement actuel, et chaque cluster d' état a sa propre action...

Mais l'action n'a pas besoin d'êtreprimitive comme un octet, il peut s'agir des pensées d'un agent sur l'avenir par exemple....

Par exemple, si j'achète à [i] maintenant, et que sur la bougie [i+1] le prix va chuter, mais pas en dessous d'un certain prix, j'attendrai la bougie suivante [i+2], mais si le prix descend encore plus bas, je reviendrai en arrière, sinon je garderai l'achat [i...20].

Il s'agit de raisonnements non triviaux sur l'avenir qui conduisent à la découverte de la position réalisée....

Mais il existe une myriade de combinaisons d'options de raisonnement de ce type ; pour ne pas avoir à les passer toutes en revue, nous entraînons la fonction Q, c'est-à-dire que l'agent ne prend pour raisonnement que les options qui ont une bonne valeur Q ,

Le neurone ou la matrice Q est entraîné au préalable...

C'est ainsi que je vois les choses...

Lorsque l'on commence à bien voir les choses, le facteur d'émerveillement disparaît.

Vous décrivez la politique d'un agent, une approche à plusieurs volets. J'ai tout écrit à ce sujet. J'écris dans un langage d'intello pour que ça ait du sens, et j'ai oublié.

Exactement, c'est tellement primitif.

Il y en a une ici qui écumait la bouche à propos des agents avant d'être bannie).

 
Valeriy Yastremskiy #:

Je suis d'accord, l'achat, la vente et non le commerce n'est pas une affaire d'Etat. Il existe un grand nombre d'états.))))

Les états d'agent, ou les états d'action. Je vous suggère de passer quelques mois à lire des livres pour comprendre ce que vous avez écrit et arriver aux mêmes conclusions : sans la réaction de l'environnement aux actions de l'agent, il n'y a rien à optimiser, cela se fait en une seule fois.

Il y a des états de l'environnement, des états de l'agent, des matrices de transitions (politiques) de l'agent d'un état à l'autre, en tenant compte des changements dans l'environnement. Votre environnement est statique, il ne change pas en raison des actions de l'agent. Il suffit donc de définir la matrice des actions de l'agent dans un environnement statique, c'est-à-dire les cibles. Le marquage des cibles se fait en une seule fois.
 
Maxim Dmitrievsky #:
Les états de l'agent, ou les actions. Je vous suggère de passer quelques mois à lire des livres pour comprendre ce que vous avez écrit, et d'arriver aux mêmes conclusions : sans la réaction de l'environnement aux actions de l'agent, il n'y a rien à optimiser, tout se fait en une seule fois.

Il y a des états de l'environnement, des états de l'agent, des matrices de transitions (politiques) de l'agent d'un état à l'autre, en tenant compte des changements dans l'environnement. Votre environnement est statique, il ne change pas en raison des actions de l'agent. Il suffit donc de définir la matrice des actions de l'agent dans un environnement statique, c'est-à-dire les cibles. Le marquage des cibles se fait en une seule fois.
Si je veux pénaliser l'agent pour les transactions non rentables...
L'objectif est "tradez ce que vous voulez, mais pas de trades perdants, et soyez dans le marché".

Comment décrire cela avec des majorations ?
Raison: