L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 1269

 

Des créateurs d'AlphaGo Zero fresh, bon visionnage :)


 
Maxim Dmitrievsky:

Tout droit venu des créateurs d'AlphaGo Zero, regardez-le :)


Existe-t-il des instructions détaillées sur la façon de créer/former/connecter des modèles pour Star Kraft ?

 
Maxim Dmitrievsky:

Je suppose que je ne joue pas, je regarde juste les matchs.

À en juger par les replays, l'Alpha Trader, s'il est fabriqué, sera meilleur que n'importe quel sac de dés.

Il me semble que faire un tel robot permet d'acquérir de nouvelles compétences en MO, et c'est juste intéressant. J'ai moi-même joué à StarCraft 2 plusieurs fois depuis la sortie des nouveaux chapitres (où l'histoire est divisée en plusieurs parties). Lorsqu'il joue contre l'IA, il gagne souvent non pas par la logique de l'action, mais par le contrôle des unités - une personne ne peut physiquement pas contrôler toute la carte et toutes les unités à la fois.

 
Vladimir Perervenko:

Je ne surveille pas le mien, je ne connais pas celui des autres. L'article cité ci-dessus ne contient pas assez d'informations pour être reproductible et le code est trop compliqué. Je pense que tout peut être mis en œuvre avec les couches standard des paquets, sans utiliser R6.

Bonne chance

Je ne comprends pas quelle chance vous me souhaitez.

Veuillez faire une démo au moins

Si le résultat du travail de l'expert avec les éléments du MO est acceptable, alors je relis toute la branche du début à la fin.

 
Maxim Dmitrievsky:

Ce n'est pas le cas ici, c'est exactement proche de ce que voit et fait un humain - champ de vision limité, apm moyen inférieur à celui du joueur pro. C'est donc la bataille des intelligences, c'est-à-dire des stratégies, et non des vitesses (où la machine gagnera bien sûr toujours).

Et l'IA intégrée dans SC n'est qu'un brouillage d'adversaires inintéressants. Celui-ci, au contraire, joue comme un être humain. Je ne distinguerais pas un joueur professionnel de cette IA, c'est-à-dire que le test de Turing est réussi ;)))

J'ai même visualisé le nuage de neurones actifs du cerveau électronique.


L'écran ne permet pas de tirer des conclusions sans ambiguïté. Oui, peut-être pour ne contrôler que ce qui tient à l'écran - pas de problème, à ces fins utiliser les touches de raccourci sur une unité / structure ou groupe d'unités, alors il n'est pas nécessaire de les observer visuellement à ce point, et vous pouvez coordonner sur la carte, qui est également toujours visible sur l'écran. Chisha tout en mikrokontrol, j'ai personnellement regardé un couple de vidéos et n'a pas vu quelque chose d'intelligent là en termes de stratégie, mais l'utilisation du potentiel des unités individuelles il est divulgué sur le plein. C'est-à-dire que l'accent y est mis sur l'évaluation de la menace potentielle et les options pour la contrer - selon la branche de développement de l'ennemi, une branche est développée, plus un module séparé sur l'économie - différentes méthodes ont été vues, et le contrôle, et je pense que les deux premiers modules (la branche de développement et l'économie) sont programmés ou appliqués la logique floue, quelque chose de relativement maladroit pour la stabilité, mais le contrôle se fait par situation et là juste travailler l'IA à fond. D'ailleurs, on ne sait pas très bien comment les informations sur les objets sont transmises, comment elles sont résumées pour prendre une décision et tenir compte de leur mouvement, les puces et les cibles ne sont pas claires.

 
À propos, je joue parfois à Warcraft III sur le réseau de blizard et là, je suis souvent accusé d'IA, je me demande si cela peut être appliqué là aussi. Et si elle est utilisée, je me demande combien de fois j'ai joué avec une telle IA.
 
Maxim Dmitrievsky:

Là, d'ailleurs, à l'origine, toute la carte était placée sur l'écran pour le bot, puis faite en tant que joueur, puis le bot a commencé à caler et l'homme a gagné (à la fin de la vidéo). Bien filmé mauvais mb pour cette situation. D'autre part, comment évaluer l'efficacité - une fois que certaines strates mènent au succès, le robot les choisit.

Je pense que si vous rendez les contraintes de contrôle proportionnelles à une personne, les bots battront l'utilisateur moyen, car le comportement de la foule est similaire et il sera le plus fréquent. Au fait, lorsque j'ai essayé de jouer avec mon fils sur le réseau pour un clan contre des bots jouant à Warcraft 3, au début c'était tout aussi difficile (et avant cela j'avais une grande expérience dans les jeux de clan en battlnet contre des humains), mais ensuite s'habituer au comportement du bot et progressivement le surpasser en utilisant des solutions non standard (par exemple couper la mine à travers les arbres, protégeant ainsi les unités d'une attaque depuis le sol). Je me demande donc quel poids il faut donner aux stratégies non standard, pour qu'elles puissent être prises en compte dans le MO, c'est-à-dire qu'il faut séparer les comportements standard et non standard et avoir une approche différente à leur égard, et en même temps ne pas interférer les uns avec les autres. C'est comme une tendance et un plat - un modèle est très difficile à entraîner les deux à la fois, du moins je ne sais pas comment.

 
Maxim Dmitrievsky:

Je ne pense pas que cela ait un quelconque poids. Si les situations sont rares, le robot ignorera simplement ces options. Si une personne s'adapte aux stratégies du robot, alors le robot doit s'entraîner en permanence pour s'adapter à la strate d'une personne, sinon la situation ne sera pas égale).

Je ne sais pas, alors il s'avère que beaucoup de choses dépendent de l'échantillon, si l'échantillon est différent, alors les bots se comporteront différemment dans un combat entre eux, c'est à dire qu'il n'y a pas seulement l'entraînement mais aussi le facteur chance (qui s'est entraîné sur quoi).

Il n'est donc pas toujours possible de voir (estimer correctement) le résultat de la formation, puisqu'il n'y a pas d'échantillon valide pour comparer les résultats.

 
Maxim Dmitrievsky:

Oui, c'est comme ça que l'apprentissage se fait - par des réseaux contradictoires, un peu comme ça. L'IA joue contre l'IA des milliers de fois, reproduisant de nombreuses stratégies différentes. Le réseau finit par trouver les meilleures stratégies. Si le nombre de parties dépasse le nombre de parties jouées par un joueur professionnel (égal à 200 ans de jeu comme on dit), l'avantage statistique sera très probablement du côté du bot, car il a envisagé plus de combinaisons. Mais la probabilité de trouver une seule strate gagnante reste bien sûr l'homme

Le sujet est intéressant, mais entouré de mystère :) Le trading est différent en ce sens que nous ne pouvons pas influencer le marché par notre comportement et que nous n'avons pas la possibilité de corriger nos erreurs, peut-être avec une moyenne de position...

 
Maxim Dmitrievsky:

Si vous décomposez le graphique en milliers et millions de morceaux et que vous faites jouer le robot contre lui un grand nombre de fois, peut-être qu'il apprendra à le battre tout le temps, encore une fois, cela dépend de la fiction.

Je vois les choses un peu différemment, le jeu a conventionnellement un score mathématique pour chaque camp composé de nombreux facteurs - le nombre de bots et leur potentiel, les actifs, l'argent, et l'objectif de l'adversaire de réduire ce score afin de garder son score plus élevé que celui de l'adversaire, c'est-à-dire de dépenser moins d'énergie pour le résultat. Il en résulte un système d'influence mutuelle, où il est clair qu'en sacrifiant une unité, vous diminuerez la valeur estimée de l'actif de l'adversaire de plus que la valeur estimée de l'unité, alors c'est la bonne décision, et sinon, ce n'est pas la bonne. Dans le commerce, nous n'avons aucune garantie, seulement des probabilités, alors que dans les jouets, il existe des garanties mathématiques qui peuvent être calculées.

Nous ne pouvons pas influencer la situation, alors que dans un jeu nous le pouvons, y compris en créant nous-mêmes des situations profitables.
Raison: