L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 2424

 
transcendantamer:

En fait, la charge de la preuve incombe à l'accusation, et c'est donc à vous de prouver que le produit est de qualité inférieure (non conforme à la déclaration).

Je fais juste appel à la logique et au bon sens 🧐

Et bien vous n'êtes pas non plus un accusé)))) Plus comme un expert) Alors faites votre avis d'expert

 
YURY_PROFIT:

Eh bien, vous n'êtes pas non plus un accusé)))) Plus comme un expert) Alors faites votre opinion d'expert

Je vais vous demander des preuves 😉 car vous êtes le procureur.

Ou peut-être que vous avez déjà gagné un million là-bas et que ce n'est pas suffisant pour vous.

 
Igor Makanu:

C'est idiot, il y a des utilisateurs et des producteurs de produits/biens/services.

Vous n'avez pas construit votre propre voiture, n'est-ce pas ? Vous avez acheté une voiture toute prête chez un constructeur automobile.

SZZ : vous pouvez le faire scientifiquement ... avez-vous entendu parler du théorème de Pythagore ? Où est le vôtre ?))))


l'humour est sur les ressources de profil, ici de juste lire : "les 3 éléments se sont réunis, bullshit photographe, bullshit modèle et bullshit cosplay ".


à propos de ça... comme si le marché autorisait la publication de nouvelles versions du produit, sans compter que certains auteurs de produits se contentent de réoptimiser leurs EA sur de nouvelles données historiques....... "en général, les éléments se sont réunis" - ici, d'ailleurs, l'un des "éléments" - imho, faible formation des clients, peu sont capables de vérifier la qualité du produit, mais il est ainsi partout - y compris les acheteurs des voitures susmentionnées - pour ainsi dire marketing

Où avez-vous vu de la stupidité ? Ce post disait, premièrement, qu'il impliquait un travail intellectuel et deuxièmement que "PAS appris à utiliser".

Pour critiquer des publications textuelles, il faut être à UN niveau avec l'auteur. Une comparaison ridicule a été faite avec Pythagore. Quel en est l'intérêt ?

Un exemple plus approprié pourrait être le suivant : Vous avez acheté un ordinateur quantique mais ne parvenez pas à apprendre à l'utiliser, même après avoir lu les instructions détaillées.

J'espère que vous comprenez quelle est la différence fondamentale.

 
Des chiliens sexy - tu n'as pas mélangé les branches ?
 
Le niveau peut être vu immédiatement par la perception de certains sujets (liens) et d'autres choses. Deux ou trois personnes sont sur le sujet, le reste n'est que du vent, comme d'habitude.
 
mytarmailS:

Quelle est la différence fondamentale entre "game \stop game" et "open \not open" ou "buy \not buy" ?

Je ne pense pas qu'il y ait quoi que ce soit, la classification habituelle...


Le démarrage/arrêt d'un autre robot est censé être plus facile que votre propre achat/vente...

Il y a moins de bruit sur le marché (le bruit est filtré par le robot contrôlé), la solution est plus facile à trouver - parce qu'il y a moins d'invariants.

 
Maxim Kuznetsov:

démarrage/arrêt d'un autre robot - cela devrait être plus facile que d'acheter/vendre soi-même...

moins de bruit sur le marché (le bruit est filtré par un robot contrôlé), la solution est plus facile à trouver - car il y a moins d'invariants

Il n'y a aucune différence, le start/stop sera contrôlé par d'autres signes dans lesquels il y aura du bruit.
 
Maxim Kuznetsov:

démarrage/arrêt d'un autre robot - cela devrait être plus facile que d'acheter/vendre soi-même...

moins de bruit sur le marché (le bruit est filtré par un robot contrôlé), la solution est plus facile à trouver - car il y a moins d'invariants

hmmm...

Je suis toujours sceptique, j'ai filtré le net avec un autre, mais tu filtres des jeux TS et c'est bon ?

 

J'ai donc mené la première phase de la recherche, que j'ai annoncée précédemment, et essayons de voir quels sont les résultats réels. Je vais écrire et réfléchir d'un coup d'œil, je ne connais pas le résultat jusqu'au bout, il y a beaucoup d'informations, et comment les analyser correctement est aussi une question.

J'ai pris un échantillon de 2014 jusqu'à la première moitié de 2021 (60% train, 20% test, 20% examen), 5336 prédicteurs, fixé tous les paramètres - 6 arbres de profondeur et 100 ensembles de graines aléatoires, taux d'apprentissage 0,03 et 1000 itérations (arbres) avec arrêt automatique en cas de non amélioration après de nouveaux 100 arbres sur l'échantillon de contrôle, les autres paramètres ne sont pas importants, mais les paramètres variables sont le type de quantification et le nombre de bornes quantiques. Le nombre de bornes quantiques augmente progressivement de 8 à 512 et le type de quantification - 6 variantes différentes, nous conservons les tables de quantification dans un fichier séparé.

Après avoir entraîné tous les modèles, nous obtenons un tableau de 42 modèles classés par la colonne "Balans_Exam" - sélection indépendante.

La capture d'écran montre un tableau avec des valeurs centrales cachées, mais les cinq meilleures et les cinq pires sont affichées, et la valeur moyenne des indicateurs a été calculée pour l'ensemble de l'échantillon.



A la fin, deux modèles sont sélectionnés - mis en évidence en vert clair, ils diffèrent par le nombre de quanta - 8 et 128 respectivement et par le type de quantification - Median et UniformAndQuantiles.

Ensuite, j'ai divisé l'échantillon dans le test en 8 parties, de sorte que chaque partie avait 6 mois, et formé des modèles avec la première et la deuxième table de quantum fixe séparément, et pour chacun, appelons-le un projet, a utilisé 5 options pour la formation, dans lequel le paramètre aléatoire-seed - 100 options de 8 à 800 avec l'étape 8 :

  1. Entraîner 1000 arbres sans contrôle d'arrêt sur le sous-échantillon de test ;
  2. Entraînement de 1000 arbres sur le sous-échantillon avec arrêt du contrôle sur le sous-échantillon de test après 100 itérations sans amélioration;
  3. Entraînement de 100 arbres sans contrôle d'arrêt sur le test de sous-échantillon ;
  4. Former 50 arbres sans contrôle d'arrêt sur le sous-échantillon de test ;
  5. Former 5 arbres sans contrôle d'arrêt sur le test de sous-échantillon.

Une fois la formation terminée, les modèles résultants ont été analysés pour les options suivantes afin d'obtenir des statistiques sur les prédicteurs CatBoost :

  1. PredictionValuesChange ;
  2. Changement de fonction de perte ;
  3. InternalFeatureImportance.

J'ai ensuite calculé la moyenne des résultats pour chaque 1/8e de l'échantillon séparément, puis je les ai combinés dans un tableau global ordonné par la moyenne des scores de signification des prédicteurs dans chaque segment, en vérifiant séparément la présence d'un prédicteur significatif dans chaque segment et en utilisant le tableau ordonné par ce score également. La procédure décrite a été effectuée pour chaque projet et chaque type de statistique dans le modèle.

Voici un extrait du tableau pour l'entraînement de la variante 5 et l'analyse du modèle de la variante 1

Puis j'ai fait des réglages pour exclure de la formation les prédicteurs qui ne rentraient pas dans les n premiers prédicteurs. S'il n'y avait pas assez de prédicteurs répondant aux critères, aucun fichier de réglages n'était créé. Les réglages ont été effectués pour chaque variante statistique et chaque projet. Les limites suivantes ont été utilisées pour le nombre de prédicteurs utilisés pour la formation : 5/25/50/100/300/500/1000/2000/3000. Nous avons ainsi obtenu l'ensemble des paramètres.

Ensuite, j'ai effectué un entraînement avec un réglage fixe de la table quantique sur l'échantillon - 60% test - 20% examen - 20% avec un maximum de 1000 arbres et arrêter l'entraînement sur l'échantillon test, l'entraînement a été effectué pour tous les réglages et deux versions des tables quantiques, 100 modèles avec semis aléatoire - 100 options de 8 à 800 par incréments de 8. En outre, un entraînement séparé a été effectué pour les deux tables quantiques sans exclusion de prédicteur mais avec une énumération à semis aléatoire - 100 variantes de 8 à 800 par pas de 8.

Ci-dessous le tableau avec la configuration du partitionnementmédian à 8 frontières- les 5 premiers et derniers meilleurs choix.

Voici un tableau avec 128 bornes établies par la méthode UniformAndQuantiles - les 5 premiers et derniers meilleurs choix.


La première conclusion que l'on peut tirer est que le modèle a du potentiel, qui dépend des prédicteurs utilisés, dont l'utilisation est affectéepar la semence aléatoire. Et en réfléchissant à haute voix, je suggérerais que l'objectif de la sélection des paramètres/méthodes ne devrait pas être le meilleur résultat, mais le résultat moyen des indicateurs de profit ou autres. Je tiens à souligner que la valeur moyenne du résultat financier dans l'échantillon hors formation (colonne Balans_Exam) dans la première variante est de 2222.39 et dans la deuxième variante de 1999.13.

Ensuite, nous compilons un tableau des valeurs métriques moyennes des modèles avec une ventilation des paramètres pour leur formation.

Vous trouverez ci-dessous un tableau avec une répartition en 8 bornes selon la méthodemédiane pour différents paramètres responsables de l'exclusion des prédicteurs- les 10 premières variantes sont les valeurs moyennes.


Vous trouverez ci-dessous un
tableau avec 128 bornes utilisant la méthode UniformAndQuantilespour les différents paramètres responsables de l'exclusion des prédicteurs - les10 premiers choix sont les valeurs moyennes.


Pour déchiffrer ce que nous avons ici dans la colonne "File_Name", je suggère d'utiliser le tableau suivant



Essayons d'analyser étape par étape, en réduisant le nombre de combinaisons observées.

Le tableau ci-dessous calcule les "projets" qui figurent parmi les dix premiers dans les deux tableaux quantiques.

Et ici, nous voyons que dans les deux tableaux il ya de bons représentants du premier projet (Exp_000) et le cinquième(Exp_004), qui est meilleur et à partir de laquelle à abandonner n'est pas clair, mais le fait qu'ils ont tous deux obtenu dans le top dix raison de penser. Peut-être devriez-vous prendre des statistiques avec des coefficients sur l'ensemble du tableau - je ne sais pas - proposer des options. Cependant, je tiens à noter que la variante Exp_004 est bonne parce qu'elle prend le moins de temps pour préparer les données en vue de la création des fichiers de configuration, ce qui est logique puisqu'il n'y a que 5 arbres. Je pense qu'il est trop tôt pour tirer des conclusions définitives sur le choix du nombre d'arbres pour la formation initiale, ne pensez-vous pas ?

Dans le tableau ci-dessous pour les dizaines de deux tables quantiques, examinons le type d'analyse des prédicteurs et le nombre limite de prédicteurs utilisés dans le modèle.



Nous pouvons voir dans le tableau que la première méthode d'analyse montre un nombre plus élevé de réponses, et nous pouvons également voir que la plupart des paramètres du nombre de prédicteurs utilisés dans le modèle ne dépassent pas 50 unités.

Je vous propose maintenant d'examiner les résultats des modèles eux-mêmes, en prenant les échantillons de projets dont les paramètres se sont avérés majoritaires, pour le premier tableau quantitatif - CB_Svod_Exp_000_x_000000002 , et pour le second - CB_Svod_Exp_004_x_000000002.


Le tableau ci-dessous présente la méthode médiane de fixation du paramètre de sélection du prédicteur CB_Svod_Exp_000_x_0000002 - les 5 premières meilleures et les 5 pires variantes - en 8 bornes.



Le tableau ci-dessous présente un découpage en 128 limites par la méthode UniformAndQuantiles de sélection des prédicteurs, avec le paramètre CB_Svod_Exp_004_x_000000002 - les 5 meilleures et les 5 pires variantes.

Vous trouverez ci-dessous des tableaux récapitulatifs à des fins de comparaison - la première ligne contient les données du tableau quantitatif initial, la deuxième ligne contient les données après un dénombrementaléatoire, et la troisième ligne contient les résultats de la sélection suivant la procédure de sélection des prédicteurs:

1.Tablemédianeà 8 bornes



2. tableau avec 128 bornes fixées selon la méthodeUniformAndQuantiles



Les estimations des deux tableaux montrent une diminution des résultats pour les échantillons d'entraînement et de test, et une amélioration des performances pour l'échantillon indépendant, en d'autres termes, l'effet de l'ajustement a diminué en améliorant les caractéristiques des prédicteurs et en réduisant leur nombre.


Quelles conclusions provisoires peut-on en tirer ?

1. Il est possible de simplement alimenter l'échantillon CatBoost, mais la manipulation des prédicteurs peut améliorer considérablement le modèle, y compris le résultat financier.

2. Il n'est pas toujours nécessaire d'utiliser un grand nombre de prédicteurs disponibles dans l'échantillon pour obtenir un bon résultat - il s'avère que l'utilisation de seulement 1% de tous les prédicteurs est suffisante pour obtenir les bons résultats que nous estimons à partir de la moyenne.

Pour développer cette idée, nous devons mener des expériences sur d'autres échantillons, et si le résultat se répète, nous pouvons penser à réduire le nombre de combinaisons pour trouver des résultats prometteurs. L'objectif est de développer une méthode aveugle qui permettrait de trouver de meilleures moyennes sans regarder les échantillons de test et d'examen, ce qui augmenterait de 40% l'échantillon pour l'entraînement et ajouterait encore l'identification des prédicteurs avec une réponse stable.

On peut penser à un filtrage supplémentaire des prédicteurs au moment de l'estimation, en ajoutant un facteur d'ajustement pour leur utilité/efficacité au regard du résultat financier obtenu.

Pourquoi je regarde les données financières - le point est que différents événements peuvent se produire sur le marché et si le modèle peut sélectionner de manière préférentielle les événements avec un rendement plus élevé, alors j'aime cette approche du modèle, tout en regardant les indicateurs statistiques estimés du modèle et le graphique lui-même.

J'espère que vous avez trouvé ce post intéressant, j'attends vos commentaires avec impatience !

J'ai joint un fichier avec tous les tableaux - qui est intéressé et qui veut réfléchir.

Dossiers :
CB_Svod_Si_Q.zip  697 kb
 
Et puis vous pouvez prendre les incréments de 5-15, et c'est tout aussi bien.

Ou bien vous pouvez d'abord trier tous les prédicteurs par corrélation (en quelques secondes), puis prendre les 5 à 15 prédicteurs restants (si vous pouvez en obtenir autant).

C'est ainsi que l'économétrie vous fait gagner du temps.