L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 2208
Vous manquez des opportunités de trading :
- Applications de trading gratuites
- Plus de 8 000 signaux à copier
- Actualités économiques pour explorer les marchés financiers
Inscription
Se connecter
Vous acceptez la politique du site Web et les conditions d'utilisation
Si vous n'avez pas de compte, veuillez vous inscrire
le lien que j'ai donné sur le wiki à propos du semi. Je comprends que les marques sont les bords des sections stables.
ZZ ne va pas, parce que la notation continue juste sans aucune différence dans les sections, et l'apprentissage continue de la même manière, et si en notant ZZ c'est comme trop d'exemples avec des caractéristiques différentes et le résultat de l'apprentissage ne peut pas être bon.
Les étiquettes sont des cibles{classes} connues. Le reste des données est sans eux, juste sous forme de caractéristiques.
Ces étiquettes sont censées avoir une sorte de signification. Par exemple, des étiquettes indiquant qu'il s'agit de chats ou de crocodiles.
dans notre cas, nous n'avons aucune idée de l'endroit où se trouvent les chats. Nous ne connaissons donc aucun modèle ni aucune différence, ce qui rend la tâche encore plus difficile.
pour qu'on puisse forcer les marques initiales, passer en revue les variantes.
sont juste les cibles/classes connues. Le reste des données sans eux
C'est comme définir la bonne direction de recherche.))
Ces étiquettes sont censées avoir une certaine signification. Par exemple, les étiquettes qui indiquent qu'il s'agit de chats ou de crocodiles.
Dans notre cas, nous n'avons aucune idée de l'endroit où se trouvent les chats. Autrement dit, nous ne connaissons aucun modèle et nous ne savons pas comment ils diffèrent, ce qui rend la tâche encore plus difficile.
pour qu'on puisse forcer les marques initiales, passer en revue les variantes.
Le forçage brutal complet est toujours préférable au forçage brutal incomplet. Le point sur le partitionnement incorrect a toujours été présent. Et la malédiction de la dimensionnalité n'est résolue que par une bonne orientation de la recherche. Il s'agit de trouver/déterminer la bonne zone pour rechercher des variantes.
J'ai essayé d'étendre l'idée de l'acceptabilité des petits échantillons pour le GMM. Entraînement 6 mois, test 5 ans. J'ai divisé les tags en n parties de taille fixe. Pour chaque partie, j'ai créé mon propre modèle GMM, généré 1000 échantillons de chacun, les ai empilés et entraîné le catbust. J'ai sélectionné les caractéristiques et j'ai obtenu ceci :
Deuxième version, mêmes étiquettes, avec le même cloisonnement, mais avec un pré-mélange :
X = X.sample(frac=1.0)
Dans les deux cas, une seule cible fixe a été utilisée. Je peux reproduire cette expérience si vous le souhaitez. Je ne suis pas doué pour interpréter de tels phénomènes, peut-être y a-t-il une explication.
J'ai essayé d'étendre l'idée de l'acceptabilité des petits échantillons pour le GMM. Entraînement 6 mois, test 5 ans. J'ai divisé les tags en n parties de taille fixe. Pour chaque partie, j'ai créé mon propre modèle GMM, généré 1000 échantillons de chacun, les ai empilés et entraîné le catbust. J'ai sélectionné les caractéristiques et j'ai obtenu ceci :
Deuxième version, mêmes étiquettes, avec le même cloisonnement, mais avec un pré-mélange :
Dans les deux cas, une seule cible fixe a été utilisée. Je peux reproduire cette expérience si vous le souhaitez. Je ne suis pas fort pour interpréter de tels phénomènes, peut-être y a-t-il une explication.
Désolé les gars, il y a une question.
Quel est le nombre de rapports de pondération dans vos grilles, et sur combien de métiers sont formés ?
Je veux comprendre la relation entre ces quantités et spéculer sur la dépendance du surentraînement à cette relation. Merci.
Ce mélange se fait-il avant le gmm ou avant le boost ? Vous devez vérifier l'équilibre des classes pour la formation/le test. Peut-être que les zéros sont allés au stage et les uns au test. Vous pouvez également essayer de faire des regroupements séparés par marques d'achat et de vente.
Le mélange est effectué avant de créer le GMM.
Avant cela, je laisse tomber les étiquettes par condition :
cela amène toujours l'équilibre de la classe à 1/1 avec de légères variations :
Dans ce cas, 115 étiquettes ont été mélangées et divisées en 4 parties. Ensuite, 4 GMM ont été créés sur cette base. Pour chacune d'elles, 1000 étiquettes ont été prélevées et combinées en un seul cadre de données. Dans l'étape suivante, il sera divisé en test et triple piste.
L'équilibre des classes d'échantillons était un peu différent de l'idéal. Mais les échantillons du train et du test avaient approximativement le même rapport
Voici les résultats de la simulation avec le même échantillon de 115 étiquettes divisé en 4 parties, mais sans mélange. L'équilibre des classes est bien sûr un peu meilleur, mais je ne pense pas que cela affecte les résultats de manière significative.
Cela peut paraître idiot, mais je pense qu'il y a une sorte de corrélation temporelle dans la série que les modèles GMM trouvent à différents moments de la série. Il disparaît si vous brisez l'ordre en mélangeant la rangée.
Je n'avais pas pensé au clustering séparé, je vais essayer ce soir.
L'agitation est faite avant de créer le MGM.
Avant cela, il faut laisser tomber les étiquettes par condition :
cela amène toujours l'équilibre de la classe à 1/1 avec de légères variations :
Dans ce cas, 115 étiquettes ont été mélangées et divisées en 4 parties. Ensuite, 4 GMM ont été créés sur cette base. Pour chacune d'elles, 1000 étiquettes ont été prélevées et combinées en un seul cadre de données. Dans l'étape suivante, il sera divisé en test et triple piste.
L'équilibre des classes d'échantillons était un peu différent de l'idéal. Mais les échantillons du train et du test avaient approximativement le même rapport
Voici les résultats de la simulation avec le même échantillon de 115 étiquettes divisé en 4 parties, mais sans mélange. L'équilibre des classes est bien sûr un peu meilleur, mais je ne pense pas que cela affecte les résultats de manière significative.
Cela peut paraître idiot, mais je pense qu'il y a une sorte de corrélation temporelle dans la série que les modèles GMM trouvent à différents moments de la série. Il disparaît si vous brisez l'ordre en mélangeant la rangée.
Je n'ai pas pensé au regroupement séparé, je vais essayer ce soir.
Je vais devoir le dessiner, ce n'est pas très clair... Eh bien, c'est un fait que les distributions sont différentes dans les deux cas. De plus, vous avez déjà supprimé la sérialisation. Il est fort probable que les distributions s'avèrent très peu informatives, et que les nouveaux points après l'échantillonnage commencent à se trouver à un endroit peu clair. C'est-à-dire que l'information de la série est perdue, oui, car les citations ne sont pas indépendantes.
Ou bien faites-le sur un exemple simple (pas de devis) et comparez ensuite.
Je vais devoir dessiner, ce n'est pas très clair... Eh bien, c'est un fait que les distributions sont différentes dans les deux cas. De plus, vous avez déjà supprimé la série. Il est fort probable que les distributions s'avèrent très peu informatives, et que les nouveaux points après l'échantillonnage se trouvent à un endroit peu clair. C'est-à-dire que l'information dans la série est perdue, oui, car les citations ne sont pas indépendantes.
Ou bien faites-le sur un exemple simple (pas de devis) et comparez ensuite.
Maxim, salut. Ça fait longtemps que je ne suis pas venu ici... J'ai essayé de m'en occuper et je me pose beaucoup de questions))). Je suppose que le MARKUP est un spread ? Le balisage est une simple comparaison de la valeur actuelle avec la valeur actuelle + un nombre aléatoire, selon le signe > ou < vous mettez un balisage 1 ou 0. n'est-ce pas ? Pour un test, vous mettez markup=0.0 ? (si le plateau MARKUP=0.00001 je pense))) n'est-ce pas ?
Maxim, salut, ça fait longtemps que je ne suis pas venu ici... J'essaie de le comprendre, et j'ai beaucoup de questions))) Je suppose que le MARKUP est un spread ? Le balisage est une simple comparaison de la valeur actuelle avec la valeur actuelle + un nombre aléatoire, selon le signe > ou < vous mettez un balisage 1 ou 0. n'est-ce pas ? Pour un test, vous mettez markup=0.0 ? (pour le plateau, je pense que MARKUP=0.00001)) n'est-ce pas ?
Salut. Oui, c'est vrai. Le même balisage est utilisé dans le testeur. En ce qui concerne les articles, il est probablement préférable de poser la question dans les articles. Pour avoir en un seul endroit.
J'analyse les réactions et vois ce qui peut être amélioré