L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 1308

 
elibrarius:

Les ISO ne sont pas publiées pour tout). Dans ce cas, vous pourriez être guidé par ce que les pactes du ministère de la Défense appellent la 2e section.

Dans le catbust que vous utilisez, même s'il est indiqué test, il est écrit dans l'explication qu'il est utilisé pour la validation. Dans d'autres paquets XGBoost, Darch - ils écrivent la validation.

Au départ, il y avait un ensemble de test et d'apprentissage, la méthode de validation croisée est apparue et un tel échantillon a été appelé échantillon de validation (il est en fait utilisé pour la formation croisée et le test). Il existe maintenant un boosting, qui a besoin d'un échantillon pour arrêter la formation - on l'appelle un échantillon de test, et c'est une validation en raison de son utilisation pour tester les résultats de la formation, mais il n'y a pas de formation sur lui, contrairement à la validation croisée.

Ce que je veux dire, c'est que l'échantillonnage peut être utilisé différemment selon les méthodes de formation. La validation est plus une action qu'un type d'échantillonnage...

 
Vladimir Perervenko:

L'ensemble de validation est impliqué dans la formation. Il est utilisé pour définir les paramètres du modèle pendant la formation. Certains paquets ne nécessitent pas d'ensemble de validation, dans ce cas l'ensemble d'apprentissage est divisé en train/valide dans une certaine proportion dans la fonction fit(). Mais il est préférable de le spécifier vous-même.

La suite de tests est utilisée pour vérifier la qualité du modèle formé et ces données ne devraient pas être vues par le modèle pendant la formation.

Il s'agit donc de choses différentes, mais il ne faut pas se tromper.

Bonne chance

Ok, ainsi soit-il. Je n'ai pas de statistiques sur les déclarations de cent personnes participant à la création de différentes méthodes de RI, il n'y a pas de désir de contestation, car initialement j'ai parlé de la façon dont il est pratique pour moi de diviser les concepts dans mon esprit, et si ce n'est pas pratique pour les autres, alors laissez-moi rester seul avec mes concepts.

 
Aleksey Vyazmikin:

OK, ainsi soit-il. Je n'ai aucune statistique sur les déclarations de centaines de personnes impliquées dans la création de différentes méthodes de MO, aucun désir d'argumenter, puisque j'ai parlé à l'origine du fait que je suis à l'aise pour diviser les concepts dans mon esprit, et si d'autres ne sont pas à l'aise avec cela, alors laissez-moi être seul avec mes concepts.

Oui, le sujet est déjà assez spammé, et maintenant chacun doit inventer sa propre terminologie :)

Bien que spécifiquement sur le nom des échantillons de données, je pense qu'il n'y a pas lieu de discuter car il existe toutes sortes de méthodes pour leur formation et leur utilisation, et l'essentiel, IMHO, reste un seul fait - que ces données aient participé (In-Sample) ou non (Out-Of-Sample), au processus d'apprentissage.
Parce que tous les échantillons IS sont utilisés d'une manière ou d'une autre pour ajuster le modèle, et OOS uniquement pour évaluer sa qualité.


Et pour être sans ambiguïté, je pense qu'il serait logique de présenter les résultats sous la forme habituelle du testeur, où tous les échantillons qui ont été utilisés dans la formation - IS à représenter comme un backtest, et OOS comme un forward.

 
Ivan Negreshniy:

Oui, le sujet est déjà assez encombré, et maintenant chacun doit inventer sa propre terminologie :)

Bien que spécifiquement sur le nom des échantillons de données, je pense qu'il n'y a pas lieu de polémiquer car il existe toutes sortes de méthodes pour leur formation et leur utilisation, et l'essentiel, IMHO, reste un seul fait - que ces données aient ou non participé (In-Sample), au processus d'apprentissage (Out-Of-Sample).
Parce que tous les échantillons IS sont utilisés d'une manière ou d'une autre pour ajuster le modèle, et OOS uniquement pour évaluer sa qualité.


Et pour une bonne compréhension, je pense qu'il serait logique de présenter les résultats sous une forme familière pour le testeur, où tous les échantillons qui ont été utilisés dans la formation - IS devraient être présentés comme un backtest, et OOS comme un forward.


Il est préférable de montrer des graphiques séparés, parce que l'échantillon qui n'a pas participé à la formation est généralement beaucoup plus petit que celui qui a participé et visuellement rien n'est clair sur un graphique aussi brisé, c'est pour moi personnellement.

 
À propos, Catbust dispose de la validation croisée - il n'a donc pas besoin de la clé "test", mais utilise un seul échantillon, qui est décomposé de différentes manières.
 
Aleksey Vyazmikin:
Au fait, Catbust dispose d'une validation croisée - il n'a donc pas besoin de la clé "test", mais utilise un seul échantillon qui est décomposé de différentes manières.

Les scientifiques travaillent avec de telles choses, mais ils ne comprennent pas ce qui se passe dans les réseaux neuronaux, et encore moins dans les forêts, comment et pourquoi les choses sont exactement comme elles sont, où les choses changent à quel moment et pourquoi, nous ne pouvons que faire confiance à leur autorité et appliquer leurs modèles, en faisant confiance à une puissance supérieure.

 
Kesha Rutov:

Les scientifiques travaillent avec de telles choses, mais ils ne comprennent pas ce qui se passe dans les réseaux neuronaux, sans parler des forêts, comment et pourquoi les choses sont comme elles sont, où les choses changent à quel moment et pourquoi, nous devons seulement faire confiance à leur autorité et appliquer leurs modèles, en faisant confiance à une puissance supérieure.

Forêts/arbres dont vous n'avez manifestement pas eu affaire. Leurs solutions sont facilement interprétables par les humains. N'importe quel article de base sur l'algorithme des arbres vous l'expliquerait en quelques pages.
 
Aleksey Vyazmikin:

OK, ainsi soit-il. Je n'ai aucune statistique sur les déclarations de centaines d'individus impliqués dans la création de différentes méthodes de MdD, aucune envie d'argumenter, car j'ai parlé à l'origine du fait que je suis à l'aise pour séparer les concepts dans mon esprit, et si d'autres ne sont pas à l'aise, alors laissez-moi être seul avec mes concepts.

L'entêtement a une signification proche de l'obstination. J'espère qu'ils vous aideront à réussir la mise en œuvre de vos idées dans le MO. Ce sont des qualités utiles pour les chercheurs. ;-)

PS J'ai pensé à un nom pour votre système de sélection des feuilles : "Herbarium" - ajoutez à votre collection des méthodes provenant d'arbres, de forêts, de souches, de jungles.
 
elibrarius:

PS : J'ai pensé à un nom pour votre système de sélection des feuilles : "Herbarium" - ajoutez à votre collection des méthodes provenant des arbres, des forêts, des souches, des jungles.

))) Je l'appellerais Lumberjack ou Sawmill.

 
Kesha Rutov:

Les scientifiques travaillent avec de telles choses, mais ils ne comprennent pas ce qui se passe dans les réseaux neuronaux, et encore moins dans les forêts, comment et pour quelle raison tout est exactement comme il est, où ce qui change à quel moment et pourquoi, nous ne pouvons que faire confiance à leur autorité et appliquer leurs modèles, en faisant confiance à une puissance supérieure.

Je suis en partie d'accord, nous sommes à l'ère de l'informatique rapide, et si les gens avaient l'habitude de faire des calculs sur papier avant d'avoir accès à un ordinateur, aujourd'hui le volume d'informations et les méthodes de traitement sont si importants qu'il est souvent plus approprié de se concentrer sur le résultat plutôt que sur le processus.

Raison: