L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 2730

 
Aleksey Nikolayev #:

Ici, vous parlez apparemment d'échantillons multivariés (chaque élément est une ligne d'un tableau, un vecteur), alors que les critères d'homogénéité dans vos trois liens concernent des échantillons numériques. Les critères d'homogénéité multivariés dans matstat sont un morceau à part et ne sont pas tout à fait clairs pour moi.

Chaque prédicteur pris séparément est un échantillon numérique, alors pourquoi ne pas les évaluer séparément et faire la moyenne des résultats ? S'il existe une dynamique de détérioration dans la plupart des prédicteurs, l'échantillon est redondant.

Aleksey Nikolayev #:

Cela ressemble à la tâche de recherche de nombreux points de changement pour la détection. Une fois de plus, il s'avère que nous devons travailler avec un cas multivarié (vectoriel), ce qui complique beaucoup les choses.

D'une manière générale, je n'aime pas la dépendance à l'égard des attributs choisis pour l'étude. Si nous prenons des ensembles différents d'attributs, les résultats peuvent différer.

Peut-être devrions-nous trouver les variantes qui donneront les meilleurs résultats en termes d'identification de l'appartenance des segments à un groupe particulier et d'efficacité de la formation sur une population groupée.

 
Aleksey Vyazmikin #:

Vous ne pouvez mélanger qu'au sein d'un échantillon, si vous mélangez deux échantillons, vous niez que le marché est en train de changer.

Ne voyez-vous pas à nouveau la logique ?
Il est inutile de comparer des séries pour déterminer la longueur optimale de l'échantillon d'entraînement, car le marché change

Vous pouvez les mélanger à tout moment, cela ne changera rien.
 
Maxim Dmitrievsky #:
Ne voyez-vous pas à nouveau la logique ?
Il est inutile de comparer des séries pour déterminer la longueur optimale de l'échantillon d'entraînement, car le marché change.

Vous pouvez mélanger à tout moment, cela ne changera rien.

Comment prouver que le marché change ? Combien de temps dure ce processus ? Ou bien change-t-il constamment ?

 
Aleksey Vyazmikin #:

Comment prouver l'évolutivité du marché ? Combien de temps dure ce processus ? Ou bien est-il en constante évolution ?

Voilà, le délicieux argumentaire est lancé.
Non-stationnarité au minimum. En constante évolution, s'arrêtant parfois pour une pause cigarette.
 
Maxim Dmitrievsky #:
Ça y est, le délicieux argumentateur est en marche.
Pour le moins instable. En constante évolution, s'arrêtant parfois pour une pause cigarette.

Et quelle taille d'échantillon faut-il prendre pour déterminer la stationnarité/non-stationnarité ?

Selon vous, une tendance ne vit pas plus longtemps que la durée de vie de la variation de l'échantillon, mais que se passe-t-il si j'ai une tendance dans mon échantillon qui se répète pendant 8 ans ? S'agit-il d'une anomalie, ou bien les modèles ne changent pas tous, ou encore les modèles identifiés dans une petite zone sont erronés et dus à d'autres facteurs ?

 
Aleksey Vyazmikin #:

Chaque prédicteur pris individuellement est un échantillon numérique, alors pourquoi ne pas les estimer individuellement et faire la moyenne des résultats ?

Cela ne fonctionne que dans le cas de caractéristiques indépendantes, et comme elles sont comptées au même prix, ce n'est pas possible. Dans le cas d'une dépendance, tout est beaucoup plus compliqué - nous pouvons prendre l'exemple des copules, dont les distributions univariées sont toujours uniformes, mais dont les distributions bivariées peuvent être très différentes.

Aleksey Vyazmikin #:

Peut-être devrions-nous trouver les variantes qui donneront les meilleurs résultats en termes d'identification de l'appartenance des segments à un groupe particulier et d'efficacité de l'entraînement sur une population groupée.

Nous devrons ajouter (à la quantité déjà considérable d'énumération) l'énumération par types de caractéristiques et, probablement, par paramètres de caractéristiques.

Néanmoins, il me semble qu'il y a un grain de rationalité dans votre approche, il y a là matière à réflexion.

 
Aleksey Vyazmikin #:

N'ai-je pas écrit que l'idée est de comparer des échantillons (formation et application), que si votre théorie est correcte, l'échantillon cessera d'être similaire à mesure qu'il augmente, et que pour comprendre cela, nous avons besoin de critères pour évaluer ce changement, qui sont dérivés des méthodes d'évaluation de la similarité ?

Peut-être qu'au lieu d'utiliser des critères statistiques d'homogénéité de l'échantillon, vous devriez simplement observer l'évolution de l'importance des caractéristiques du modèle dans la dynamique (dans une fenêtre glissante).

S'il existe un écart important entre l'état actuel et l'état précédent, cela signifie que nous nous trouvons déjà dans un échantillon différent.....

Avantages
1. il n'est pas nécessaire de programmer des tests stat. Tests, tout est prêt à l'emploi.
2. Il prend en compte non seulement le changement dans le temps de l'échantillon, mais aussi le changement dans l'échantillon cible, ce qui, à mon avis, n'est pas moins important.

 
Aleksey Vyazmikin #:

Et quelle taille d'échantillon faut-il prendre pour déterminer la stationnarité/non-stationnarité ?

Selon vous, une tendance ne vit pas plus longtemps que la durée de vie d'un changement d'échantillon, mais que se passe-t-il si j'ai une tendance dans mon échantillon qui se répète pendant 8 ans ? S'agit-il d'une anomalie, ou bien les modèles ne changent-ils pas tous, ou encore les modèles identifiés dans une petite zone sont-ils erronés et dus à d'autres facteurs ?

Je dirais que ce n'est pas plus que la durée de vie d'une tendance particulière sur une échelle de temps arbitraire
Mais il s'agit d'une description vague.

Du point au point de bifurcation.
 

Modèles différents mais similaires, différents et non similaires, en quoi diffèrent-ils ? Le point de bifurcation ne conduira pas nécessairement à un changement de modèle, il est possible de marquer visuellement les mêmes zones manuellement, mais il n'y a pas de partie prédictive à la fin, le but est de trouver la longueur minimale de l'échantillon, qui confirme l'état ou la conformité du modèle.

Complexité du modèle, il y a bien sûr une contradiction : un modèle simple ne décrira pas une section suffisamment longue et nécessaire, mais sera répété ; un modèle complexe peut décrire une section suffisamment longue et nécessaire, mais peut être unique. Comme toujours, il faut trouver un juste milieu))))))

 
Valeriy Yastremskiy trouver la longueur minimale de l'échantillon qui confirme l'état ou l'ajustement du modèle.

Complexité du modèle, ici aussi il y a bien sûr une contradiction, un modèle simple ne décrira pas une section suffisamment longue et nécessaire, mais sera répété, un modèle complexe peut décrire une section suffisamment longue et nécessaire, mais peut être unique. Comme toujours, une solution intermédiaire est nécessaire))))))

En général, les différents modèles diffèrent dans leurs implémentations de l'aléatoire ) et sont similaires pour la même raison

En particulier lorsque des dizaines et des centaines de caractéristiques sont utilisées. Certaines d'entre elles fonctionnent sur l'avant, d'autres non. Mais il n'existe aucun moyen de les sélectionner.

On ne peut les sélectionner qu'à l'aide d'une bonne usine à alcool, comme suggéré plus haut.
Raison: