Régression bayésienne - Est-ce que quelqu'un a fait un EA en utilisant cet algorithme ? - page 35

 

Quoi, pas assez encore ????

Eh bien, pour plus :

Dépendante : AUDNZD Multiple R = .83469441 F = 3845.556

R?= .69671476 df = 1.1674

Nombre de cas : 1676 R?ajusté = .69653358 p = .000000

Erreur standard de l'estimation : .053321255

Intercept : 6.047516031 Erreur standard : .0782142 t( 1674) = 77.320 p = 0.0000


 

Contrôle à la tête :

Dépendante : NZDCAD Multiple R = .87619213 F = 5532.591

R?= .76771265 df = 1.1674

Nombre de cas : 1676 R?ajusté = .76757389 p = .000000

Erreur standard de l'estimation : .032035522

Intercept : -2.664033151 Std.Error : .0469913 t( 1674) = -56.69 p = 0.0000


 
Дмитрий:

Le R^2 est-il déjà "très faible" ?

Y a-t-il une corrélation ?

La corrélation est indétectable. R est faible. Il se trouve que j'utilise très activement le R2 pour évaluer la qualité des actions de mes stratégies et croyez-moi, j'ai vu des centaines de graphiques où le R2 était similaire à ce qu'il est présenté ici. Celui-là est tout à fait minuscule, impossible à distinguer de SB.

 
Vasiliy Sokolov:

La relation est indétectable. R est faible. Il se trouve que je suis moi-même très actif dans l'utilisation du R2 pour évaluer la qualité des actions de mes stratégies, et croyez-moi, j'ai vu des centaines de graphiques dont le R2 était à peu près ce qu'il est présenté ici. Celui-là est tout à fait minuscule, impossible à distinguer de SB.

))))))))))))))))))))))))))0
 

Je me souviens avoir fait la chose suivante dans R-project : générer un millier de trajectoires de marché aléatoires, avec un millier de mesures chacune. Puis j'ai fait une régression linéaire sur chacun d'entre eux et j'ai obtenu son R^2. En conséquence, le vecteur résultant des valeurs R^2 s'est avéré être une valeur uniformément distribuée de zéro à 0,99... Avec une moyenne d'environ 0,5. Je suggère à chacun de répéter mon résultat, et de réfléchir à l'essence de ce que nous comptons.

s.w. Dommage que je n'ai pas R ou ces codes sous la main, sinon une image vaudrait mille mots...

 
Vasiliy Sokolov:
Je me souviens avoir fait une telle chose dans R-project : j'ai généré un millier de trajectoires de marché aléatoires, avec un millier de mesures chacune. Puis j'ai fait une régression linéaire sur chacun d'entre eux et j'ai obtenu son R^2. En conséquence, le vecteur résultant des valeurs R^2 s'est avéré être une valeur uniformément distribuée de zéro à 0,99... Avec une moyenne d'environ 0,5. J'invite tout le monde à répéter mon résultat, et à réfléchir à l'essence de ce que nous comptons.

И ?

Quel est l'intérêt de ce qui est écrit ? Que l'analyse de régression ne devrait pas être utilisée au motif qu'une série de PRNG parmi le nième nombre de séries générées peut présenter un grand R^2 ?

Il est donc nécessaire de rejeter toutes les méthodes de matstatique et de prédiction.

 
Vasiliy Sokolov:

Je suis étonné du haut niveau de maîtrise des méthodes mathématiques par les panélistes et de leur manque total de compréhension des principes de leur applicabilité. Toutes les analyses de régression ont corrélé les données. S'il n'y a pas de corrélation, la régression n'est pas applicable. Si la distribution des quantités étudiées est différente de la normale, les méthodes statistiques paramétriques ne sont pas non plus applicables. Le marché n'a pas la propriété de la normalité. De plus, le marché en tant que processus ne dépend pas du temps. Tous deux rayent l'idée même d'une analyse de régression, quelle qu'elle soit à la base.

Le problème est que de nombreux participants, dont vous, ne comprennent pas la régression et utilisent des définitions obscures. Il n'y a pas de limite à la distribution des erreurs dans une définition correcte de l'analyse de régression. L'essentiel est que les erreurs soient statistiquement indépendantes les unes des autres pour que l'erreur de régression totale puisse être représentée comme la somme des fonctions des erreurs individuelles. Tout le reste n'est que des cas particuliers de régression. Par exemple, l'exigence de normalité des erreurs ne s'applique qu'à la régression RMS, c'est-à-dire lorsque l'erreur de régression totale est représentée comme la somme des carrés des erreurs individuelles. Il s'agit de la méthode de régression la plus simple, qui conduit à la résolution d'un système d'équations linéaires. Si vous ne voulez pas supposer la normalité des erreurs, utilisez toute autre distribution. Au lieu de la somme des carrés, l'erreur totale sera représentée par la somme d'une autre fonction des erreurs individuelles.

Laissez-moi essayer de l'expliquer de cette façon. Supposons que nous ayons des mesures y et des données d'entrée x. Traçons y sur x. Les points de y(x) forment un certain nuage. Si ce nuage est circulaire avec une densité uniforme de points dans toutes les directions, alors on aura beau tourner et retourner la distribution des erreurs, le modèle y(x) n'existe pas puisque y et x sont indépendants. Si ce nuage s'étend dans une certaine direction, alors nous pouvons construire un modèle. Dans ce cas, nous avons plusieurs choix de modèles :

1. Construire un y_mod(x) linéaire = a + b*x ou un y_mod(x) non linéaire = F(x) = exemple = a0 + a1*x + a2*x^2 +... modèles.

2. En supposant l'indépendance des erreurs de mesure e[i] = y[i] - y_mod[i], nous supposons leur normalité err_sum = SUM e[i]^2, ou leur non-normalité err_sum = SUM G(e[i]) où G() est une fonction "non carrée" quelconque, par exemple G(e) = |e|, ou dans le cas général G(e) = |e|^p. On peut s'amuser à faire une fonction d'erreur où l'on donne plus de poids aux valeurs négatives de y[i], par exemple. Quel que soit notre choix, G(e) n'affecte pas la prévisibilité de y en fonction de x. Cela n'affecte que la façon dont nous traçons une ligne droite à travers le nuage y(x). Par exemple, si G(e) = e^10, alors cette ligne droite se situera plus près des grandes valeurs de y.

Le choix d'un linéaire y_mod(x) = a + b*x ou d'un polynôme y_mod(x) = a0 + a1*x + a2*x^2 +... dépend de la forme de notre nuage allongé. Dans les deux cas, nous pouvons utiliser la régression par la moyenne carrée, ce qui conduira à un système d'équations linéaires qui sera résolu rapidement.

Parlons maintenant du temps. Si y(t) et x(t) dépendent du temps, ce qui arrive dans presque tous les cas de régression puisque les mesures sont effectuées à différents moments, cela ne change rien à l'affaire. Nous pouvons toujours parler de régression y(t) = F(x(t)). Si la fonction y(t) = F(x(t)) dépend du temps, c'est-à-dire y(t) = F(x(t),t), la régression statique y=F(x) sur tout l'intervalle de temps n'est pas applicable. Un modèle dynamique y=F(x,t) doit être utilisé.

 
Vladimir:
Selon les recherches d'un mathématicien (je ne me souviens plus de son nom de famille, il travaille pour la FINAM), la distribution est proche de la normale avec des queues allongées (mais on comprend pourquoi). Donc la régression linéaire, à mon avis, domine.
 
Yuriy Asaulenko:
Selon les recherches d'un mathématicien (je ne me souviens plus de son nom de famille, il travaille pour la FINAM), la distribution est proche de la normale avec des queues allongées (mais on comprend pourquoi). Donc, la régression linéaire, à mon avis, est assez bonne.
J'ai essayé de nombreuses distributions d'erreurs différentes. Je n'ai pas remarqué de différence particulière dans les résultats, mais le temps de calcul augmente sensiblement. C'est pourquoi j'utilise la régression par la racine carrée. J'ai peur de l'appeler linéaire, car la fonction y(x) peut être non linéaire par rapport à la variable x, mais linéaire par rapport aux coefficients du modèle. Dans ce cas, la régression par la moyenne des carrés permet d'accélérer considérablement les calculs. Au lieu de passer autant de temps sur les théories d'applicabilité de la normalité et de la régression, il est beaucoup plus important de parler de la préparation des données d'entrée, car je peux dessiner ce nuage y(x) ou le rendre circulaire par une simple transformation de l'entrée x et des mesures y. La façon dont nous traçons une ligne droite ou une parabole à travers ce nuage et dont nous calculons les erreurs de modélisation (carrés ou valeurs absolues) est une question secondaire.
 

Je fais appel aux sceptiques.

Mesdames et messieurs, mesdames et messieurs, camarades ! Il y a trop de sang dans votre système de circulation d'alcool. (C)

Que pouvez-vous modéliser mathématiquement sur R si vous n'avez pas décidé des questions conceptuelles pour la formule de Bayes : quel est le marché à droite de la barre de zéro. Et est-ce un marché ? Ou peut-être un bon simulateur de jeu avec un algorithme approprié ? Quelle distribution et quelle fonction de vraisemblance prendre ?

Le monde n'a pas connu une fin heureuse avec la distribution normale. Bayes était mort quand Gauss est né. J'ai proposé de prendre la distribution normale parce que vous, les sceptiques, l'avez montrée de manière convaincante. Et si vous, les sceptiques, dites que ça ne colle pas, que ça ne s'applique pas, alors proposez quelque chose qui le fasse, autre que ce qui est déjà proposé. Votre fonction de vraisemblance et votre loi de distribution peuvent être appliquées à la formule de Bayes, par exemple comme je l'ai décrit à la p.31 dans le post du 8 mars sous le bouquet. Et voir ce qui se passe.

Raison: