Statistiques de dépendance entre guillemets (théorie de l'information, corrélation et autres méthodes de sélection de caractéristiques) - page 19

 
Candid:

Vous n'avez pas besoin de commenter, vous devez essayer de répondre à mes questions. Je vais vous dire un secret : ils sont conçus pour que vous compreniez quelque chose en essayant d'y répondre).

J'ai lu la discussion, d'ailleurs, voulez-vous sérieusement discuter d'un mélange de mouches et d'escalopes sur 17 pages ?

Ai-je raison de deviner comment vous appelez ces deux processus ?

Je ne sais pas où, à la page 17, vous avez vu un mélange d'escalopes et de mouches. C'est apparu plus tôt...

Pour ce qui est de la compréhension, je vous recommande de regarder le tableau d'Alexey et de répondre à la question suivante : sous l'hypothèse de quelle distribution théorique est-il construit ?

;)

 

et les deux processus sont théoriques (l'hypothèse nulle) et réels.

Il faudrait que tu le saches.

 
joo:

Je ne comprends pas la moitié des mots de ce fil, mais même moi j'ai compris que les distributions n'ont rien à voir avec ça.

La distribution d'un processus, dans lequel il existe des dépendances entre les comptes individuels, ne doit pas nécessairement être uniforme ou normale. C'est évident.

Exemple : les poèmes de Pouchkine. Si le texte mentionne les mots "chêne" et "chaîne", alors quelque part à côté il y a "chat". Cette relation entre les mots n'a rien à voir avec la distribution du mot "tom", ou de tout autre mot, dans les paragraphes.

Vous savez combien il est primitif de vérifier l'authenticité d'un auteur ?

C'est ainsi que par la fréquence des combinaisons "dub-chain-cat" des textes de "référence" et du vérifié - faire une conclusion.

Parce qu'il y a toujours une base de comparaison.

Mais ici, je ne comprends pas ce qui est comparé à quoi ?

Où est la fréquence théorique. Ou plutôt à qui appartient-elle ?

Peut-être que Candid a raison et qu'il nous suffit d'émigrer en Grèce, et tout se mettra en place ?

;)

 
avatara:

Je ne sais pas où vous avez vu un mélange d'escalopes et de mouches à la page 17. C 'était là avant...

C'est encore le problème avec les fins, 17 pages se sont transformées en page 17. Voulez-vous relire ces 17 pages à la recherche d'autres "fautes de frappe" de perception ?
et les deux processus sont théorique (hypothèse nulle) et réel
En fait, mon premier message citait le créateur du sujet, il serait plus logique de supposer que je faisais référence à sa version en premier lieu. Surtout que lui, contrairement à Alexey, l'a décrit en détail. Mais je ne suis pas sûr que l'identification des hypothèses aux processus contribue à la clarté de la présentation.
Pour ce qui est de la compréhension - je recommande de regarder le tableau Alexey, et de répondre - sous l'hypothèse de quelle distribution théorique est-il construit ?

Franchement, je ne sais pas. Je me baserais sur une distribution empirique.
 
avatara:

et les deux processus sont théoriques (l'hypothèse nulle) et réels.

Vous devez savoir.

Non, c'est faux. J'interprète ce critère. Il a les mêmes statistiques, d'ailleurs. Il s'applique simplement à d'autres quantités.

Maintenant, pour les deux variables dont l'indépendance est testée. Dans le tableau des blocs que j'ai publié, il s'agit des rendements de deux barres espacées de 310 barres (309 barres entre elles). Les statistiques sont vérifiées sur l'ensemble de la population de ces paires de barres dans l'histoire. S'il y a 60000 barres dans l'historique, alors il y a 59690=60000-310 paires de barres.

La barre qui se trouve plus loin dans le passé est la source du S . Sa barre appariée plus proche du présent est le récepteur R . Les retours S et R sont les valeurs dont l'indépendance est vérifiée. Plus précisément, pas les rendements eux-mêmes, mais les quantiles dans lesquels ils se situent. La raison pour laquelle la division par les quantiles a été expliquée plus haut : pour faire fonctionner le chi-carré (fréquences d'au moins 10).

Quant au bœuf comme source principale du phénomène, je vais y réfléchir. Quelque chose n'est pas si simple ici... Mais la suggestion de Candid est judicieuse pour le tester (retirer le boeuf).

 

J'ai jeté un coup d'œil rapide à l'article de l'auteur. Je soupçonne que l'auteur n'a pas trouvé de corrélation entre les variables barre actuelle <-> barre passée, mais seulement le fait de regrouper la volatilité. Bien sûr, même sur cette base, le graphique est intéressant, car une corrélation fiable de la volatilité jusqu'à 50-60 décalages est quelque chose de nouveau. Naturellement, lorsque l'on mélange les données à l'aide de la méthode de Monte Carlo, le regroupement s'effondre, ce qui est évident dans les graphiques.

Pour comprendre ce qui a été trouvé, il est nécessaire de tester la formule proposée sur des distributions non normales et manifestement indépendantes, en particulier sur la GARCH(1,1) classique ou mieux encore, sur la GARCH(3,3) ; Si la dépendance peut être trouvée sur elle aussi, la formule n'apporte rien de nouveau, elle définit simplement un cas particulier de Martingale utilisant une autre méthode.

Si l'auteur le souhaite, je peux lui fournir des returnees GARCH synthétiques.

 

Merci. Donnez-moi des données artificielles, je les testerai ce week-end.

Quant à la formule, oui, elle n'a rien de particulièrement merveilleux, c'est une analyse stochastique sous un angle différent.

En ce qui concerne la volatilité, beaucoup de choses ont déjà été dites ici et je suis d'accord avec les points de vue. Mais le nombre de retards sur lesquels les variables indépendantes portent l'information sur la volatilité pour la barre zéro est vraiment clairement indiqué. Et la profondeur du décalage est différente pour les différents instruments financiers tout en maintenant la pertinence de l'information.

 
Je pense généralement que si vous ne pouvez pas prédire les rendements sur la base des rendements passés, il y a toujours, pour moi personnellement, la possibilité de revenir au problème de la sélection des variables indépendantes (divers indicateurs) pour la prédiction. Le sujet s'appelle la sélection des caractéristiques, et je serais heureux de discuter d'autres méthodes, comme l'analyse en composantes principales, l'utilisation de NS avec la mémoire auto-associative, l'analyse des réseaux formés ( poids), l'analyse en grappes, le chi-carré, il y a aussi l'exposant de Lipschitz (correction : constant). En somme, les gens, c'est un grand sujet...
 
C-4: Bien sûr, même sur cette base, le graphique est intéressant, car une corrélation de volatilité confiante à 50-60 décalages est quelque chose de nouveau.

Merci de l'avoir remarqué. C'est ce qui est si alarmant. Probablement, oui, le vola explique une partie importante du phénomène, mais il ne semble pas en expliquer la totalité. Et sur la montre, cette corrélation remonte encore plus loin... des centaines des barres profondes.

Soit dit en passant, il y a beaucoup moins de corrélations sur les jours que sur H4, qui, à leur tour, ont beaucoup moins de corrélations que sur H1.

 
Mathemat:

Merci de l'avoir remarqué. C'est ce qui est si alarmant. Probablement, oui, le vola explique une partie importante du phénomène, mais il ne semble pas en expliquer la totalité. Et sur la montre, cette corrélation s'étend encore plus loin. des centaines des barres profondes.

Soit dit en passant, il y a beaucoup moins de corrélations sur les jours que sur H4, qui, à leur tour, ont beaucoup moins de corrélations que sur H1.


S'il s'agit à nouveau de la volatilité, elle peut très bien s'expliquer par une cyclicité claire en fonction du moment de la journée :

Il ne faut pas être Einstein pour remarquer, même à l'œil nu, le regroupement des bœufs autour de 16h30. Par conséquent, à l'échelle intrajournalière, ces "corrélations" sont naturellement beaucoup plus précises. Et bien sûr, cela ne nous apporte rien de toute façon. Nous savons juste que de forts mouvements se produisent à 16h30 (comme nous pouvons le voir sur le graphique), causés par des flux entrants de volatilité, mais nous ne connaissons toujours pas la direction du mouvement ou ses cibles.

Comme promis, je colle une synthèse - GARCH(1,1) avec les paramètres standards proposés par MathLab : garchset('P',1, 'Q',1, 'C', 0.0001, 'K', 0.00005, 'GARCH', 0.8, 'ARCH', 0.1) ; Je n'ai pas réussi à faire GARCH(3,3) ou même plus - je connais mal le programme et un simple changement de 'P',1, 'Q',1 à 'P',3, 'Q',3 n'a pas fonctionné. La série contient 10 000 tests, ce qui, je pense, sera suffisant. Voici son graphique de prix :

Il serait également intéressant de générer un SB basé sur les données de volatilité horaire du même EURUSD. Il aura le même caractère de volatilité que l'EURUSD, mais le graphique lui-même sera composé de 100% de bruit. S'il détecte la dépendance, cela signifie que la méthode n'est pas adaptée à la prévision des prix, mais s'il ne révèle pas la dépendance, nous assisterons à la naissance d'un nouvel indicateur, capable de déterminer si nous avons affaire à des synthétiques absconses et insensées ou au marché réel.

Dossiers :
garch.zip  91 kb