Statistiques de dépendance entre guillemets (théorie de l'information, corrélation et autres méthodes de sélection de caractéristiques) - page 2

 
alexeymosc:

Tout d'abord, la cyclicité ne se trouve pas sur le graphique journalier, mais sur le graphique horaire ! J'y ai écrit, d'ailleurs.

Et pour les graphiques journaliers, le résultat ne sera pas cyclique, vous avez raison.

Pardon, nous répétons pour le graphique horaire.

La carte originale pour 120 heures.

Je ne vois pas de caractère cyclique dans le graphique, la tendance est là. Vérifions la normalité :

Par Roast-Beru - pas normal du tout. Vérifiez l'ACF :

Il y a une tendance et pas de cyclicité - résultat différent.

S'il y a une tendance, il n'est pas nécessaire de faire une analyse statistique. Détrendons avec le même Hodrick :

Le résidu est un bruit blanc. Regardez les cycles qu'il contient :


Bien sûr, il y a une vague, mais elle n'est pas solide et pas du tout belle comparée à la vôtre. Je pense que toute la différence réside dans la désintermédiation. Sans la suppression des composantes détendues, il est impossible de faire des statistiques.

 
Vous faites quelque chose qui vous est propre. Aucun rapport avec ce que je fais)))) Commençons par le fait que je travaille avec une série d'incréments. Ensuite, si vous prenez les valeurs de cette série modulo (c'est-à-dire les plus et les moins) et construisez un autocorrélogramme, je parie que vous obtenez une belle cyclicité de période 24. C'est logiquement plus proche de mon activité.
 
Hier, j'ai ajouté un extrait sur la théorie de l'information à un article de Hubra. Il peut aider à comprendre le processus de recherche de variables importantes.
 
alexeymosc:
Tu fais quelque chose de ton côté. Aucun rapport avec ce que je fais)))) Commençons par le fait que je travaille avec un nombre d'incréments. Ensuite, si vous prenez les valeurs de cette série modulo (c'est-à-dire les plus et les moins) et construisez un autocorrélogramme, je parie que vous obtiendrez une belle cyclicité de période 24. C'est logiquement plus proche de mon activité.

Comme tu veux. Je calcule l'incrément comme la différence entre chaque incrément successif et le précédent. J'obtiens un graphique :

Pour ces incréments, je calcule l'ACF

Veuillez noter que la dernière colonne représente la probabilité d'absence de corrélation entre les barres.

Je prends le carré des incréments. Voici le graphique :

Ce sont les pics de volatilité, qu'est-ce que la cyclicité des paliers a à voir avec cela ? Peut-être le caractère cyclique de la volatilité ? C'est intéressant aussi. Vérifions le caractère cyclique de l'accrétion :

Eh bien, il n'y a pas de cyclicité ici, et notez la dernière colonne - probabilité extrêmement élevée d'absence de corrélation.

Deux autres chiffres sont intéressants. Vérifions la normalité des incréments :

Notez que selon Jarque-Bera, la probabilité de normalité est égale à zéro !

Quel genre de distribution est-ce ? J'aimerais que ce soit normal. J'ai toujours trouvé discutable l'idée de travailler avec des incréments dérivés de la différence entre le suivant et le précédent.

Enfin. Pour une raison quelconque, je n'arrive pas à obtenir votre résultat.

 

faa1947, vos calculs n'ont rien à voir avec le flux moyen d'informations dont parlait l'auteur du sujet. Vous traitez des données sur les 5 derniers jours, alors que le graphique d'Alexei est le résultat du traitement de données sur des montres sur une douzaine d'années. Celle d'Alexei est une statistique, tandis que la vôtre est un cas unique et isolé qui ne prouve rien dans le contexte de la discussion.

La périodicité montrée par le topicstarter n'a rien à voir directement avec la volatilité ou les rendements. Il ne s'agit pas d'une périodicité de prix, mais d' une in-forma-tsion-na-na. Sur l'axe des abscisses se trouve le décalage et sur l'axe des ordonnées l'information mutuelle moyenne en bits. Et l'autocorrélogramme a été mentionné par Alexey pour embrouiller tout le monde :) Ce n'est pas l'autocorrélation des rendements ! Nous n'en parlons pas du tout, car ces dépendances d'information sont évidemment non linéaires pour la plupart, et elles ne peuvent pas du tout être détectées par les rendements ACF.

As-tu lu attentivement l'article sur l'hubra ? Cela n'a rien à voir avec votre chère stationnarité, ni avec la normalité du flux de retour, ni même avec la périodicité conditionnelle de la volatilité. Bien sûr, il serait intéressant de vérifier la stationnarité ici aussi, mais ce serait d'un type très différent, en termes d'information (s'il y en a une).

2 Avals : J'ai bien peur de ne pas pouvoir trouver un historique de ticks profond pour tester directement votre hypothèse de volatilité. Oui, et les calculs ici seraient complètement fous en volume (ils sont déjà assez volumineux). Nous jugerons ce qui est trouvé par des tentatives de prédiction directe (si cela fonctionne, bien sûr ; il y a beaucoup, beaucoup de pièges).

 
Mathemat:

Celle d'Alexey est une statistique, tandis que la vôtre est un cas unique et isolé, qui ne prouve rien dans le contexte de la discussion.

Je veux juste noter que lorsque le nombre d'observations dépasse 30, les statistiques t convergent vers les statistiques z. C'est une grande nouvelle pour moi que de dire que 10000 observations sont nécessairement meilleures que 1000. Pour révéler une périodicité hebdomadaire pour des données horaires - vous avez besoin de plusieurs semaines en heures. Mais ce n'est pas la question.


La périodicité indiquée par le démarreur du sujet n'a rien à voir avec la volatilité ou les rendements. Ce n'est pas du tout une périodicité de prix, c'est une périodicité d' in-formations sur les formes.

La valeur méthodologique de l'approche est bien plus importante. Il est axiomatique pour moi que tout calcul mathématique doit avoir une interprétation économique qualitative. La périodicité de l'information est une formule qui révèle la périodicité des données, qui est par nature une relation incrémentale. Pour revenir en arrière, nous devons être en mesure de revenir à la série chronologique d'origine, de trouver ces endroits et de trouver une explication économique, c'est-à-dire que le retour aux prix est obligatoire, sinon ce n'est qu'une autre astuce mathématique. C'est pourquoi j'ai lié ce sujet aux cycles réguliers.
 
Mathemat: Ce n'est pas l'autocorrélation des rendements ! Nous n'en parlons pas du tout, car ces dépendances d'information sont évidemment non linéaires pour la plupart et ne sont pas du tout détectables par les rendements ACF.

En fait, les méthodes habituelles de la statistique mathématique ont été appliquées à la fin de l'article.

Je répare mon malentendu et prends le rapport des prix voisins.

Graphique du rapport des prix :

Vérifier la normalité

De manière surprenante, la normalité est strictement rejetée.

Nous traçons l'ACF - ce sont les dépendances entre les décalages + l'ACF partiel qui est nettoyé des dépendances dans l'ACF.

Notez la dernière colonne - très forte probabilité d'absence de dépendances.

J'ai une explication économique claire de ces images, bien étayée par le tableau des citations. Comment cela est-il confirmé sur les devis initiaux, quelle est la justification économique ? Sans réponse à ces questions, je ne peux pas comprendre le sens de la "dépendance de l'information".

 
La réponse la plus simple pour vous est. Vous utilisez l'autocorrélation, c'est-à-dire que vous ne recherchez que des dépendances linéaires. L'information mutuelle indique la présence de dépendances arbitraires, d'où vient toute la différence. De plus, j'ai expérimenté avec des échantillons statistiquement redondants de milliers et de dizaines de milliers d'incréments, et vous avez pris une semaine. Cette semaine pourrait être n'importe quoi, c'est un cas spécial. Il n'y a pas de signification dans vos résultats.
 
faa1947: La périodicité informationnelle est une formule qui révèle une périodicité dans des données qui sont par nature une relation incrémentale.

C'est fondamentalement faux. Il n'est pas question d'une quelconque périodicité dans les données comme une relation incrémentale.

La dépendance de l'information est révélée, ce qui ne doit pas du tout conduire à une périodicité du rapport des incréments. C'est l'intérêt du Data Mining, il permet d'identifier des structures qui ne sont pas à la surface.

Pour revenir en arrière, nous devons être en mesure de revenir à la série chronologique d'origine, de trouver ces endroits et de trouver une explication économique, c'est-à-dire que le retour aux prix est obligatoire, sinon ce n'est qu'une autre astuce mathématique. C'est pourquoi j'ai lié ce sujet aux cycles réguliers.

Oui, ils devraient, je ne discute pas. Il n'y a pas forcément d'explication économique. C'est suffisant pour revenir sur les prix. Mais votre lien entre ce phénomène et les cycles normaux est erroné. Je ne suis pas aveugle au point de ne pas remarquer l'absence de périodicité prononcée sur le graphique.

Alexey vous a déjà parlé de la différence entre les dépendances linéaires et non linéaires.

 
alexeymosc:
La réponse la plus simple pour vous. Vous utilisez l'autocorrélation, c'est-à-dire que vous recherchez exclusivement des dépendances linéaires. L'information mutuelle indique la présence de dépendances d'un type arbitraire, d'où toute la différence. De plus, j'ai expérimenté avec des échantillons statistiquement redondants de milliers et de dizaines de milliers d'incréments, et vous avez pris une semaine. Cette semaine pourrait être n'importe quoi, c'est un cas spécial. Il n'y a pas de signification dans vos résultats.

De plus, j'expérimentais avec des échantillons statistiquement redondants de milliers et de dizaines de milliers d'incréments, et vous avez pris une semaine. Cette semaine pourrait être n'importe quoi, c'est un cas spécial. Il n'y a pas de signification dans vos résultats.

Il me semble que l'augmentation de la taille de l'échantillon n' a d'intérêt que dans le cadre du théorème limite de convergence des probabilités vers la loi normale. Je tiens à vous décevoir : si nous ne nous fixons pas un tel objectif, le simple fait d'augmenter la taille de l'échantillon ne sert à rien. Je donne ci-dessous un exemple d'augmentation de 10 fois.

Le graphique des augmentations comme le rapport entre le prix suivant et le précédent :

Le carré de ce graphique :

Le graphique est un peu similaire au vôtre. J'avais une question sur l'interprétation économique de ce graphique, mais vous n'y avez pas répondu.


Suivant :


Si vous comparez avec un échantillon 10 fois plus petit, rien n'a changé !



Une nouveauté : la probabilité de l'absence de relation est de zéro.


L'information mutuelle indique la présence de dépendances d'un type arbitraire, d'où toute la différence.

Je ferais également attention à la "linéarité" et à la "non-linéarité", car cette question peut et doit être posée dans le cadre du modèle, par lequel vous approchez la série temporelle. En analysant les coefficients de ce modèle, vous pouvez conclure que ces coefficients sont : des constantes (ou presque constantes), des fonctions déterministes ou des fonctions stochastiques. Il s'agit d'un processus parfaitement concret et constructif d'analyse du type de dépendances. Et qu'y a-t-il de constructif à découvrir cette dépendance à l'information ? Et encore une fois, comment le voyez-vous sur la série chronologique originale ?

Raison: