Statistiques de dépendance entre guillemets (théorie de l'information, corrélation et autres méthodes de sélection de caractéristiques) - page 20

 

Merci ! Je l'ai téléchargé et j'ai jeté un coup d'oeil.

Je vais donc discrétiser en utilisant un schéma de division par quantile, afin que la fonction de densité de probabilité soit uniforme. Je vais mesurer l'information mutuelle pour 500 décalages, et poster un graphique.

 

Et pour commencer :

Le type de fonction de densité de probabilité pour vos données brutes :

Correspond à une distribution normale.

Ensuite, un autocorrélogramme sur la série originale de vos valeurs jusqu'au lag 50 :

Vous pouvez voir qu'en général les corrélations ne sont pas significatives, bien qu'une certaine corrélation se glisse à certains décalages.

Enfin, j'ai pris les valeurs de votre série au carré et tracé un autocorrélogramme pour examiner uniquement la densité de la "volatilité" :

Je note que la volatilité dépend de ses valeurs passées proches. Tout cela est similaire aux cotations quotidiennes des indices boursiers et un peu similaire aux cotations quotidiennes de l'EURUSD (je posterai le calcul pour eux plus tard).

Nous attendons les résultats du calcul de I(X,Y).

 
alexeymosc: En attente des résultats du calcul de I(X,Y).

Super, on attend, Alexey.

Après avoir obtenu vos résultats pour I(X,Y), je peux charger les données dans mon script de calcul du chi-deux. Je ne crois pas que quelque chose d'utile en sortira (c'est mon hypothèse a priori).

 

Je m'excuse pour le retard. L'internet est en panne.

Je vais commencer par la partie méthodologique. J'ai discrétisé la série en 5 valeurs (quantiles). Pourquoi ? Lorsque vous calculez les fréquences croisées pour la variable cible et la variable dépendante, vous obtenez 25 choix. Si vous divisez 10 000 par 25, vous obtenez 400. Il s'agit d'un échantillon statistiquement significatif. Vous pouvez faire de 3 à 7 ; à mon avis, j'ai pris le juste milieu.

C'est ainsi que l'on calcule l'information moyenne du récepteur (variable cible) ;


Je note que pour tout décalage, le calcul de l'information moyenne donnera une valeur similaire (à moins, bien sûr, que nous ayons discrétisé les variables indépendantes dans un alphabet de longueur différente).

Il s'agit du calcul de l'entropie croisée pour les variables cible et dépendante :

Histogramme des valeurs d'information mutuelle sur la série temporelle originale :

Je ne peux que constater les premiers décalages qui ressortent du tableau général. C'est difficile de dire quoi que ce soit sur le reste.

J'ai également fait ce qui suit. Comme les données étaient normales, j'ai généré 10 000 nombres aléatoires avec la même moyenne et le même écart-type dans Echel. J'ai compté l'information mutuelle pour 500 décalages. C'est ce qui est sorti :


Vous pouvez voir à l'œil que les premiers décalages ne sont plus aussi informatifs.

Le reste de la métrique sur les échantillons résultants des valeurs d'information mutuelle doit être supprimé et comparé. Donc :

Somme d'informations mutuelles pour 500 variables de la série originale : 0,62. Pour la série aléatoire : 0,62. Cela signifie que la moyenne des échantillons sera également égale. Mettez la première coche sur l'hypothèse que la série originale ne diffère pas beaucoup de la série aléatoire (même en tenant compte de la dépendance de la volatilité).

Effectuons des tests non paramétriques pour confirmer l'hypothèse de non-significativité des différences entre les deux échantillons expérimentaux.

Test de Kolmogorov-Smirnov (pour les échantillons sans considération de l'ordre des variables et avec des fonctions de densité de probabilité inconnues a priori) : p > 0,1 au niveau de signification de 0,05. Nous rejetons l'hypothèse selon laquelle la différence entre les échantillons est significative. Placez la deuxième coche.

Le résultat est le suivant : la série initiale n'est pas significativement différente de la série aléatoire comme l'a montré la statistique de l'information mutuelle.

Dans ce cas, la dépendance de la volatilité n'a pas eu un fort impact sur l'apparence de l'histogramme. Cependant, il faut se rappeler que j'ai fait l'échantillonnage différemment pour le DJI.

 
Mathemat:

Très bien, nous attendons, Alexei.

Après vos résultats sur I(X,Y), je peux charger les données dans mon script de calcul du chi-deux. Je ne crois pas que quelque chose d'utile va sortir (c'est mon hypothèse a priori).

Moi aussi, je fais taire a priori la plausibilité bayésienne...

Voir les raccourcis.

:)

le bruit - comme il a été vu à l'origine.

Et vos chercheurs d'Alexei sont plus sages.

Mais Poisson est mon ami.

 
Le test de Mann-Whitney a donné une valeur p de 0,46. Nous rejetons également l'hypothèse selon laquelle les différences entre les échantillons sont significatives.
 
Les gars, je vais maintenant analyser les journaux de l'EURUSD dans une veine similaire. Voyons voir !
 

Merci Dougherty !

VOUS êtes la bonne personne !

Enchanté de vous rencontrer.

 
alexeymosc:
Les gars, je vais maintenant analyser les journaux de l'EURUSD dans une veine similaire. Voyons voir !

Essayez plutôt les livres de garde. Il y a peu d'informations mutuelles dans le graphique quotidien.

P.S. Le résumé préliminaire est le suivant : GARCH(1,1) a montré une certaine forme de regroupement de la volatilité, similaire à er... hétéroscédasticité, mais, comme prévu, elle ne fournit aucune information. Peut-être devrions-nous augmenter les ordres de grandeur, c'est-à-dire les arguments du modèle ?

 

Données du serveur A-ri, EURUSD D1. Prend les incréments de série aux prix Close voisins. Discrétisé par 5 quantiles.

Voyons ce que le calcul de l'information mutuelle a donné :

Nous pouvons voir que les 100-200 décalages les plus proches portent plus d'informations que les autres.

Maintenant, mélangeons aléatoirement les incréments et obtenons une série aléatoire. Calculons le VI :

Wow. Déjà, aucune information n'est visible sur les décalages les plus proches.

Comparons visuellement les résultats :

Les décalages les plus proches montrent clairement la prépondérance de la série originale (bleue).

J'ai pris une moyenne mobile avec la fenêtre 22 (mois) sur les valeurs I pour les séries originales et aléatoires :

Il est clair que la série originale (bleue) a une mémoire d'information différente de la série aléatoire (laissons la discussion sur la nature de cette information pour le dessert) sur les décalages proches jusqu'à environ 200 comptes.

Que disent les tests non-paramétriques ?

Test de Kolmogorov-Smirnov :

p < 0,001

Test de Mann-Whitney :

p = 0,0000.

Nous rejetons l'hypothèse de l'insignifiance des différences entre les échantillons. Ou encore, la série de rendements D1 de l'EURUSD est très différente des données aléatoires présentant des caractéristiques similaires en termes de moyenne et d'écart.

Ugh. Je vais faire une pause cigarette.