Discussion de l'article "Approche Économétrique de l'Analyse des Graphiques" - page 10

 
denkir:

Je comprends, j'utilise le concept de "classe" ou d'"intervalle" pour cela.

faa1947, dans votre figure, je vois que la distribution n'est pas unimodale. C'est un autre problème.

Ensuite, le nombre de classes (racks) est également calculé à l'aide d'une formule, de règles... les plus connues sont :

La formule de Sturges, la règle de Freedman-Diaconis, la règle de Scott, le choix de la racine carrée, etc.

Voir mon message ci-dessus -Alexey. Néanmoins, vous devriez commencer par la longueur de l'échantillon, qui est déterminée par l'objectif de la prévision pour le TS. Autrement dit, la longueur de l'échantillon est-elle suffisante pour répondre à la question suivante : est-il possible d'entrer dans une pose (de sortir d'une pose) ou non ? Très probablement, la longueur de l'échantillon ne sera pas significative (jusqu'à une centaine) et les distributions fantastiques comme celle ci-dessus disparaîtront.
 
-Alexey-:

denkir :

Je pense que c'est possible. Elles ne doivent en aucun cas affecter les paramètres statistiques de l'échantillon (en particulier, les paramètres de distribution). C'est pourquoi il s'agit de valeurs aberrantes.

Sur quoi se fonde cette affirmation (ce n'est d'ailleurs pas la raison pour laquelle elles sont supprimées, bien qu'elles affectent les paramètres) ?

En partant du principe que la taille de l'échantillon est suffisamment grande pour ne pas être affectée par des valeurs aberrantes. C'est l'une des raisons pour lesquelles je suis favorable à un échantillon de grande taille. Ensuite, mon collègue faa1947 a dit, si je ne me trompe pas, que les valeurs aberrantes ne sont pas les mêmes que les valeurs aberrantes. Il est clair que si vous avez par exemple le taux eurusd qui fluctue dans l'échantillon entre 1,20 et 1,50 $, et qu'ensuite une erreur de serveur apparaît et renvoie la valeur de 15,77 $, alors une telle valeur aberrante va perturber tous les paramètres statistiques de l'échantillon.


-Alexey-:

Une vraie distribution caractérise les propriétés d'une série, mais une distribution non stationnaire est par définition une distribution dans laquelle elles changent.

Mais dites-moi, quel est le lien entre la vraie distribution et la stationnarité ? J'avoue que je n'ai jamais rencontré un tel lien. Où l'avez-vous trouvé, si ce n'est pas un secret ? ;-)


 
faa1947:
См. мой пост выше -Alexey. Все-таки надо начинать с длины выборка, которая определяется целью прогноза для ТС. Т.е.: достаточна ли длина выборки для ответа на вопрос: можно входить  в позу (выходить из позы) или нельзя? Скорее всего длина выборки будет не значительной (до сотни) и исчезнут фантастические распределения, подобные выше приведенному.

Voici le problème. En réduisant la taille de l'échantillon, nous risquons de passer à côté d'un phénomène tel que le regroupement de la volatilité. Il est donc inutile d'utiliser un modèle non linéaire. Nous pouvons donc utiliser un modèle linéaire. Et cela ne reflète pas la nature de la série financière, son dérivé (à ne pas confondre avec le dérivé dans l'analyse matricielle).

Et quelles sont ces données sur la base desquelles vous avez obtenu une distribution bimodale ? Pourriez-vous télécharger un fichier contenant ces données ?

 
denkir:

Voici le problème. En réduisant la taille de l'échantillon, nous risquons de passer à côté d'un phénomène tel que le regroupement de la volatilité. Il est donc inutile d'utiliser un modèle non linéaire. Nous pouvons donc utiliser un modèle linéaire. Et cela ne reflète pas la nature de la série financière, son dérivé (à ne pas confondre avec le dérivé dans l'analyse matricielle).

Si nous professons l'approche systémique, nous devrions danser à partir de l'objectif : entrée/sortie, jusqu'à la pose. Quel sera le quotient dans le résidu sec ? Si nous prenons un échantillon limité, il n'est pas nécessaire d'avoir de la volatilité ou de la non-stationnarité, n'est-ce pas ? Il faut choisir le modèle. Le modèle ARMA (pas même ARIMA) est largement utilisé. Notre objectif n'est pas d'appliquer un certain modèle. L'objectif est d'obtenir une prévision avec un niveau raisonnable de limites de confiance. Il est intéressant de calculer la prévision pour, par exemple, 100, 500, 1000 chandeliers. Nous verrons peut-être quelque chose.

Quelles sont les données sur la base desquelles vous avez obtenu la distribution bimodale ? Pourriez-vous télécharger un fichier contenant ces données?

EURUSD D1 de 1999/01/04 à 2011/01/13, 3063 chandeliers extraits du terminal.

[Supprimé]  
denkir:

En partant du principe que l'échantillon est suffisamment grand pour ne pas réagir aux valeurs aberrantes. C'est l'une des raisons pour lesquelles je suis favorable à un échantillon de grande taille. Ensuite, mon collègue faa1947 a dit, si je ne me trompe pas, qu'une valeur aberrante n'est pas la même chose qu'une valeur aberrante. Il est clair que si, par exemple, le taux de l'eurusd a fluctué dans l'échantillon dans une fourchette de 1,20 à 1,50 $, et qu'une erreur du serveur a renvoyé la valeur de 15,77 $, alors une telle valeur aberrante perturbera tous les paramètres statistiques de l'échantillon.


Mais dites-moi, quel est le lien entre la vraie distribution et la stationnarité ? J'avoue que je n'ai jamais vu un tel lien. Où l'avez-vous trouvé, si ce n'est pas un secret ? ;-)


Je vous ai répondu à la dernière page avec une citation du manuel. Si ce n'est pas clair, je vais l'expliquer plus en détail :

Le concept de population générale est, dans un certain sens, similaire au concept de variable aléatoire (loi de distribution de probabilité, espace de probabilité), car il est entièrement conditionné par un certain ensemble de conditions.

Un certain ensemble de conditions génère un processus stationnaire. S'il n'est pas défini, il n'y a pas de population générale, ni de véritable distribution. La logique est à peu près la suivante. Bien entendu, je peux me tromper.

D'après votre réponse, la réponse est erronée. D'ailleurs, j'espérais voir une référence à la matrice sur la base de laquelle vous avez fait la déclaration ci-dessus. Si vous ne l'avez pas (c'est-à-dire que vous ne savez pas pourquoi les valeurs aberrantes sont supprimées et comment elles affectent la distribution), je vous recommande, comme vous l'avez fait pour moi plus tôt, d'apprendre la matière. Tout est clair avec les grandes valeurs aberrantes, et vous avez raison de noter qu'il devrait y avoir une vérification pour celles-ci (une telle vérification peut détecter une lacune dans les citations), mais la question ne porte pas sur elles, mais sur 3-4-5 sigma. Il est également intéressant de noter que, même sans aborder la question de savoir s'il faut les supprimer ou non, la méthodologie de leur suppression (du moins selon le livre mentionné ci-dessus, bien qu'il ne dise pas tout) est un travail très vaste et très long, comme je le pense, et assez compliqué.

 
-Alexey-:

Un certain ensemble de conditions génère un processus stationnaire. S'il est incertain, il n'y a pas de population générale, et donc pas de véritable distribution. La logique est à peu près la suivante. Bien que, bien sûr, je puisse me tromper.

Selon Wikipedia : la population générale est l'ensemble des valeurs qu'un chercheur a sélectionnées pour l'analyse. Un chercheur peut échantillonner la population générale selon n'importe quelle règle, y compris quelque chose d'aussi douteux que la "stationnarité". Il est normal qu'une règle soit sélectionnée en dehors des concepts statistiques, par exemple "toutes les transactions d'achat d'euros contre des roubles". Les transactions sont générées par un processus économique que nous ne connaissons qu'approximativement, nous ne connaissons pas le nombre de transactions. Ces deux circonstances nous amènent à considérer la non-stationnarité comme la principale caractéristique des cotations de devises, tous les autres étant ses signes.

Tout est clair avec les grandes valeurs aberrantes, et vous avez correctement noté qu'il devrait y avoir un contrôle pour celles-ci (un tel contrôle peut détecter un écart dans les cotations), mais le discours (et la question) ne porte pas sur elles, mais sur les 3-4-5 sigmas.

En outre, j'apporte des histogrammes des cotations D1 de la paire euro-dollar dans le nombre de 100 chandeliers.

Voici les statistiques descriptives de l'échantillon

En outre, l'une des valeurs Close a été constamment modifiée en 3 sigma, 5 sigma et 5 moyenne.

Nous voyons :

1. la queue des gauchers partout.

2. Le nombre de colonnes de l'histogramme change, même si 20 intervalles pour 100 chandeliers sont spécifiés partout

3. la valeur p de l'ajustement à la loi normale et, par conséquent, l'intervalle de confiance de l'ajustement changent.

[Supprimé]  
faa1947:
Selon Wikipedia : Une population est un ensemble de valeurs qu'un chercheur a sélectionnées pour l'analyse. Un chercheur peut sélectionner la population générale selon n'importe quelle règle, y compris une règle aussi douteuse que la "stationnarité". Il est normal qu'une règle soit sélectionnée en dehors des concepts de la statistique, par exemple, "toutes les transactions d'achat d'euros pour des roubles". Les transactions sont générées par un processus économique que nous ne connaissons qu'approximativement, nous ne connaissons pas le nombre de transactions. Ces deux circonstances nous amènent à considérer que la principale caractéristique des cotations monétaires est la non-stationnarité, tout le reste étant ses signes.

La moitié est fausse, l'autre moitié est sous-estimée, une partie est correcte. C'est pourquoi il est souhaitable de vérifier Wiki à l'aide d'ouvrages spécialisés, et de le faire recommander par le ministère de l'éducation et tout le reste. Plus tard, j'écrirai une définition tirée du dictionnaire encyclopédique des statistiques. Je pense que vous êtes complètement perdu.

Une population est un ensemble de valeurs qu'un chercheur a sélectionnées pour l'analyse.

Ce n'est que lorsque toutes les données existantes ont été sélectionnées et que l'on sait qu'il n'y en a pas d'autres. Sinon, si je prends 10 bougies, il s'agit d'un échantillon de population, pas d'une population générale. Par exemple, quand on mesure le travail d'une machine, on sait que demain il y aura de nouvelles données - il n'y a jamais de population générale. La population générale est évaluée par elle (échantillon) - lisez à propos de l'estimation, de l'échantillonnage. Et lors de l'estimation, elle n'est pas ajustée selon la loi normale (si l'on ne sait pas qu'elle est telle), mais la loi est identifiée par des méthodes spéciales, et tant qu'elle est inconnue, comment peut-on supprimer quelque chose (je vous ai donné un lien vers le livre - c'est écrit à ce sujet). Elle est ensuite évaluée non pas à partir d'un seul échantillon, mais de plusieurs échantillons, des tests spéciaux sont comparés, etc.
 
-Alexey-:

La moitié est fausse, l'autre moitié est sous-estimée et une partie est correcte. C'est pourquoi il est souhaitable de vérifier Wiki à l'aide d'ouvrages spécialisés, de le faire recommander par le ministère de l'éducation et tout le reste. Plus tard, j'écrirai une définition tirée du dictionnaire encyclopédique des statistiques. Je pense que vous êtes complètement perdu.

Ce n'est que lorsque toutes les données existantes sont prises et que l'on sait qu'il n'y en a pas d'autres. Sinon, si je prends 10 bougies, c'est un échantillon de population, pas une population générale. Par exemple, quand on mesure le travail d'une machine, on sait que demain il y aura de nouvelles données - il n'y a jamais de population générale. La population générale est évaluée en fonction de ces données (échantillon) - lisez à propos des évaluations. Et lors de l'estimation, elle n'est pas adaptée à la loi normale (si l'on ne sait pas qu'elle est telle), mais la loi est identifiée par des méthodes spéciales, et tant qu'elle est inconnue, comment peut-on supprimer quelque chose (je vous ai donné un lien vers le livre - c'est écrit à ce sujet). En outre, elle est évaluée non pas à partir d'un seul échantillon, mais de plusieurs, des tests spéciaux sont comparés, etc.

Malheureusement, vous vous êtes permis de sortir de leur contexte des phrases distinctes, sans essayer de comprendre le sens de mon message. Je le répète. En forex, la règle de sélection de la population générale est l'ensemble des trades qui ne nous sont pas connus. La définition de l'encyclopédie comme celle de Wiki ne m'intéressent pas - je m'intéresse à la prévision, pas aux propriétés statistiques de la population générale. Sous votre pression, j'ai failli me livrer à une fornication botanique et j'ai même consulté le progiciel STATISTICS pour voir la définition de la "population générale" : le progiciel mondialement connu ne tient pas compte de ce concept.

Nettoyage des émissions. Il a donné des détails sur l'effet des émissions sur l'ajustement, regardez bien. Si vous ne supprimez pas l'émission, vous obtiendrez un mauvais ajustement, c'est le but, et très probablement avec de très bonnes caractéristiques. Si vous changez la valeur aberrante, les paramètres de la loi ou la loi changeront, tout cela à cause d'une ou deux valeurs dans l'échantillon. Après l'ajustement, il n'est pas nécessaire de nettoyer les données.

Il est toujours très souhaitable que vous lisiez des manuels et une meilleure documentation sur les progiciels d'économétrie, et non sur les mathématiques - cela améliorera votre compréhension. Tout progiciel d'économétrie commence par la préparation des données pour l'analyse, et non l'inverse, d'abord l'ajustement et ensuite la préparation des données.

[Supprimé]  
D'accord, je vous laisse le soin de le faire. Tout paquet n'est qu'un outil, rien de plus. Il semble que nous parlions des langues différentes :) Je ne voulais pas que les lecteurs soient induits en erreur, mais j'espère que ceux qui en ont besoin comprendront.
 
-Alexey-:
. :) Je ne voulais pas que les lecteurs soient induits en erreur, mais j'espère que ceux qui en ont besoin s'en rendront compte.

Ok, je vous laisse faire.

Je ne pense pas que ce soit la bonne décision

Tout paquet n'est qu'un outil, rien de plus. Il semble que nous parlions des langues différentes.

Pardonnez-moi de vous laisser donner des conseils sur les paquets. Dans les arguments théoriques, tels que les thèses et les mémoires, votre approche est tout à fait valable et préférable à la mienne. Mais nous avons un problème pratique et un paquetage n'est pas seulement un outil, mais un système dans lequel de nombreux concepts sont réunis pour produire un résultat pratique. Nous n'obtenons pas seulement une interprétation non ambiguë des termes, mais aussi leur calcul sans ambiguïté. L'auteur de l'article a mentionné le GARCH, qui est un concept très extensible, beaucoup moins univoque que celui de "population générale".

J'espère que vous continuerez à participer à ce sujet.