Discussion de l'article "Approche Économétrique de l'Analyse des Graphiques" - page 7

[Supprimé]  
faa1947:

Bravo ! Excellent article, qui aborde de nombreuses questions. Mais certains points peuvent être critiqués. Par exemple, l'un d'entre eux - sur quelle base avez-vous décidé qu'il fallait supprimer les valeurs aberrantes ? Elles ne devraient pas être supprimées.
 
-Alexey-:
Bravo ! Excellent article, qui aborde de nombreuses questions. Mais certains points peuvent être critiqués. Par exemple, l'un d'entre eux - sur quelle base avez-vous décidé qu'il fallait supprimer les valeurs aberrantes ? On ne peut pas les supprimer.
Une valeur aberrante n'est pas la même chose qu'une valeur aberrante. Il faut regarder les citations. Si une valeur aberrante est relativement rare, vous devez la réduire à un seuil (et non la supprimer). Dans le cas contraire, il n'est pas évident de savoir ce qu'il faut faire. En principe, les valeurs aberrantes faussent fortement les statistiques. Tout logiciel de statistiques tient compte de cette possibilité et donne des recommandations appropriées.
[Supprimé]  
faa1947:
Une valeur aberrante n'est pas une valeur aberrante. Il faut regarder les citations. Si une valeur aberrante est relativement rare, elle doit être ramenée au seuil (et non supprimée). Si ce n'est pas le cas, la marche à suivre n'est pas évidente. En principe, les valeurs aberrantes faussent fortement les statistiques. Tout logiciel de statistiques prévoit cette possibilité et donne des recommandations appropriées.

Pour autant que je sache, les valeurs aberrantes sont supprimées dans les mesures lorsqu'on sait à l'avance que les résultats sont unis par au moins une certaine loi, c'est-à-dire lorsque le processus générant la valeur mesurée est non aléatoire ou aléatoirement stationnaire, et que la valeur aberrante peut être causée par le hasard (en dépassant les limites du non aléatoire ou de la stationnarité), et que ce hasard constitue dans ce cas une distorsion. Si nous avons affaire à une série de prix, non stationnaires, le caractère aléatoire, quel que soit son niveau, fait partie des statistiques (en plus de la partie non aléatoire, mais il est difficile de les séparer), et l'élimination d'une partie des statistiques, respectivement, est une distorsion des statistiques. Je suis plus proche de l'idée que lorsque l'on travaille avec un processus aléatoire non stationnaire, on n'a pas le droit de supprimer (couper) quelque chose. D'ailleurs, vous n'avez pas répondu à la question de savoir quel est, selon vous, le but ultime de l'élagage, par exemple. Les progiciels statistiques sont probablement destinés à travailler avec des séries stationnaires, et les recommandations d'élaguer les valeurs anormales sont valables dans ce cas.

Si ce n'est pas le cas, la marche à suivre n'est pas claire.

Qu'entendez-vous par là ?
 
-Alexey-:

Pour autant que je sache, les valeurs aberrantes sont supprimées lors des mesures lorsque l'on sait à l'avance que les résultats sont unis par au moins une certaine loi, c'est-à-dire, en d'autres termes, lorsque le processus générant la valeur mesurée est non aléatoire ou aléatoirement stationnaire, et que la valeur aberrante peut être causée par l'aléa (dépassant les limites de l'absence d'aléa ou de la stationnarité), et qu'un tel aléa constitue dans ce cas une distorsion. Si nous avons affaire à une série de prix, non stationnaires, le caractère aléatoire, quel que soit son niveau, fait partie des statistiques (en plus de la partie non aléatoire, mais il est difficile de les séparer), et l'élimination d'une partie des statistiques, respectivement, est une distorsion des statistiques. Je suis plus proche de l'idée que lorsque l'on travaille avec un processus aléatoire non stationnaire, on n'a pas le droit de supprimer (couper) quelque chose. D'ailleurs, vous n'avez pas répondu à la question de savoir quel est, selon vous, le but ultime de l'élagage, par exemple. Les progiciels statistiques sont probablement destinés à travailler avec des séries stationnaires, et les recommandations visant à réduire les valeurs anormales dans ce cas sont valables.

Qu'entendez-vous par là ?

Même le modèle ARIMA traite des séries non stationnaires en les ramenant à une forme stationnaire.

Il me semble que le problème de la réduction des citations comporte deux niveaux : superficiel et profond.

En surface, il y a des problèmes, par exemple pour faire tomber des stops, qui n'ont rien à voir avec la non-stationnarité du marché.

Le problème plus profond de l'application des statistiques mathématiques et de l'économétrie est que les données initiales, les résultats intermédiaires et les conclusions doivent être vérifiés par des méthodes extra-mathématiques et intuitives. Le choix du seuil de coupure (2, 3, 4 sigma ou autre) n'est possible qu'après une observation visuelle du graphique et renvoie au problème du choix des intervalles de confiance. Le plus grand problème de l'application de la mathématique est que son application n'est pas concevable sans l'art du statisticien lui-même. Personne ne formulera la règle "couper - ne pas couper". Si vous coupez, vous supprimez la caractéristique de non-stationnarité, si vous ne coupez pas, vous déformez la véritable distribution de la population générale en raison d'un échantillonnage infructueux.

Le cœur de l'économétrie est le test d'hypothèse, où il est possible de commettre des erreurs du premier et du second type : rejeter l'hypothèse nulle correcte en faveur de l'hypothèse alternative incorrecte, et rejeter l'hypothèse alternative correcte en faveur de l'hypothèse nulle incorrecte.

Compte tenu de ce qui précède, je peux être à la fois d'accord et en désaccord avec vous. Il est impossible de répondre sans équivoque à votre question sans considérer au préalable un échantillon spécifique.

[Supprimé]  

Даже модель ARIMA работает с нестационарными рядами путем приведения их к стационарному виду.

Et même après cela, les ordres du modèle peuvent changer dans le temps. Conclusion - une série de données non stationnaires a été adaptée à un modèle (méthode) conçu pour fonctionner avec une série stationnaire à un moment donné. Puisqu'il en est ainsi, il est nécessaire d'étudier, d'une manière ou d'une autre, la fréquence de la poursuite et la durée de son efficacité. Sans cela, comment utiliser un modèle inapproprié ?

n'a pas coupé - a déformé la vraie distribution de la population générale par un mauvais échantillonnage

Ici, je pense que le raisonnement est erroné. Une série non stationnaire n'a pas de population générale, sinon c'est une série stationnaire. Et comme c'est le cas, il n'y a pas de vraie distribution.

En ce qui concerne le knockdown, comment savoir s'il l'a été ou non ? Bien sûr, si vous analysez les données de plusieurs DC, à proximité de niveaux forts, voire ronds, et que vous constatez que certains d'entre eux ont fait tomber le stop (pour lequel il faut introduire un critère), alors je suis d'accord avec vous, il semble y avoir des raisons quasi-objectives de faire des coupes. Mais pour établir cela, c'est tout un travail, une grande recherche.

Le problème plus profond de l'application des statistiques mathématiques et de l'économétrie est que les données initiales, les résultats intermédiaires et les conclusions doivent être vérifiés par des méthodes extra-mathématiques - intuitives. Le choix du seuil de coupure (2, 3, 4 sigma ou autre) n'est possible qu'après une observation visuelle du graphique et renvoie au problème du choix des intervalles de confiance. Le plus grand problème de l'application de la mathématique est que son application n'est pas concevable sans l'art du statisticien lui-même.

Ce n'est pas ainsi que je l'appellerais. L'art, ou peut-être simplement le degré de formation du statisticien, est déterminé par la façon dont il est capable d'estimer les limites d'applicabilité des méthodes orientées vers le travail avec une série stationnaire par rapport à une série non stationnaire. Il ne s'agit pas d'une estimation intuitive, mais d'une estimation quantitative (numérique).
 
-Alexey-:

Et même après cela, les ordres du modèle peuvent changer dans le temps. Conclusion - une série de données non stationnaires a été ajustée à un modèle (méthode) conçu pour fonctionner avec une série stationnaire, sur un site donné.

Raisonnement standard en AT : une série non stationnaire est une somme de sections stationnaires ayant des caractéristiques différentes. Si nous prenons la boîte à outils de Matlab, cette question n'est pas du tout prise en compte : il est considéré que la BP présente plusieurs différences par rapport à la distribution normale et nous nous battons alors avec ces déviations. Tous les écarts ne sont pas traités.

Dans ce cas, il est nécessaire d'étudier d'une manière ou d'une autre la fréquence de la chasse et sa durée. Sans cela, comment utiliser un modèle inapproprié ?

Ce problème n'existe pas. Il y a deux types de prévisions : un pas en avant (pour la bougie suivante) et plusieurs pas en avant.

C'est là que je pense que le raisonnement est erroné. Une série non stationnaire n'a pas de population générale, sinon elle est déjà une série stationnaire. Et comme c'est le cas, il n'y a pas de véritable distribution.

Je ne suis pas d'accord en principe. La stationnarité est une caractéristique de la série, pas de la taille de la population.

En ce qui concerne l'abattage d'une butée, comment savoir si c'est le cas ou non ? Bien sûr, si vous analysez les données de plusieurs DC, près de niveaux forts, même ronds, et que vous voyez que certains d'entre eux ont fait sauter le stop (pour lequel vous devez introduire un critère), alors je suis d'accord avec vous, certaines raisons quasi-objectives de couper apparaissent. Mais pour établir cela, c'est tout un travail, beaucoup de recherches.

La suppression d'un arrêt n'est qu'un exemple. Lorsque nous examinons des citations, nous devons décider ce que nous allons prendre comme citations et ce qui disparaît pour des raisons que nous ne connaissons pas.

Ce n'est pas ce que j'appellerais cela. L'art, ou peut-être simplement le degré de formation d'un statisticien, est déterminé par sa capacité à estimer les limites d'applicabilité des méthodes orientées vers le travail avec une série stationnaire par rapport à une série non stationnaire. Il ne s'agit pas d'une estimation intuitive, mais d'une estimation quantitative (numérique).

Je ne suis pas d'accord. Il est impossible de ramener complètement une série stationnaire. C'est de là que viennent les erreurs dans la définition des hypothèses.


[Supprimé]  
faa1947:

Raisonnement standard en AT : une série non stationnaire est la somme de sections stationnaires ayant des caractéristiques différentes.

Ce raisonnement est-il fondé ? Après tout, la série obtenue par la somme mentionnée peut être obtenue sans elle - par hasard, et elle peut être obtenue par une autre somme d'autres segments avec d'autres lois. Et puisqu'il en est ainsi - alors comment être (ce qui est vrai) ?

Si nous prenons la boîte à outils de Matlab, cette question n'est pas du tout prise en compte : il est considéré que la BP présente certaines différences par rapport à une distribution normale et qu'il faut continuer à lutter contre ces déviations.

Sur la base de quoi cela est-il pris en compte ?

Cette question n'existe pas. Il existe deux types de prévisions : une étape à l'avance (pour la bougie suivante) et plusieurs étapes à l'avance.

Qu'est-ce que cela a à voir avec le fait qu'un modèle avec des paramètres différents peut être plus optimal aux étapes suivantes ?

Je ne suis pas d'accord en principe. La stationnarité est une caractéristique de la série, et non de la taille de la population.

Ce n'est pas clair - pouvez-vous décrire plus en détail ce que vous voulez dire ? Une vraie distribution caractérise les propriétés d'une série, mais une distribution non stationnaire est par définition une distribution dans laquelle elles changent. Il n'y a donc pas de vraie distribution appartenant à la population générale. N.R. n'en a qu'une seule, à un moment donné et pour un nombre fini de chandeliers.

Abattre un stop n'est qu'un exemple. Lorsque nous examinons des cotations, nous devons décider ce que nous prenons pour des cotations et ce qui n'en fait pas partie pour des raisons qui nous sont inconnues.

Et sur quelle base peut-on décider quelque chose si les raisons sont inconnues ?

Je ne suis pas d'accord. Il est tout à fait impossible de se ramener à une série stationnaire, d'où les erreurs dans la définition des hypothèses.

Maintenant, je ne suis pas d'accord en principe. Avec la formulation elle-même. Comment peut-on rendre stationnaire une série dont les caractéristiques changent aléatoirement ? C'est à dire que cette approche n'est fondée sur rien, de quelles hypothèses peut-on parler ?
 
-Alexey-:

Ce raisonnement est-il fondé ? Après tout, la série obtenue par la somme mentionnée peut être obtenue sans elle - par hasard, et elle peut être obtenue par une autre somme d'autres tracés avec d'autres lois. Et puisque c'est le cas, quel est le cas (ce qui est vrai) ?

Dans mon post, j'ai soutenu qu'il n'y a pas de base pour cela. dans l'AT, il n'y a tout simplement pas d'autre moyen.

Sur quelle base considère-t-on que c'est le cas ?

Ce n'est pas mon opinion - c'est ce sur quoi repose toute la statistique mathématique.

Qu'est-ce que cela a à voir avec le fait qu'un modèle avec des paramètres différents peut être plus optimal dans les étapes suivantes ?

Le terme "optimal" n'existe pas. Soit il y a une adéquation avec un certain niveau de confiance, soit il n'y en a pas. Il y a une adéquation - il y a une prédiction

Ce n'est pas clair - pouvez-vous décrire plus en détail ce que vous voulez dire ?

Le nombre de SV dans la BP n'intervient pas dans la détermination de la stationnarité.

Et sur quelle base peut-on décider quoi que ce soit si les causes sont inconnues ?

C'est la norme pour les processus aléatoires. Si les causes sont connues, il s'agit très probablement d'un processus déterministe.

Je ne suis pas d'accord sur le principe. Avec la formulation elle-même. Comment peut-on rendre stationnaire une série dont les caractéristiques changent de façon aléatoire ? En d'autres termes, cette approche n'est fondée sur rien, de quelles hypothèses pouvons-nous parler ?

GARCH est un modèle à volatilité changeante, par exemple.

Nous avons une discussion à deux et elle est devenue trop abstraite. Même le topkstarter ne participe pas. J'aimerais qu'il y ait une certaine cohérence dans la discussion et le développement de l'article en question. Par exemple, dans la première étape, sur un exemple concret, considérer en détail l'analyse préliminaire des données et leur préparation pour la modélisation. Par exemple, sur un exemple concret, examiner en détail l'analyse préliminaire des données et leur préparation à la modélisation :

1. justification de la taille de l'échantillon

2. justification de la nécessité de transformer les données

3. Choix de la méthode de transformation des données :

- traitement des valeurs aberrantes et des données manquantes.

- Transformation des données - élimination des tendances, cyclicité

4. détermination des types de tendances et de leur comptabilisation

5. Ajustement de la distribution aux données transformées.

6. Analyse de la stationnarité des données transformées.

7. Prise en compte de l'hétéroscédasticité

Cela suffit pour l'instant. Un autre plan est tout à fait envisageable. J'aimerais organiser une présentation systématique du problème de la préparation du quotient pour la modélisation décrite dans l'article en discussion.
 

Topikstarter[herringbones, il n'a pas encore été appelé ainsi] est en pleine crise créative :-))))

Mais il suit la discussion....

Il remercie faa1947 pour ses commentaires constructifs...

-Alexey-, je vous recommande d'étudier la matrice...

Je prendrai en considération tous les commentaires, et je présenterai plus tard mes contre-arguments et mes arguments...

[Supprimé]  
denkir:


-Alexey-, je vous recommande d'étudier la matrice ....

Quelles sections pouvez-vous recommander ? Pour chacune de mes affirmations (y compris les questions), je peux fournir un lien vers la matrice.

P.S. Et à quel moment est liée la crise créative, si ce n'est pas un secret ? :)