Analyse de régression de l'influence des données macroéconomiques sur la fluctuation des prix des devises

Salavat Bulyakarov | 13 janvier, 2022

Introduction

L'analyse fondamentale est jugée incompréhensible par beaucoup. On ne sait pas comment la réaliser, quels paramètres prendre en compte et lesquels ne pas prendre en compte. Connaître l'impact des paramètres comptabilisés et la durée de sa prise en compte n'est pas simple non plus.

En 2011, je suis tombé sur l'article Analyse de régression multiple. Générateur et testeur de stratégie en un et j’ai trouvé la méthode qui y est décrite intéressante. J'ai mené des recherches sur l'application de cette méthode à l'analyse fondamentale et j'en décris les résultats dans cet article.


Qu'est-ce que « l'analyse de régression multiple » ?

L'analyse de régression multiple est une méthode d'estimation de la dépendance d'une variable à partir de deux ou plusieurs variables indépendantes.

Ceux d'un esprit non mathématique, probablement, ne trouveront pas cette définition compréhensible. L'exemple suivant va illustrer le sens de l'analyse et comment elle peut être utilisée.

Imaginez un chercheur qui va estimer l'efficacité d'une activité physique régulière lors de la prise d'un complément alimentaire. Le chercheur mène une expérience impliquant 24 étudiants universitaires. Les étudiants sont répartis en quatre groupes de six personnes chacun. Le premier groupe reçoit 100 mg/jour de supplément, le deuxième groupe 200 mg/jour, le troisième 300 mg/jour et le quatrième 400 mg/jour. Cette expérience implique quatre niveaux de supplément et trois niveaux d'activité physique. Six personnes dans chaque groupe sont réparties en trois couples. Un couple exerce zéro heure par semaine, le deuxième couple exerce cinq heures par semaine et le troisième a dix heures d'activité physique par semaine. À la fin de l'expérience, chaque participant a perdu du poids. Les données ont été saisies dans le tableau suivant :

Participant à l'expérience Dosage de supplément (mg/jour) Niveau d'activité physique (heures/semaine) Perte de poids (lb)
1 100 0 -4
2 100 0 0
3 100 5 -7
4 100 5 -6
5 100 10 -2
6 100 10 -14
7 200 0 -5
8 200 0 -2
9 200 5 -5
10 200 5 -8
11 200 10 -9
12 200 10 -9
13 300 0 1
14 300 0 0
15 300 5 -3
16 300 5 -3
17 300 10 -8
18 300 10 -12
19 400 0 -5
20 400 0 -4
21 400 5 -4
22 400 5 -6
23 400 10 -9
24 400 10 -7

Résultat de perte de poids de chaque participant

Par conséquent, nous avons deux questions :

  1. Qu'est-ce qui a causé la perte de poids - suppléments ou activité physique ?
  2. Quel type de relation existe-t-il entre le changement de poids et le facteur d'influence ?

C'est très similaire à une situation courante sur les marchés financiers, n'est-ce pas ? Par exemple, lorsque le prix d'une devise change, il y a toujours une question sur l'actualité qui l'a influencé. S'il existe un tel facteur économique ayant une incidence sur un prix, alors comment le prix change-t-il lorsque le facteur est modifié ?

L'analyse régressive multiple et le programme STATISTICA aident à répondre à ces questions. Transférez ou importez les tableaux contenant les données dans le programme et sélectionnez « Régression multiple » dans le menu :

Importer les données de l'exemple dans le programme STATISTICA

Fig. 1. Importer les données de l'exemple dans le programme STATISTICA

Après avoir sélectionné cette barre de menu, recherchez le bouton « Variables » et cliquez dessus :

Écran de paramètres d'analyse multiples

Fig. 2. Écran de paramètres d'analyse multiples

Il fera apparaître une fenêtre de sélection des variables utilisées pour l'analyse. Il se compose de deux parties : sur le côté gauche, nous pouvons sélectionner ce qui, selon nous, est une variable dépendante (dans notre cas, c'est la perte de poids) et sur le côté droit, nous mettons en évidence ce qui peut influencer ce changement.

Affectation de variables dépendantes et indépendantes

Fig. 3. Affectation de variables dépendantes et indépendantes

Appuyer sur « OK » nous ramènera à la fenêtre de dialogue de configuration précédente où nous devons cocher une case, puis appuyer sur « OK » :

Sélection de paramètres pour plusieurs analyses

Fig. 4. Sélection de paramètres pour une analyse multiple

Dans la fenêtre suivante, nous sélectionnons la méthode « Tous les effets » :

Sélectionnez la méthode

Fig. 5. Sélectionnez la méthode

Après toutes les manipulations, nous recevrons une fenêtre avec le résultat de l'analyse. Les facteurs qui ont été statistiquement prouvés pour influencer le résultat sont en rouge dans la liste des facteurs (dans notre cas, il s'agit du « Niveau d'activité physique »). Autres variables :

Résultat du traitement des données

Fig. 6. Résultat du traitement des données

La valeur « Multiple R= 0,71819113 » doit être interprétée comme : « Multiple R, la valeur de la corrélation multivariable entre la perte de poids et les facteurs qui l'affectent, est de 71,82 % ».

L'un des deux facteurs, « Niveau d'activité physique », est indiqué en rouge. C'est le facteur qui a affecté la perte de poids lorsque l'impact de la prise du complément alimentaire était insignifiant.

Il ne nous reste plus qu'à calculer comment exactement les facteurs ont influencé la perte de poids en faisant une tentative d'équation régressive. Pour ce faire, appuyez sur le bouton « Résumé : Résultats de la régression » pour afficher une nouvelle table. Utilisez les valeurs de la colonne « b » de cette table pour faire une équation de régression :

Variables de l'équation de régression

Fig. 7. Variables de l'équation de régression

On obtient l'équation suivante :

Perte de poids = 0,00117*[Dose de supplément] - 0,63750*[Niveau d'activité physique] - 2,5625

En mettant des valeurs dans l'équation (Ctrl+C STATISTICA -> Ctrl+V в Excel), nous pouvons calculer le changement de poids si la prise de supplément ou l'intensité des exercices physiques deviennent différentes. Par exemple :

J'espère que cet exemple donne une idée claire de l'utilité de l'analyse multiple. En fait, quelqu'un pourrait trouver cela utile pour vérifier si son alimentation est efficace et s'il a besoin d'aller plus souvent à la salle de sport.

Nous allons maintenant appliquer l'idée de l'expérience aux devises. Supposons que la variable dépendante est un changement de prix de la paire EURUSD et les variables indépendantes sont les statistiques macroéconomiques, reçues de le calendrier des événements de la ressource populaire Forex Factory.

Comme dans l'exemple ci-dessus, nous pouvons identifier les facteurs macroéconomiques influençant les prix des devises grâce à une analyse multiple. Nous pouvons également faire une équation qui estime quelle sera la valeur du prix de la devise après la publication des statistiques macroéconomiques.


Préparer les données et les importer dans le programme STATISTICA

En travaillant avec le site Web Forex Factory, j'ai rencontré le problème suivant que je recommande fortement de considérer. Sur cette ressource, les mêmes données sont publiées dans différents formats. Par exemple, les nombres peuvent avoir un format de texte ou des données de texte supplémentaires, ce qui rend difficile la collecte normale de données. L'analyse du site Web pour recueillir des données peut échouer.

J'ai rassemblé manuellement les valeurs de tous les 99 facteurs du calendrier d'actualités concernant les États-Unis au cours des dernières années

Indices macroéconomiques publiés des États-Unis

Fig. 8. Indices macroéconomiques publiés des États-Unis

J'ai traité tous les nombres dans un format unifié, supprimé toutes les données de texte supplémentaires telles que « million » et « milliard », etc. ajouté des cotations pour l'EURUSD de la période D1.

En-têtes de colonnes :

La liste des résultats contient plus de 6700 entrées de données macroéconomiques et de cotations pour l'EURUSD et n'est d'aucune utilité pratique pour une simple analyse manuelle. Rassembler toutes les données dans un tableau où elles étaient triées dans des colonnes séparées par type et organisées en lignes par date nécessitait un gestionnaire supplémentaire. Nous avons utilisé le script ListConvertToTable pour traiter les données et les convertir en table.

Dans la fenêtre de dialogue des paramètres du script, il est nécessaire de nommer un fichier d'entrée et le document cible. Le fichier d'entrée doit être initialement placé dans terminal_data_directory/MQL5/Files, le fichier de sortie y est également créé.

Comme il y a beaucoup de données, le traitement de la liste des nouvelles dans une table peut prendre un temps assez long. Des alertes, intégrées dans le script, indiqueront à quelle étape il se trouve. L'alerte « 8 » vous indiquera lorsque le processus est terminé et que vous pouvez travailler sur le fichier. La table qui fera l'objet d'une analyse multiple se trouve dans le fichier joint à cet article.

J'ai obtenu le résultat suivant (voir le fichier « calendar_usd_out.zip » en pièce jointe) :

Résultat de l'exécution du script ListConvertToTable en langage MQL5

Fig. 9. Résultat de l'exécution du script ListConvertToTable

Nous utiliserons à nouveau le programme STATISTICA pour traiter les données. Pour télécharger un fichier CSV dans STATISTICA, suivez les étapes ci-dessous :

Importer une table au format .csv dans le programme STATISTICA

Fig. 10. Importer une table au format .csv dans le programme STATISTICA

Appuyez sur « OK » et vous recevrez un tableau avec vos données. Les données sont prêtes pour l'analyse de régression multiple. Pour analyser l'impact des données sur le changement de prix suivant, il est nécessaire d'ajouter les périodes où le changement de prix a eu lieu. J'ai sélectionné les actualités depuis 2010 et trois options de la variable dépendante pour l'analyse :

Ces colonnes peuvent être ajoutées manuellement dans la table CSV avant l'export vers le programme STATISTICA ou dans la table de la fenêtre du programme :

Table de données étendue

Fig. 11. Table de données étendue

Les données sont prêtes et les indicateurs qui, à notre avis, affectent le taux de change peuvent être obtenus.


Susciter les facteurs qui ont un impact important sur le prix de la devise

Lancer l'analyse de régression (« Statistiques »->« Régression multiple »). Dans la fenêtre qui apparaît, activez les éléments marqués dans l'onglet « Avancé ». Appuyez sur le bouton « Variables ».

Dans le premier champ, sélectionnez la variable dépendante et dans le deuxième champ, sélectionnez les variables indépendantes. Notre équation sera basée sur les valeurs des variables sélectionnées :

Fenêtre de sélection des indicateurs

Fig. 12. Fenêtre de sélection des indicateurs

À l'aide du bouton « Variables », sélectionnez les données à utiliser pour l'analyse :

Affectation de variables dépendantes et indépendantes

Fig. 13. Affectation de variables dépendantes et indépendantes

Une fenêtre d'avertissement avec le signe « Certaines variables n'ont pas de variance » apparaîtra pour informer que certaines variables indépendantes sélectionnées ne peuvent pas être modifiées sans données. Ces colonnes doivent être supprimées. Par élimination, nous trouverons la colonne 49 « USD Federal Open Market Committee Rate Decision », la supprimerons et recevrons un tableau prêt à être analysé (voir le fichier « calendar_2010-2011_usd_out.zip » en pièce jointe).

Cliquez sur OK ». Dans la fenêtre ouverte, cochez les cases dans l'onglet « Avancé » :

Sélectionnez la méthode Forward Stepwise

Fig. 14. Sélectionnez la méthode Forward Stepwise

Terminez la sélection des options en appuyant sur le bouton « ОK ». Dans la fenêtre suivante, choisissez la méthode « Forward Stepwise » pour activer la sélection automatique des données, puis appuyez à nouveau sur « ОK » :

Sélectionnez la méthode Forward Stepwise

Fig. 15. Sélectionnez la méthode Forward Stepwise

Nous sommes sur la ligne droite. Lorsque vous voyez un message dans une nouvelle fenêtre informant que l'analyse de régression a réussi, appuyez sur le bouton « Résumé : Résultats de la régression ».

La sélection automatique des indicateurs trie ceux qui contribuent le plus à la corrélation multivariable entre les variables indépendantes et la variable dépendante. Dans notre cas, c'est un ensemble d'indicateurs qui a le plus d'impact sur le prix. La sélection automatique, par essence, a un rôle de générateur de stratégie. L'équation générée comprendra uniquement les indicateurs qui décrivent le comportement du prix de la manière la plus fiable.

Je dois cependant mentionner que les règles d'inclusion d'indicateurs dans l'analyse utilisée dans STATISTICA ne sont pas toujours optimales. Par exemple, l'équation de régression peut inclure de nombreux indicateurs non fiables (police noire dans le tableau de résultat). Si la liste comprend des indicateurs non fiables, revenez à l'étape de sélection des indicateurs et retirez du lot ceux qui ne sont pas fiables, destinés à l'analyse.

Pour revenir, appuyez sur « Annuler » dans la fenêtre de résultat d'analyse et répétez l'analyse. Essayez d'exclure tous les indicateurs non fiables de cette façon. Dans le même temps, gardez à l'esprit que la valeur obtenue de la corrélation multivariable (Multiple R) n'est pas censée être significativement inférieure à la valeur initiale. Vous pouvez supprimer tous les indicateurs non fiables de l'analyse un par un ou les faire tous ensemble. La première méthode est cependant préférable.

Au final, seuls des indicateurs fiables affectant la fluctuation des prix sont censés rester dans le tableau. Dans les tableaux, les variables qui se sont avérées influer sur les prix ont été surlignées en rouge et les variables n'ayant aucun effet sont en noir.

À la fin de l'analyse, il a été découvert que certains indicateurs avaient un impact sur le prix de la devise après leur publication. Un ensemble d'indicateurs était différent pour chaque période. En choisissant « changement de prix en 1 jour » (c'est-à-dire que nous analysons le comportement du prix un jour après la publication de l'indicateur) comme variable indépendante dans la fenêtre de gauche, nous recevrons ce qui suit :

Variable indépendante « changement de prix en 1 jour »

Fig. 16. Variable indépendante « changement de prix en 1 jour »

Revenez en cliquant sur « Annuler » puis sélectionnez « Variables » pour revenir aux listes de variables parmi lesquelles choisir. Progressivement, nous supprimons les entrées en noir de la liste des variables indépendantes et ne laissons que celles en rouge. Les entrées restantes contiendront les actualités affectant les prix le jour suivant.

Veuillez noter que les entrées du tableau diffèrent par leur couleur. Les variables indépendantes qui ont un impact significatif sur la variable dépendante sont en rouge. Sur la figure ci-dessous, toutes les entrées sont en rouge, c'est-à-dire que les erreurs dans les résultats de l'équation après la saisie des données seront moindres que dans le premier cas. L'impact peut être évalué par la valeur des coefficients de la dernière colonne « p-value » (plus la valeur est petite, mieux c'est). Les variables qui n'ont aucun impact sur le prix peuvent être supprimées en fonction des coefficients.

En choisissant « changement de prix dans 5 jours » et en triant les nouvelles significatives par la suppression progressive des entrées non pertinentes, nous obtiendrons le résultat suivant :

Variable indépendante « changement de prix en 5 jours »

Fig. 17. Variable indépendante « changement de prix en 5 jours »

Lorsque nous sélectionnons enfin « changement de prix dans 10 jours » comme variable indépendante, nous obtenons :

Variable indépendante « changement de prix en 5 jours »

Fig. 18. Variable indépendante « changement de prix en 5 jours »

Lorsque nous sélectionnons comme variable indépendante la variation des prix en un jour après la publication des chiffres de l'indicateur, nous pouvons voir que dans la période de 2010 à mi-2011, les prix ont été principalement affectés par les données sur la sphère du développement immobilier et des indices, publiés par le Richmond Institute.

Dans les 5 jours suivant la publication des données, les indices des industries de production et non productives, les coûts de main-d'œuvre et les chiffres du chômage sont ajoutés aux données sur l'industrie du développement.

Lorsque l'on considère 10 jours, la répartition des indices influents change. Les indices des industries de production et de non-production, les demandes d'aménagement de logements, le niveau de chômage et les prix de l'énergie sont au premier plan.

Ainsi, les facteurs affectant le prix de la paire EURUSD sont très similaires aux données macroéconomiques de l'analyse fondamentale, dont l'importance est soulignée dans presque tous les manuels. Comme nous pouvons le voir, cela a été prouvé par les mathématiques et les statistiques.


Équation de régression et prévision résultante

Il ne suffit pas de connaître les facteurs affectant le prix, il est important de pouvoir estimer comment les prix pourraient évoluer lors de la publication de l'indice. Pour cela nous allons faire une équation de régression comme dans l'exemple au début de cet article.

Nous ferons une équation de régression basée sur les données recueillies à partir du tableau de la fig. 17 « changement de prix en 5 jours ». Pour cela, nous utiliserons les variables de la colonne avec l'en-tête « b ». La première ligne est une constante numérique, reçue à la fin de l'analyse. Son calcul sera examiné dans les articles suivants.

Faisons une équation de régression basée sur ces coefficients :

R=-0,0761294138334434+0.355142961984956*[[changement de prix en 1 jour]+0.319936701020232*[changement de prix en 10 jours]+0.455193706894553*[USD Ventes de maisons existantes (MoM)]-0.146961978306227*[USD Demandes d'hypothèque MBA] + ... ,

où nous utilisons les valeurs de la colonne « b » comme coefficients et les données macroéconomiques publiées comme multiplicateurs des crochets.

En entrant les valeurs des indices macro-économiques, publiés sur le site web de la source, dans cette équation, nous recevrons un nombre R, supérieur ou inférieur à zéro. Si le résultat de la saisie de nouvelles données est supérieur à zéro, cela signifie que les prix vont augmenter au cours de la période sélectionnée pour l'analyse. La valeur de R montrera la croissance des prix. Un R négatif signifie que les prix peuvent baisser. La valeur du R dans ce cas montrera la baisse des prix.

Mettez les valeurs dans la formule ci-dessus et considérez le résultat sur la base de l'exemple de l'EURUSD. Nous utiliserons les données de l'entrée du 08.04.2010 comme exemple pour mettre des coefficients dans l'équation :


b valeur [b]х[valeur]
Intercepter -0.0761 1.00000 -0.0761
changement de prix en 1 jour 0.3551 -0.0070 -0.0025
changement de prix en 10 jours 0.3199 0.0244 0.0078
Vente de Maisons Existantes en USD (MoM) 0.4552 -0.022 -0.0100
Demandes d'hypothèques MBA en USD -0.1470 -0.044 0.0065
Indice du Coût de l'Emploi en USD 144.0041 0.006 0.8640
USD NAPM-Milwaukee 0.0106 59 0.6278
Vente de Maisons Existantes en USD 0.0000 5660000 -0.6596
Taux de Chômage en USD -6.7866 0.099 -0.6719
Indice des Directeurs d'Achats Manufacturiers en USD 0.0197 56.2 1.1052
Commandes de biens d'équipement en USD Non Defense Excluding Air -2.8934 0.048 -0.1389
Biens durables hors transport en USD 4.9290 0.012 0.0591
Indice d'achat des prix de l'immobilier en USD (QoQ) -5.9295 -0.018 0.1067
Directeur d’achats de Chicago en USD -0.0160 59.1 -0.9433
Noyau des dépenses de consommation personnelle en USD (annuel) -19.8579 0.015 -0.2979



-0.0230

R=-0,0230, donc une tendance baissière s'est poursuivie pendant les cinq jours suivants à partir du 04.08.2010 et le prix est tombé à -230 points. Jetons un œil au graphique de la paire EURUSD pour cette période :

 EURUSD août 2010

Fig. 19. EURUSD août 2010

Comme on peut le voir sur le graphique, la prévision était exacte et le cours est passé de 1,3154 à 1,2844 en cinq jours de bourse (fermeture le 11 août), soit -310 points. La prévision de la baisse des prix basée sur le résultat de l'équation de régression a été prouvée. De même, d'autres dates peuvent être saisies.


Conclusion

Une façon d'analyser les données sur les indicateurs macroéconomiques considérés dans cet article, permet de simplifier et d'automatiser l'analyse fondamentale afin que même un novice puisse gérer une grande quantité de statistiques économiques.

De plus, une telle approche de l'analyse fondamentale donne la possibilité de réagir instantanément et d'ajuster les transactions en fonction de l'actualité.

Sachez cependant que les prévisions ne doivent pas être considérées comme une garantie absolue que le prix de la devise changera dans la direction prévue. Le résultat de la prévision est probabiliste et dépend de nombreux facteurs. En outre, l'équation de régression doit être recalculée lorsque de nouvelles données sortent.

Bonne chance avec vos prévisions !