Régression bayésienne - Est-ce que quelqu'un a fait un EA en utilisant cet algorithme ? - page 46

 
Yuri Evseenkov:

A une tentative d'application de la formule bayésienne. Encore une fois.

Tâche. En utilisant le théorème de Bayes, déterminez quelle valeur d'un tick qui n'est pas encore arrivé est la plus probable.

Étant donné. Série chronologique x,y.

y=ax+b Une ligne allant du dernier tick au futur.

P(a,b|x,y)=P(x,y|a,b)*P(a)*P(b)/P(x,y) ; (1) Formule de Bayes.

P(a,b|x,y)est la probabilité que les coefficients a et b correspondent aux coordonnées x et y d'un futur tic.

Nous devons trouver des valeurs a et b telles que cette probabilité (ou plus correctement,une mesure de probabilité) soit maximale.

P(x,y|a,b) - prenons l'histogramme réel de la distribution des ticks par niveaux de prix comme fonction de vraisemblance. La fonction est définie par un tableau à deux dimensions (matrice) : fourchette de prix - probabilité, rapport en pourcentage des ticks tombant dans cette fourchette sur le nombre total de ticks.

P(b) - la distribution normale des incréments est prise comme une probabilité a priori b. On utilise un PRNG dont la valeur est normalement distribuée.

Le coefficient P(a) détermine la pente de la ligne droite et le signe de l'incrément prédit. Pour l'instant, je pense utiliser le code de régression linéaire que j'ai posté plus tôt. C'est-à-dire que la probabilité que le coefficient a y soit trouvé est égale à l'unité. Et dans (1) substituer la probabilité P(a) calculée en tenant compte de la différence de ce a et du calculé pour le y donné.

Peut-être avez-vous des idées sur le comportement du signe incrémental de chaque tick ?


J'ai esquissé 2 indicateurs, je travaille sur les tiques. La première définit A et B pour la régression linéaire (pour l'offre et la demande séparément, juste au cas où), et trace une ligne. Le second est un histogramme des valeurs de tick (rouge - Ask, bleu - Bid). Chaque barre des graphiques en tic-tac est un nouveau tic-tac, elles ne coïncident pas avec les barres du graphique lui-même.

C'est tout ce que j'ai compris de ce post. Quelle est la prochaine étape ? Si je comprends la logique, je la terminerai.


Dossiers :
 
Dr.Trader:

Utiliser les ticks pour la prédiction est dangereux à mon avis, et le modèle devrait être configuré pour chaque courtier séparément.

Concernant les ticks réels - ils peuvent être très différents d'un courtier à l'autre.

Je suis d'accord. J'ai écrit plus haut. Je vais le répéter.

Le Forex, c'est beaucoup de sociétés de courtage, de sociétés de forex, de cuisines - européennes, chinoises, bahamiennes, bermudiennes ... Il y en a beaucoup. Aucun d'entre eux ne domine et ne contribue de manière décisive à la formation des prix, pas plus que les autres acteurs du marché. Cette hypothèse repose sur le théorème de la limite centrale de la théorie des probabilités (CLT) :

" La somme d'un nombre suffisamment grand de variables aléatoires faiblement dépendantes ayant approximativement la même magnitude (aucune somme ne domine, aucune contribution déterminante à la somme) a une distribution proche de la normale. "(Wikipedia)

Comme je le comprends en ce qui concerne le forex. Si nous rassemblons tous les ticks de TOUTES les sociétés de courtage dans une barre M5 (millions de ticks), la distribution des ticks à l'intérieur de la barre sera proche d'une normale. Et plus la période est ancienne, plus elle est proche. Chaque société de courtage particulière a son propre flux de cotations qui diffère du flux global dominant par la mesure de dépréciation de cette société de courtage. Ce flux dominant sur le graphique est une courbe (certainement pas droite !) dont aucune société de courtage ne peut s'éloigner.

Dans ce fil de discussion, les gens ont réagi avec scepticisme à la formulation de la CDT dans wikipedia. Cela me semble également incorrect. Bien que j'aie rencontré cette formulation dans d'autres sources depuis lors. Même la référence MQL4 contient un exemple de l'indicateur selon cette formulation.

Ainsi, je pense que le TPT statue sur un nombre suffisamment important d'incréments dans la période de faible influence des facteurs fondamentaux.

 
Dr.Trader:

J'ai esquissé 2 indicateurs, je travaille sur les tiques. La première définit A et B pour la régression linéaire (pour l'offre et la demande séparément, juste au cas où), et trace une ligne. Le second est un histogramme des valeurs de tick (rouge - Ask, bleu - Bid). Chaque barre des graphiques en tic-tac est un nouveau tic-tac, elles ne coïncident pas avec les barres du graphique lui-même.

C'est tout ce que j'ai compris de ce post. Quelle est la prochaine étape ? Si je comprends la logique, je la terminerai.


Je veux calculer les probabilités en utilisant la formule de Bayes. La régression linéaire et le coefficient trouvé a ne s'appliquent que pour calculer la probabilité a priori P(a).
 

Supposons qu'il existe un prix de référence, qui est donné par les fournisseurs de liquidités, et que les cotations des courtiers rebondissent autour de ce prix. Dans ce cas, la cotation de chaque courtier va danser dans une certaine fourchette autour du "prix principal", formant une sorte de dôme sur l'histogramme. Si vous additionnez les histogrammes des dômes, vous obtenez quelque chose qui ressemble à une distribution normale, je suis d'accord.

Mais cela ne fonctionne toujours pas pour nous, nous travaillons avec les cotations d'un courtier particulier, et une distribution normale est peu probable. Je regarde l'histogramme depuis un moment, mon courtier me donne un maximum de 4000 ticks (soit environ 20 minutes), je les utilise tous pour l'histogramme. C'est plus comme une demi-ellipse couchée sur le côté. Si le prix commence à monter/descendre - l'elipse a un côté plus mince, mais elle finit par reprendre sa forme. Mais parfois, il y a deux pics. Vous pouvez essayer de décrire cette moyenne par une autre distribution et l'utiliser dans les calculs (et non gaussienne). Si vous faites un histogramme avec un petit nombre de points, par exemple une centaine, c'est juste une distribution informe qui saute constamment, je ne pense pas que cela fonctionnera, vous avez besoin de mille points ou plus.

Dans l'histogramme que nous voyons ici, le tiers de droite est le résultat de changements rapides de prix, puis l'ensemble devrait prendre la forme des deux tiers de gauche.

 
Dr.Trader:

Supposons qu'il existe un prix de référence, qui est donné par les fournisseurs de liquidités, et que les cotations des courtiers rebondissent autour de ce prix. Dans ce cas, la cotation de chaque courtier va danser dans une certaine fourchette autour du "prix principal", formant une sorte de dôme sur l'histogramme. Si vous additionnez les histogrammes des dômes, vous obtenez quelque chose qui ressemble à une distribution normale, je suis d'accord.

Mais cela ne fonctionne toujours pas pour nous, nous travaillons avec les cotations d'un courtier particulier, et une distribution normale est peu probable.

C'est une autre question. Il s'agit de l'application pratique.

Dans la formule (1), la fonction de probabilité P(x,y|a,b) est un histogramme réel de ticks réels d'un courtier concret réel. Par exemple, la probabilité P(x,y|a,b)=0,12 si 12 % de tous les ticks de la fenêtre tombent dans la fourchette y(prix)+range(set). Je construis l'histogramme dans le profil.



Il y a ensuite les multiplicateurs de correction, les probabilités a priori P(a) et P(b). Ainsi, comme P(b), j'ai choisi une distribution normale des prix PRIRATE. Pourquoi, c'est écrit dans les posts précédents.

 

J'ai lu le document dans le premier post, il n'est pas bien présenté du tout.

Je n'ai pas pu lire beaucoup de formules, alors voici une paraphrase libre. L'auteur dispose d'un cours acheteur et vendeur pour le bitcoin pendant une demi-année, avec un intervalle de 10 secondes. Il crée un programme (classificateur) qui prend les prix actuels et renvoie trois signaux - pour acheter, pour vendre et pour maintenir des positions ouvertes. La prévision est faite pour 10 secondes à venir. Toutes les 10 secondes, le programme doit recevoir de nouvelles données et les recompter toutes. Les données initiales sont divisées en plusieurs vecteurs et il utilise ces vecteurs pour la prédiction des prix. Le classificateur reçoit trois tableaux de données - un pour les 30 dernières minutes, le deuxième pour les 60 dernières minutes, le troisième pour les 120 dernières minutes (chaque tableau est toujours le prix avec un intervalle de 10 secondes). Je ne comprends pas plus. Les formules sont très similaires à celles de la neuronique, c'est-à-dire que chaque valeur d'entrée correspond à un certain poids. Mais ces pondérations sont appliquées à trois tableaux à la fois. Et puis soudain, il s'avère que les poids ne peuvent pas être trouvés (mais il s'agit d'un neurone, n'est-ce pas ?) et nous devons essayer toutes les variantes. L'auteur a déduit empiriquement une formule qui devrait aider à optimiser les pondérations, à rejeter ce qui n'est manifestement pas approprié, et à utiliser la régression bayésienne. De même, le résultat de la régression est probablement utilisé comme valeur d'entrée pour le classificateur.

Ça ressemble à un devoir d'étudiant fait quelques nuits avant la date limite. Il n'y a pas de prouesses à gagner :)

Bien que la régression bayésienne soit utilisée, elle n'est qu'une petite partie d'un système complexe. Peut-être qu'en raison des poids optimisés, son influence est réduite à zéro. Autant mettre un générateur de nombres aléatoires dans la neuronique ou le calendrier maya, de toute façon leur influence sera réduite à zéro lors de l'optimisation.

 
Je n'ai pas réussi à lire le premier message en anglais. J'essaie de comprendre les exemples du théorème bayésien dans d'autres domaines. Et j'essaie juste de calculer les probabilités d'occurrence de tel ou tel prix en utilisant la formule de Bayes. Et la distribution normale n'est pas du tout un attribut nécessaire. C'est juste une des hypothèses d'une des probabilités a priori jusqu'ici.
 

Je suis tombé sur deux articles sur le sujet de la branche - ils peuvent être utiles aux passionnés.

Article 1.

Régression bayésienne avec STAN : Partie 1 : régression normale

Article 2

Régression bayésienne avec STAN Partie 2 : Au-delà de la normalité

Chaque article est une publicité pour deux livres portant le même titre.

Bayesian regression with STAN: Part 1 normal regression
Bayesian regression with STAN: Part 1 normal regression
  • Lionel Hertzog
  • datascienceplus.com
This post will introduce you to bayesian regression in R, see the reference list at the end of the post for further information concerning this very broad topic. Bayesian regression Bayesian statistics turn around the Bayes theorem, which in a regression context is the following: $$ P(\theta|Data) \propto P(Data|\theta) \times P(\theta) $$...
 

Vous - ingénieurs, physiciens, opérateurs radio - êtes si bizarres......

Je vous ai souvent dit ici que les quints, les alt-traders, les market-makers - ne sont pas des idiots, qu'ils sont BON en maths, qu'ils ne sont pas payés pour toujours à 100K+ GEL par an + bonus, mais vous semblez tous ne pas comprendre.

Le prix sur le marché boursier est l'expression d'un système CONNECTE, donc tout modèle de prix utile (marginalement adéquat) NE PEUT PAS être simple. Oui, il peut y avoir une régression bayésienne à l'intérieur, mais seulement en tant que méthode numérique auxiliaire. Et vous lancez un troupeau sur "votre queue de pie, nous allons la piétiner ici avec la seule méthode bayésienne !

Peut-être que ceci vous aidera à comprendre : la liste des méthodes mathématiques activement utilisées dans les transactions par les grands teneurs de marché, les banques et les fonds spéculatifs. Cette liste est également divisée par sous-spécialités, c'est-à-dire par types d'instruments financiers négociés et par types de prévisions dans les banques. Cette liste a été établie par un ancien employé senior de Citi et JPMorgan. La liste n'est pas secrète, vous pouvez la trouver dans 5 à 10 livres de mathématiques financières (en anglais). Mais sur le forum russe, et même sous une forme aussi complète - la liste est rare.

Data Scientist, Statisticien
25000 USD
Description du poste
EXIGENCES PROFESSIONNELLES (nous apprécions particulièrement le désir d'apprendre sur le tas)

Connaissance avancée des statistiques et des séries chronologiques : processus stochastiquesOutils : SSA/SVD, RSSA, FIMA/ARFIMA, modèle autorégressif exogène non linéaire (NARX), (N)GARCH et ses dérivés, exposant de Hurst et ses applications, analyse de quantification de la récurrence (RQA).
Expérience de programmation (ou prêt à apprendre) en Python (et ensemble de bibliothèques pour tout ce qui est statistique)
bibliothèques d'analyse de données en Python (theano, keras, Torch, Pandas, NumPy, scikit-learn) ou leurs équivalents en R
une certaine expérience de l'apprentissage automatique, du filtrage collaboratif, de l'analyse en grappes, de la théorie des graphes.
Autres approches mixtes : ANFIS (système d'inférence floue basé sur un réseau adaptatif)
Réseaux neuronaux : apprentissage non supervisé : RNN (réseaux neuronaux récurrents), FNN, RBF, etc.

TÂCHES ET ENVIRONNEMENT :
analyse statistique des données financières, applications économétriques

Modérateurs : s'il vous plaît supprimer accidentellement no-fast-deleted lien vers la source originale, je ne peux pas, il traîne encore dans votre forum de base de données dans le sous-sol de la poste. Sinon, ils penseront que c'est de la publicité. Merci.

Все вакансии компании TenViz LLC
Все вакансии компании TenViz LLC
  • www.work.ua
New York, US, based product (services) company with growing sales on 3 continents and 25−35 employees and contractors. We have a growing team in Ukraine, and are hiring full- and part-time people with...
 
Apprentissage automatique, analyste en réseaux neuronaux
28000 UAH

Description du poste

EXIGENCES PROFESSIONNELLES (nous apprécions le plus le désir d'apprendre sur le tas) :

Connaissance des réseaux neuronaux artificiels et de l'apprentissage automatique, notamment :

Réseau neuronal à anticipation (FNN)
Famille des réseaux neuronaux récurrents (RNN) : y compris le modèle de mémoire à long terme (LSTM)
CNN - Réseaux neuronaux convolutifs
Fonction de base radiale (RBF)
approches mixtes ANFIS (Adaptive Network-based Fuzzy Inference System)
Expérience de la programmation (ou prêt à apprendre) en Python (et ensemble de bibliothèques pour tout ce qui concerne les statistiques)
Librairies d'apprentissage automatique et d'analyse de données en Python (theano, keras, Torch, Pandas, NumPy, scikit-learn)
. En outre, une bonne connaissance de R et/ou Matlab serait utile

DOMAINES DE CONNAISSANCES CONNEXES :

Connaissance avancée des statistiques et des séries chronologiques (processus et outils stochastiques) : ARFIMA, modèle autorégressif exogène non linéaire (NARX), transformées en ondelettes
modèles d'estimation du spectre - analyse du spectre singulier (SSA) (SVD)
Filtrage collaboratif, analyse des grappes, théorie des graphes

TÂCHES (ordre de priorité) :

analyse statistique des données financières, applications économétriques
construction de services et de cadres pour le traitement interactif distribué de requêtes sur de grands volumes de données de marchés financiers
Raison: