Regresión Bayesiana - ¿Alguien ha hecho un EA utilizando este algoritmo? - página 46

 
Yuri Evseenkov:

A un intento de aplicar la fórmula bayesiana. Otra vez.

Tarea. Utilizando el teorema de Bayes, determine qué valor de una garrapata que aún no ha llegado es más probable.

Dada. Series temporales x,y.

y=ax+b Una línea desde el último tick hasta el futuro.

P(a,b|x,y)=P(x,y|a,b)*P(a)*P(b)/P(x,y); (1) Fórmula de Bayes.

P(a,b|x,y)es la probabilidad de que los coeficientes a y b correspondan a las coordenadas x e y de un futuro tic.

Necesitamos encontrar a y b tales que esta probabilidad (o más correctamente,una medida de probabilidad) sea máxima.

P(x,y|a,b) - tomemos el histograma real de la distribución de ticks por niveles de precios como función de probabilidad. La función está definida por una matriz de dos dimensiones: rango de precios - probabilidad, relación porcentual de ticks que caen dentro de este rango con respecto al número total de ticks.

P(b) - la distribución normal de los incrementos se toma como una probabilidad a priori b. Se utiliza el PRNG con el valor distribuido normalmente.

El coeficiente P(a) determina la pendiente de la recta y el signo del incremento previsto. De momento estoy pensando en utilizar el código de regresión lineal que he publicado antes. Es decir, tomar la probabilidad del coeficiente a encontrado allí como la unidad. Y en (1) sustituir la probabilidad P(a) calculada teniendo en cuenta la diferencia de esta a y la calculada para la y dada.

¿Quizás tengas alguna idea de cómo se comporta el signo incremental de cada tic?


Esbozo de 2 indicadores, trabajando en las garrapatas. La primera define A y B para la regresión lineal (para la oferta y la demanda por separado, por si acaso), y traza una línea. El segundo es un histograma de los valores de los ticks (rojo - Ask, azul - Bid). Cada barra de los gráficos de ticks es un nuevo tick, no coinciden con las barras del propio gráfico.

Esto es todo lo que he entendido del post. ¿Qué es lo siguiente? Si entiendo la lógica, la terminaré.


Archivos adjuntos:
 
Dr.Trader:

Usar los ticks para la predicción es peligroso en mi opinión, y el modelo debería ser configurado para cada broker por separado.

Sobre los ticks reales - pueden ser muy diferentes de un corredor a otro.

Estoy de acuerdo. Ya escribí más arriba. Lo diré de nuevo.

Forex es una gran cantidad de empresas de corretaje, las empresas de divisas, las cocinas - Europea, China, Bahamas, Bermudas ... Hay muchos. Ninguno de ellos domina y no contribuye de forma decisiva a la formación de los precios, como tampoco lo hace ningún actor del mercado. La hipótesis se basa en el teorema del límite central de la teoría de la probabilidad (CLT) :

"La suma de un número suficientemente grande de variables aleatorias débilmente dependientes que tienen aproximadamente la misma magnitud (ningún sumando domina, ninguna contribución determinante a la suma) tiene una distribución cercana a la normal."(Wikipedia)

Tal y como yo lo entiendo en relación con el mercado de divisas. Si recopilamos todos los ticks de TODAS las empresas de corretaje en una barra M5 (millones de ticks), la distribución de los ticks dentro de la barra se acercará a una normal. Y cuanto más antiguo sea el marco temporal, más se acercará. Cada empresa de corretaje en particular tiene su propio flujo de cotizaciones que difiere del flujo global dominante por la medida de depreciación de esta empresa de corretaje. Este flujo dominante en el gráfico es una curva (¡ciertamente no recta!) de la que ninguna empresa de corretaje puede alejarse.

Aquí, en este hilo, la gente ha reaccionado con escepticismo a la formulación de la wikipedia sobre el CDT. También me parece incorrecto. Aunque desde entonces he encontrado esta formulación en otras fuentes. Incluso la Referencia MQL4 tiene un ejemplo del indicador según esta redacción.

Por lo tanto, creo que la TPT se rige por un número suficientemente grande de incrementos en el período de la débil influencia de los factores fundamentales.

 
Dr.Trader:

Esbozo de 2 indicadores, trabajando en las garrapatas. La primera define A y B para la regresión lineal (para la oferta y la demanda por separado, por si acaso), y traza una línea. El segundo es un histograma de los valores de los ticks (rojo - Ask, azul - Bid). Cada barra de los gráficos de ticks es un nuevo tick, no coinciden con las barras del propio gráfico.

Esto es todo lo que entiendo del post. ¿Qué es lo siguiente? Si entiendo la lógica, la terminaré.


Quiero calcular las probabilidades mediante la fórmula de Bayes. La regresión lineal y el coeficiente encontrado a sólo se aplican para calcular la probabilidad a priori P(a).
 

Supongamos que existe un precio de referencia, que viene dado por los proveedores de liquidez, y que las cotizaciones de los corredores rebotan en torno a él. En ese caso, la cotización de cada corredor bailará en algún rango alrededor del "precio principal", formando una especie de cúpula en el histograma. Si se suman los histogramas de las cúpulas, se termina con algo parecido a una distribución normal en forma, estoy de acuerdo.

Pero sigue sin funcionar para nosotros, estamos trabajando con las cotizaciones de un corredor en particular, y una distribución normal es poco probable. Llevo un tiempo observando el histograma, mi broker me da un máximo de 4000 ticks (que son unos 20 minutos), los uso todos para el histograma. Es más bien un medio elipse acostado de lado. Si el precio comienza a subir/bajar - el elipse crece un lado delgado, pero eventualmente toma su forma de nuevo. Pero a veces hay dos picos. Se puede intentar describir esta cifra media mediante alguna otra distribución, y utilizarla en los cálculos (y no la gaussiana). Si haces un histograma sobre un número pequeño de ticks, por ejemplo cien, es sólo una distribución amorfa que salta constantemente, no creo que funcione, necesitas mil o más ticks.

El histograma de la imagen tiene el tercio derecho como resultado de los rápidos cambios de precios, y luego todo debería tomar la forma de los dos tercios izquierdos.

 
Dr.Trader:

Supongamos que existe un precio de referencia, que viene dado por los proveedores de liquidez, y que las cotizaciones de los corredores rebotan en torno a él. En ese caso, la cotización de cada corredor bailará en algún rango alrededor del "precio principal", formando una especie de cúpula en el histograma. Si se suman los histogramas de las cúpulas, se termina con algo parecido a una distribución normal en forma, estoy de acuerdo.

Pero sigue sin funcionar para nosotros, estamos trabajando con las cotizaciones de un corredor en particular, y una distribución normal es poco probable.

Esa es otra cuestión. Se trata de la aplicación práctica.

En la fórmula (1) la función de probabilidad P(x,y|a,b) es un histograma real de ticks reales de un corredor real concreto. Por ejemplo, la probabilidad P(x,y|a,b)=0,12 si el 12% de todos los ticks de la ventana caen en y(precio)+rango(conjunto). Construyo el histograma en el perfil.



Luego están los multiplicadores de corrección, las probabilidades a priori P(a) y P(b). Así pues, como P(b) he elegido una distribución normal de los precios PRIRATE. Por qué, está escrito en los puestos anteriores.

 

He leído el documento en el primer post, no sale nada bien.

No pude pasar por muchas de las fórmulas, así que aquí va una paráfrasis libre. El autor tiene un precio de compra y venta de bitcoin durante medio año, con un intervalo de 10 segundos. Hace un programa (clasificador) que tomará los precios actuales, y devolverá tres señales - para comprar, para vender, y sólo para mantener las posiciones abiertas. La previsión se hace para 10 segundos adelante. Cada 10 segundos, el programa debe recibir nuevos datos y contarlos todos de nuevo. Los datos iniciales se dividen en varios vectores y utiliza estos vectores para la predicción de precios. El clasificador toma tres matrices de datos: una para los últimos 30 minutos, la segunda para los últimos 60 minutos y la tercera para los últimos 120 minutos (cada matriz sigue siendo el precio con un intervalo de 10 segundos). No lo entiendo más. Las fórmulas son muy similares a las neuronales, es decir, a cada valor de entrada le corresponde un peso. Pero estos pesos se aplican a tres matrices a la vez. Y de repente resulta que no se pueden encontrar pesos (pero esto es una neurona, ¿no?) y hay que probar todas las variantes. Empíricamente el autor dedujo alguna fórmula, que debería ayudar a la optimización de los pesos, rechazando lo que obviamente no es adecuado, y en algún lugar se utiliza la regresión bayesiana. También es probable que el resultado de la regresión se utilice como valor de entrada para el clasificador.

Me parece que es un trabajo trimestral de un estudiante hecho un par de noches antes de la fecha de entrega. No hay prufs de ganancia :)

Aunque se utiliza la regresión bayesiana, está ahí como una pequeña parte de un sistema complejo. Quizás debido a la optimización de los pesos su influencia se reduce a cero. También podría poner un generador de números aleatorios en las neuronas o el calendario maya, de todos modos su influencia se reducirá a cero durante la optimización.

 
No he podido pasar el primer post en inglés. Estoy tratando de entender los ejemplos del teorema bayesiano en otras áreas. Y sólo estoy tratando de calcular las probabilidades de ocurrencia de tal o cual precio utilizando la fórmula de Bayes. Y la distribución normal no es un atributo necesario en absoluto. Es sólo una de las hipótesis de una de las probabilidades a priori hasta ahora.
 

He encontrado dos artículos sobre el tema de la rama - puede ser útil para los entusiastas

Artículo 1.

Regresión bayesiana con STAN: Parte 1 regresión normal

Artículo 2

Regresión bayesiana con STAN Parte 2: Más allá de la normalidad

Cada artículo es un anuncio de dos libros con el mismo título

Bayesian regression with STAN: Part 1 normal regression
Bayesian regression with STAN: Part 1 normal regression
  • Lionel Hertzog
  • datascienceplus.com
This post will introduce you to bayesian regression in R, see the reference list at the end of the post for further information concerning this very broad topic. Bayesian regression Bayesian statistics turn around the Bayes theorem, which in a regression context is the following: $$ P(\theta|Data) \propto P(Data|\theta) \times P(\theta) $$...
 

Ustedes - ingenieros, físicos, operadores de radio - son tan raros.....

Muchas veces os he dicho aquí que los quants, los alt-traders, los market-makers... no son idiotas, que son BUENOS en matemáticas, que no se les paga SUAVEMENTE a 100K+ al año + bonus, pero parece que todos no lo entendéis.

El precio en la bolsa es una expresión de un sistema CONECTADO, por lo que cualquier modelo de precio útil (marginalmente adecuado) NO PUEDE ser simple. Sí, puede haber regresión bayesiana dentro, pero sólo como método numérico auxiliar. Y tú le echas un rebaño a "este rabo de gato tuyo, ¡lo pisoteamos aquí sólo con el método bayesiano!

Bueno, tal vez esto le sirva: la lista de métodos matemáticos utilizados activamente en el comercio por los grandes creadores de mercado, los bancos y los fondos de cobertura. Esta lista también está dividida por subespecialidades, es decir, por tipos de instrumentos financieros negociados y por tipos de previsión en los bancos. Esta lista fue elaborada por un antiguo empleado de alto nivel de Citi y JPMorgan. La lista no es secreta, puedes averiguarla en 5-10 libros de matemáticas financieras (en inglés). Pero en el foro ruso, e incluso de forma tan completa, la lista es rara.

Científico de datos, estadístico
25000 USD
Descripción del trabajo
REQUISITOS PROFESIONALES (valoramos más las ganas de aprender sobre la marcha)

Conocimientos avanzados de estadística y series temporales: Procesos estocásticosHerramientas: SSA/SVD, RSSA, FIMA/ARFIMA, Modelo Autorregresivo Exógeno No Lineal (NARX), (N)GARCH y sus derivados, Exponente de Hurst y sus aplicaciones, Análisis de cuantificación de recurrencia (RQA)
Experiencia en programación (o disposición a aprender) en Python (y conjunto de librerías para todo lo relacionado con la estadística)
Bibliotecas de análisis de datos en Python (theano, keras, Torch, Pandas, NumPy, scikit-learn) o sus equivalentes en R
cierta experiencia con el aprendizaje automático, el filtrado colaborativo, el análisis de clústeres y la teoría de grafos
Otros enfoques combinados: ANFIS (sistema de inferencia difusa basado en la red adaptativa)
Redes neuronales: aprendizaje no supervisado: RNN (redes neuronales recurrentes), FNN, RBF, etc.

TAREAS Y ENTORNO:
análisis estadístico de datos financieros, aplicaciones econométricas

Moderadores: por favor, eliminar accidentalmente no-rápido enlace a la fuente original, no puedo, todavía se cuelga en su base de datos del foro en el sótano del puesto. Si no, pensarán que es publicidad. Gracias.

Все вакансии компании TenViz LLC
Все вакансии компании TenViz LLC
  • www.work.ua
New York, US, based product (services) company with growing sales on 3 continents and 25−35 employees and contractors. We have a growing team in Ukraine, and are hiring full- and part-time people with...
 
Aprendizaje automático, analista de redes neuronales
28000 UAH

Descripción del puesto

REQUISITOS PROFESIONALES (valoramos más las ganas de aprender sobre la marcha):

Conocimiento de redes neuronales artificiales y aprendizaje automático, incluyendo:

Red neuronal FeedForward (FNN)
Familia de redes neuronales recurrentes (RNN): incluyendo el modelo de memoria a corto plazo (LSTM)
CNN - Redes neuronales convolucionales
Función de base radial (RBF)
enfoques combinados ANFIS (Sistema de inferencia difusa basado en redes adaptativas)
Experiencia en programación (o disposición a aprender) en Python (y conjunto de librerías para todo lo relacionado con la estadística)
Librerías de aprendizaje automático y análisis de datos en Python (theano, keras, Torch, Pandas, NumPy, scikit-learn)
adicionalmente, sería útil un buen conocimiento de R y/o Matlab

ÁREAS DE CONOCIMIENTO RELACIONADAS:

Conocimientos avanzados de Estadística y series temporales (procesos estocásticos y herramientas): ARFIMA, Modelo Autorregresivo Exógeno No Lineal (NARX), Transformadas Wavelet
modelos de estimación del espectro - Análisis de Espectro Singular (SSA) (SVD)
Filtrado colaborativo, Análisis de Cluster, Teoría de Grafos

TAREAS (orden de prioridad):

análisis estadístico de datos financieros, aplicaciones econométricas
creación de servicios y marcos para el procesamiento interactivo de consultas distribuidas sobre grandes volúmenes de datos de los mercados financieros
Razón de la queja: