Regresión Bayesiana - ¿Alguien ha hecho un EA utilizando este algoritmo? - página 35

 

Qué, no hay suficiente de nuevo????

Bueno, para más:

Dependiente: AUDNZD Múltiple R = 0,83469441 F = 3845,556

R?= .69671476 df = 1.1674

Número de casos: 1676 R?= .69653358 ajustada p = .000000

Error estándar de estimación: .053321255

Intercepción: 6,047516031 Error estándar: .0782142 t( 1674) = 77,320 p = 0,0000


 

Control a la cabeza:

Dependiente: NZDCAD Múltiple R = .87619213 F = 5532.591

R?= .76771265 df = 1.1674

Número de casos: 1676 R?= .76757389 ajustada p = .000000

Error estándar de estimación: .032035522

Intercepción: -2,664033151 Error estándar: .0469913 t( 1674) = -56,69 p = 0,0000


 
Дмитрий:

¿Ya es "muy baja" la R^2?

¿Existe una correlación?

La correlación es indetectable. R es débil. Resulta que utilizo el R2 de forma muy activa para evaluar la calidad de la renta variable de mis estrategias y créanme que he visto cientos de gráficos en los que el R2 era similar al que se presenta aquí. Este es totalmente diminuto, indistinguible de SB.

 
Vasiliy Sokolov:

La relación es indetectable. R es débil. Resulta que yo mismo soy muy activo en el uso de la R2 para evaluar la calidad de la renta variable de mis estrategias, y créanme, he visto cientos de gráficos cuya R2 era más o menos la que se presenta aquí. Este es totalmente diminuto, indistinguible de SB.

))))))))))))))))))))))))))0
 

Recuerdo haber hecho lo siguiente en el proyecto R: generar mil trayectorias de mercado aleatorias, mil medidas cada una. Luego tiré una regresión lineal sobre cada uno de ellos y obtuve su R^2. Como resultado, el vector resultante de los valores de R^2 resultó ser un valor distribuido uniformemente de cero a 0,99... Con una media de aproximadamente 0,5. Sugiero a todos que repitan mi resultado, y que piensen en la esencia de lo que estamos contando.

s.w. Lástima que no tenga R o estos códigos a mano, si no una imagen valdría más que mil palabras...

 
Vasiliy Sokolov:
Recuerdo haber hecho una cosa así en el proyecto R: generé mil trayectorias de mercado aleatorias, con mil medidas cada una. Luego tiré una regresión lineal sobre cada uno de ellos y obtuve su R^2. Como resultado, el vector resultante de los valores de R^2 resultó ser un valor distribuido uniformemente de cero a 0,99... Con una media de aproximadamente 0,5. Invito a todos a repetir mi resultado, y a pensar en la esencia de lo que estamos contando.

И?

¿Qué sentido tiene lo que se escribe? ¿Que el análisis de regresión no debe utilizarse porque una de las enésimas series de PRNG generadas puede mostrar un gran R^2?

Por lo tanto, es necesario desechar todos los métodos de matestadística y predicción.

 
Vasiliy Sokolov:

Me sorprende el alto nivel de dominio de los métodos matemáticos por parte de los panelistas y su completa falta de comprensión de los principios de su aplicabilidad. Cualquier análisis de regresión correlaciona los datos. Si no hay correlación, la regresión no es aplicable. Si la distribución de las cantidades estudiadas es distinta de la normal, los métodos estadísticos paramétricos tampoco son aplicables. El mercado no tiene la propiedad de la normalidad. Además, el mercado como proceso no depende del tiempo. Ambos tachan la idea misma de análisis de regresión, sea cual sea su raíz.

El problema es que muchos participantes, incluido usted, no entienden la regresión y utilizan definiciones oscuras. No hay límite a la distribución de errores en una definición adecuada del análisis de regresión. Lo principal es que los errores deben ser estadísticamente independientes entre sí para permitir que el error de regresión total se represente como la suma de las funciones de los errores individuales. Todo lo demás son casos especiales de regresión. Por ejemplo, el requisito de normalidad del error sólo se aplica a la regresión RMS, es decir, cuando el error de regresión total se representa como la suma de los cuadrados de los errores individuales. Este es el método más sencillo de regresión, por lo que lleva a resolver un sistema de ecuaciones lineales. Si no quiere asumir la normalidad de los errores, utilice cualquier otra distribución. En lugar de la suma de cuadrados, el error total se representará por la suma de alguna otra función de errores individuales.

Voy a intentar explicarlo de esta manera. Supongamos que tenemos mediciones y y datos de entrada x. Grafiquemos y en x. Los puntos de y(x) forman alguna nube. Si esta nube es circular con una densidad uniforme de puntos en todas las direcciones, entonces por mucho que se retuerza y se atornille la distribución de errores, el modelo y(x) no existe ya que y y x son independientes. Si esta nube se extiende en alguna dirección, entonces podemos construir un modelo. En ese caso tenemos varias opciones de modelos:

1. Construye un y_mod(x) lineal = a + b*x o un y_mod(x) no lineal = F(x) = ejemplo = a0 + a1*x + a2*x^2 +... modelos.

2. Asumiendo la independencia de los errores de medición e[i] = y[i] - y_mod[i], asumimos su normalidad err_sum = SUM e[i]^2, o la no normalidad err_sum = SUM G(e[i]) donde G() es cualquier función "no cuadrada", por ejemplo G(e) = |e|, o en el caso general G(e) = |e|^p. Podemos retorcernos y hacer una función de error en la que se dé más peso a los valores negativos de y[i], por ejemplo. Cualquiera que sea la elección de G(e) no afecta a la predictibilidad de y en función de x. Sólo afecta a la forma de dibujar una línea recta a través de la nube y(x). Por ejemplo, si G(e) = e^10, esta línea recta estará más cerca de los valores mayores de y.

La elección del lineal y_mod(x) = a + b*x o del polinomio y_mod(x) = a0 + a1*x + a2*x^2 +... modelo depende de la forma de nuestra nube alargada. En ambos casos podemos utilizar la regresión media-cuadrada, que nos llevará a un sistema de ecuaciones lineales que se resuelve rápidamente.

Ahora hablemos del tiempo. Si y(t) y x(t) dependen del tiempo, lo que ocurre en casi todos los casos de regresión, ya que las mediciones se realizan en diferentes puntos del tiempo, no cambia la cuestión. Podemos seguir hablando de regresión y(t) = F(x(t)). Si la función y(t) = F(x(t)) depende del tiempo, es decir, y(t) = F(x(t),t), la regresión estática y=F(x) en todo el intervalo de tiempo no es aplicable. Se debe utilizar un modelo dinámico y=F(x,t).

 
Vladimir:
Según las investigaciones de un matemático (no recuerdo su apellido, trabaja para la FINAM), la distribución es cercana a la normal con colas alargadas (pero se entiende por qué). Así que la regresión lineal, en mi opinión, es la que manda.
 
Yuriy Asaulenko:
Según las investigaciones de un matemático (no recuerdo su apellido, trabaja para la FINAM), la distribución es cercana a la normal con colas alargadas (pero se entiende por qué). Así que la regresión lineal, en mi opinión, es bastante buena.
He probado muchas distribuciones de errores diferentes. No he notado ninguna diferencia especial en los resultados, pero el tiempo de cálculo aumenta considerablemente. Por eso uso la regresión RMS. Me da miedo llamarlo lineal, porque la función y(x) puede ser no lineal en la variable x, pero lineal en los coeficientes del modelo, en cuyo caso la regresión al cuadrado promediado sigue dando una notable aceleración de los cálculos. En lugar de dedicar tanto tiempo a las teorías de aplicabilidad de la normalidad y la regresión, es mucho más importante hablar de la preparación de los datos de entrada, ya que puedo dibujar esta nube y(x) o hacerla circular mediante una simple transformación de la entrada x y las medidas y. La forma de trazar una línea recta o una parábola a través de esta nube y de calcular los errores de modelización (cuadrados o valores absolutos) es una cuestión secundaria.
 

Apelo a los escépticos.

¡Señoras y señores, señoras y señores, camaradas! Hay demasiada sangre en su sistema de circulación de alcohol.(C)

¿Qué puede modelar matemáticamente en R si no ha decidido las preguntas conceptuales para la fórmula de Bayes: cuál es el mercado a la derecha de la barra de cero. ¿Y es un mercado? ¿O tal vez un buen simulador de juegos con un algoritmo adecuado? ¿Qué distribución y función de probabilidad tomar?

El mundo no ha llegado a un final feliz con la distribución normal. Bayes había muerto cuando nació Gauss. Sugerí tomar la distribución normal porque ustedes, los escépticos, lo han demostrado convincentemente. Y si los escépticos decís que no encaja, que no se aplica, entonces proponed algo que sí lo haga, aparte de lo que ya se ha propuesto. Su función de verosimilitud y la ley de distribución se pueden aplicar a la fórmula de Bayes, por ejemplo, como he descrito en la página 31 del post del 8 de marzo bajo el ramo. Y a ver qué pasa.