Discusión sobre el artículo "Recetas de estadística para el trader - Hipótesis"

 

Artículo publicado Recetas de estadística para el trader - Hipótesis:

En este artículo se estudia un concepto básico de la matemática estadística, la "hipótesis". Con ejemplos, aplicando métodos de matemática estadística, investigaremos y comprobaremos diferentes hipótesis. Se hacen generalizaciones de los datos reales con ayuda de métodos no paramétricos. Al procesar los datos, se usa el paquete Statistica la biblioteca portable de análisis numérico ALGLIB MQL5.

Cualquier trader que tenga ganas de crear su propio sistema comercial, tarde o temprano se convierte en un analítico. Intenta encontrar regularidades en el mercado y comprobar tal o cual idea comercial. La simulación de una idea puede basarse en diferentes enfoques, comenzando por la búsqueda común de los mejores valores de parámetros en el modo de optimización del Simulador de estrategias, y terminando por la investigación científica (y a veces pseudocientífica) de los datos de mercado.

En este artículo le propongo ver a fondo un instrumento de análisis estadístico para la investigación y la comprobación de conclusiones, tal como la hipótesis estadística. Probaremos con ejemplos a simular diferentes hipótesis con ayuda del paquete Statistica y la biblioteca portable de análisis numérico ALGLIB MQL5.


2. Comprobación de hipótesis, teoría

La hipótesis que hay que comprobar, se llama nula (Н0). Para esta se elige una alternativa, la hipótesis alternativa (Н1). Esta constituiría el otro lado de la moneda para Н0, es decir, niega lógicamente la hipótesis nula.

Imagine que se dispone de un conjunto de datos según stop loss de un cierto sistema comercial. Formamos un par de hipótesis que componen la base para la comprobación.

Н0 – valor medio del stop loss igual a 30 puntos;

Н1 – valor medio del stop loss no igual a 30 puntos.

Variantes de aceptación-refutación de una hipótesis:

  1. Н0 es verdadera, y es aceptada;
  2. Н0 no es verdadera, y es rechazada en favor de Н1;
  3. Н0 es verdadera, pero es rechazada en favor de Н1;
  4. Н0 no es verdadera, pero es aceptada.

Las últimas dos variantes están relacionadas con errores.

Ahora hay que elegir el valor del nivel de significación. Es la probabilidad de que se tome una hipótesis alternativa cuando la verdadera resulte nula (tercera variante). Como es natural, es deseable minimizar esta probabilidad.

En nuestro ejemplo, este error sucederá si consideramos que el stop loss de media no es igual a 30 pp, con la condición de que verdaderamente sea igual a esta cantidad de puntos.

Normalmente, el valor del nivel de significación (α) es igual a 0,05. Es decir, en no más de 5 casos de 100 se permite la entrada del valor del criterio de comprobación de la hipótesis nula en la zona crítica.

En nuestro ejemplo, valoraremos el criterio según el gráfico del libro de texto (fig.1).

Fig.1 Distribución del criterio según la ley normal

Fig. 1. Distribución del criterio según la ley normal

Autor: Dennis Kirichenko

 
  1. Hay tres clases de mentiras: inocentes, descaradas y estadísticas © Mark Twain
  2. "Paradoja de Bleek": realizamos varios experimentos y calculamos la probabilidad de la hipótesis nula para cada uno de ellos. Aunque todos los resultados estadísticos de los experimentos individuales fueron "exitosos", es decir, la hipótesis nula de cada uno se rechazó con probabilidad p < n, tras el metaanálisis obtenemos el resultado contrario: p > n.
  3. Antes de aplicar la estadística en un ámbito concreto, es necesario asegurarse de que se trata de un entorno ergódico. De lo contrario, resultará ser un juego de números con cara de listo.
 
Reshetov:
  1. "Paradoja de Bleck": realizamos varios experimentos y calculamos la probabilidad de la hipótesis nula para cada uno de ellos. A pesar de que todos los resultados estadísticos de los experimentos individuales fueron "exitosos", es decir, la hipótesis nula para cada uno de ellos fue rechazada con probabilidad p < n, después del meta-análisis obtenemos el resultado opuesto: p > n.

Se trata de una paradoja interesante. ¿Dónde puedo obtener más información al respecto?

2. Antes de aplicar la estadística en un área determinada, es necesario asegurarse de que estamos tratando con un entorno ergódico . De lo contrario, obtendremos un juego de números con cara de listos.
Aclare lo que entiende por entorno ergódico .
 
denkir:

Interesante paradoja. ¿Dónde puedo encontrar más información al respecto?

Aclare lo que entiende por entorno ergódico .

Su artículo me da una doble impresión.

Además. En este foro, el mero hecho de preguntar sobre la evaluación hipotética de los resultados es muy importante. El foro está lleno de gente que dibuja una mashka y supone que es así en lugar de una mashka en el intervalo.

Menos.

Totalmente de acuerdo con Reshetov. Todo lo que has contado - se refiere a series estacionarias o cercanas a ellas - es decir, series con poco cambio de mo y varianza en el tiempo. Pero en los mercados financieros no existen tales series y toda la aplicación de la estadística en los mercados financieros gira en torno a la estacionariedad de las series temporales. Los ejemplos más famosos son ARIMA, ARCH y todos los demás.

Su serie aleatoria, cuyo histograma se muestra en la Fig. 2, muestra que la serie tiene una débil relación con la estacionaria, está sesgada y tiene colas significativamente diferentes. Se aprecia especialmente bien en relación con la curva perfectamente normal dibujada por usted. Por tanto, tu razonamiento no se aplica en absoluto a tu ejemplo. Éste es sólo una ilustración del pensamiento de Reshetov.

PS. El concepto más peligroso y despreciable de la estadística es la correlación. Es mejor no mencionarlo en absoluto.

 
faa1947:
...Todo lo que has contado - se refiere a series estacionarias o cercanas a ellas - es decir, series con poco cambio de mo y varianza en el tiempo. Y no existen tales series en los mercados financieros, y toda la aplicación de la estadística en los mercados financieros gira en torno a la estacionariedad de las series temporales. Los ejemplos más famosos son ARIMA, ARCH y todos los demás.

Su serie aleatoria, cuyo histograma se muestra en la Fig. 2, muestra que la serie tiene una débil relación con la estacionaria, está sesgada y tiene colas significativamente diferentes. Se aprecia especialmente bien en relación con la curva perfectamente normal dibujada por usted. Por tanto, tu razonamiento no se aplica en absoluto a tu ejemplo. Éste es una ilustración del pensamiento de Reshetov.

Gracias por su opinión.

Daré mis contraargumentos.

La estacionariedad es una característica de una serie temporal. La figura 2 es una serie de variación. El artículo no habla de series temporales. Aunque estoy de acuerdo en que el tiempo es una característica útil.....

Por lo que tengo entendido, ergodicidad significa una cierta estabilidad del sistema en estudio....

Por lo tanto, me gustaría señalar un punto importante. Si el sistema, hablemos de una serie temporal financiera, no es estacionario, aún podemos utilizar la econometría para encontrar un modelo estable (por ejemplo, GARCH) que describa el comportamiento del modelo. Y en esto veo la constancia del sistema - comportamiento según el modelo.... pero con la condición de que existe cierta probabilidad de que el sistema "rompa" el modelo...

 
denkir:

Gracias por su opinión.

He aquí mis contraargumentos.

La estacionariedad es una característica de una serie temporal. La figura 2 es una serie de variación. El artículo no habla de series temporales. Aunque estoy de acuerdo en que el tiempo es una característica útil.....

Por lo que tengo entendido, ergodicidad significa una cierta estabilidad del sistema en estudio....

Por lo tanto, me gustaría señalar un punto importante. Si el sistema, hablemos de una serie temporal financiera, no es estacionario, aún podemos utilizar la econometría para encontrar un modelo estable (por ejemplo, GARCH) que describa el comportamiento del modelo. Y en esto veo la constancia del sistema - comportamiento según el modelo.... pero con la condición de que existe cierta probabilidad de que el sistema "rompa" el modelo.....

Hace algún tiempo, unos años, publiqué un artículo aquí en el sitio en el que corroboré una idea que es completamente inaceptable para la mayoría de la gente. A saber.

Hay muchos indicadores. Todo el mundo piensa que si se dibuja un indicador, es el mismo - después de todo, vemos esto mismo. Al mismo tiempo, ¡a la mayoría de la gente no se le ocurre que lo que vemos en realidad puede no existir! La razón es banal. Si tomamos la regresión correspondiente al indicador, puede resultar fácilmente que algunos de sus coeficientes tengan intervalos de confianza tan amplios que sea imposible hablar en absoluto del valor de tal coeficiente, y si desechamos tal coeficiente defectuoso, el patrón del indicador será completamente distinto. Cuando dicen: hay verdad, hay falsedad y hay estadística, se refieren a esta triste y muy poco acostumbrada circunstancia: no se puede confiar en nada, incluidos los intervalos de confianza.

Por eso dejé los modelos paramétricos y me dediqué a los modelos basados en el aprendizaje automático. Allí no hay problemas con la estacionariedad, pero los problemas con el sobreentrenamiento están en todo su esplendor.

 

Y me ha gustado el artículo.

Sí, las observaciones de San Sanych y Reshetov son legítimas: si el sistema comparado (o el sistema) cambia sus parámetros, los resultados de la prueba serán inútiles.

Pero la propia demostración de la aplicación de métodos es agradable. ¡Es raro para Forex!

Yo diría algo más, como una persona que aplica métodos similares exactamente para los precios de cotización. Es posible comprobar de antemano si el entorno es homogéneo (en dos muestras grandes independientes) y luego confiar en los resultados de la prueba de hipótesis con cierta tranquilidad. Esto también puede hacerse gracias a las mismas pruebas.