¿Cómo validar si tu EA realmente funciona?

 
Comparto algunas lecciones aprendidas después de desarrollar y probar múltiples versiones de sistemas automatizados:

 Lo que NO funciona:
  • Confiar solo en backtest con profit factor >2
  • Optimizar hasta que los números se vean "bonitos"
  • Ignorar condiciones de mercado diferentes

 Métricas que realmente importan:
  • Consistencia en forward testing (mínimo 3 meses)
  • Recovery factor vs Drawdown máximo
  • Comportamiento en diferentes volatilidades
  • Considerar resultados con Sharpe Ratio mayor a 1.5


¿Qué métricas usan ustedes para validar sus sistemas? o ¿Han encontrado alguna que prediga mejor el rendimiento real?

 
Cristian David Castillo Arrieta:
Comparto algunas lecciones aprendidas después de desarrollar y probar múltiples versiones de sistemas automatizados:

 Lo que NO funciona:
  • Confiar solo en backtest con profit factor >2
  • Optimizar hasta que los números se vean "bonitos"
  • Ignorar condiciones de mercado diferentes

 Métricas que realmente importan:
  • Consistencia en forward testing (mínimo 3 meses)
  • Recovery factor vs Drawdown máximo
  • Comportamiento en diferentes volatilidades
  • Considerar resultados con Sharpe Ratio mayor a 1.5


¿Qué métricas usan ustedes para validar sus sistemas? o ¿Han encontrado alguna que prediga mejor el rendimiento real?

Hola. Solo desde mi experiencia voy a comentar algunas cosas que me parecen interesantes. De ningun modo estoy dando una lección, solo es lo que yo pienso:

  • Optimizar hasta que los números se vean "bonitos" ---> Optimizar valles, no picos. Si una configuración da unos resultados pero al mover un poco algo (fechas, parámetros,...) el backtest sale mal: NO SIRVE. 
  • Considerar resultados de Sharpe Ratio mayor a 1.5 ---> El Sharpe pasado no predice de ningun modo el Sharpe futuro. Es una métrica que carece de ningun poder predictivo.
  • Ignorar condiciones de mercado / Comportamiento en diferentes volatilidades ---> Pienso igual. Si el EA no es capaz de seguir distintos ritmos del pasado, no seguirá distintos ritmos del futuro.
  • Recovery Factor vs DD máximo ---> Lo mismo de antes, esas métricas no predicen de ningun modo el futuro. La correlación es prácticamente cero. si trabajas en forward en el Strategy Tester lo puedes comprobar.

 
Enrique Enguix #:

Hola. Solo desde mi experiencia voy a comentar algunas cosas que me parecen interesantes. De ningun modo estoy dando una lección, solo es lo que yo pienso:

  • Optimizar hasta que los números se vean "bonitos" ---> Optimizar valles, no picos. Si una configuración da unos resultados pero al mover un poco algo (fechas, parámetros,...) el backtest sale mal: NO SIRVE. 
  • Considerar resultados de Sharpe Ratio mayor a 1.5 ---> El Sharpe pasado no predice de ningun modo el Sharpe futuro. Es una métrica que carece de ningun poder predictivo.
  • Ignorar condiciones de mercado / Comportamiento en diferentes volatilidades ---> Pienso igual. Si el EA no es capaz de seguir distintos ritmos del pasado, no seguirá distintos ritmos del futuro.
  • Recovery Factor vs DD máximo ---> Lo mismo de antes, esas métricas no predicen de ningun modo el futuro. La correlación es prácticamente cero. si trabajas en forward en el Strategy Tester lo puedes comprobar.

El Sharpe no es una profecía, pero tampoco es un adorno estadístico. No predice el futuro de forma determinista, cierto, pero sí estima una esperanza matemática bajo los datos observados. Descartarlo por completo sería como negar cualquier análisis cuantitativo: imperfecto, sí, pero es la mejor aproximación racional que tenemos para evaluar si una estrategia tiene ventaja o no.
 
Miguel Angel Vico Alba #:
El Sharpe no es una profecía, pero tampoco es un adorno estadístico. No predice el futuro de forma determinista, cierto, pero sí estima una esperanza matemática bajo los datos observados. Descartarlo por completo sería como negar cualquier análisis cuantitativo: imperfecto, sí, pero es la mejor aproximación racional que tenemos para evaluar si una estrategia tiene ventaja o no.

Muy bien dicho!, almenos a mi el sharpe me sirve para determinar si vale la pena o no probar una configuracion especifica, por experiencia si establezco la medicion de los resultados de optimizacion en el simulador, casi siempre las curvas resultan muy interesantes:


Optimizacion Sharpe Max


Sharpe Result

Sharpe Result 2

Sharpe analisis


Ademas de ofrecer una velocidad mayor en el proceso de calculo de la  optimización.

 
Cristian David Castillo Arrieta #:

Muy bien dicho!, almenos a mi el sharpe me sirve para determinar si vale la pena o no probar una configuracion especifica, por experiencia si establezco la medicion de los resultados de optimizacion en el simulador, casi siempre las curvas resultan muy interesantes:




Ademas de ofrecer una velocidad mayor en el proceso de calculo de la  optimización.

Los pases con mejor ratio de sharpe proyectan ese sharpe al periodo forward? Entonces fantástico, me alegro que os sirva!
 
Enrique Enguix #:
Los pases con mejor ratio de sharpe proyectan ese sharpe al periodo forward? Entonces fantástico, me alegro que os sirva!

El Sharpe no se proyecta como una fotocopia al futuro, igual que ninguna métrica lo hace.

Pero entre decidir a ciegas y decidir con una estimación de esperanza ajustada por riesgo, me quedo con lo segundo. No es promesa, es información.

La esperanza matemática debe de ser un mito estadístico...

 
Miguel Angel Vico Alba #:

El Sharpe no se proyecta como una fotocopia al futuro, igual que ninguna métrica lo hace.

Pero entre decidir a ciegas y decidir con una estimación de esperanza ajustada por riesgo, me quedo con lo segundo. No es promesa, es información.

La esperanza matemática debe de ser un mito estadístico...

Gracias Miguel, ademas del Sharpe para ti que otra medida es fundamental considerar en el proceso de optimizacion?
 
Cristian David Castillo Arrieta #:
Gracias Miguel, ademas del Sharpe para ti que otra medida es fundamental considerar en el proceso de optimizacion?
Voy a decir algo poco original, porque sobre esto ya se ha escrito mucho y cada maestrillo tiene su librillo. Aun así, lo básico sigue funcionando.
  • Primero, que exista una ventaja estadística real: esperanza por trade positiva y estable, no sostenida por dos operaciones milagro.
  • Segundo, mirar el riesgo estructural: relación beneficio/drawdown tipo MAR o Ulcer, no quedarse solo en el profit factor.
  • Tercero, la prueba de fuego: robustez, que el resultado aguante pequeñas variaciones de parámetros, de spread y de ventana temporal.

Si eso no se cumple, el resto de métricas acaban siendo pura cosmética numérica.

Edito: Peter Martin introdujo el Ulcer Index en 1987 en su libro "The Investor’s Guide to Fidelity Funds", precisamente para medir el riesgo desde la perspectiva que más duele al inversor real: profundidad y duración de las caídas, no la volatilidad simétrica que usa el Sharpe.

Espero te sea útil.

Code Base

Ulcer Index

Samuel Williams, 2018.01.29 14:09

This Ulcer Index indicator was derived from the stock risk indicator by Peter Martin in the 1987 book "The Investors Guide to Fidelity Funds".

 
Miguel Angel Vico Alba #:

El Sharpe no se proyecta como una fotocopia al futuro, igual que ninguna métrica lo hace.

Pero entre decidir a ciegas y decidir con una estimación de esperanza ajustada por riesgo, me quedo con lo segundo. No es promesa, es información.

La esperanza matemática debe de ser un mito estadístico...

No he dicho que el Sharpe sea una “fotocopia” del futuro. Digo que su capacidad predictiva debe medirse, no asumirse.

Hecho (fuente pública): Jaume Antolí Plaza (2º clasificado en Robotrader 2023) publicó el 15/09/2025 un test empírico sobre si métricas in-sample predicen performance forward. 

Diseño: 7 pares FX, 1400 reglas, 21 años (2004–2024), train 2013–2017, forward real 2018–2024. 

Resultado: correlación Sharpe(train) vs Profit(forward) r=0.050 (p=0.162); Profit(train) r=-0.009 (p=0.804); Profit Factor(train) r=0.021 (p=0.556). Traducido: correlación prácticamente nula con el performance futuro. Estadísticamente equivalente a tirar una moneda.

Inferencia mínima: con esos datos, usar Sharpe (o métricas similares) como criterio de selección no aporta ventaja predictiva medible frente a decidir a ciegas (al menos en ese experimento).

La esperanza matemática no es “un mito”; el problema es que el estimador in-sample (sobre todo bajo data mining/múltiples pruebas/no-estacionariedad) puede no generalizar. La única forma de llamarlo “información” es exigir evidencia OOS/forward.
 
Enrique Enguix #:
No he dicho que el Sharpe sea una “fotocopia” del futuro. Digo que su capacidad predictiva debe medirse, no asumirse.

Hecho (fuente pública): Jaume Antolí Plaza (2º clasificado en Robotrader 2023) publicó el 15/09/2025 un test empírico sobre si métricas in-sample predicen performance forward. 

Diseño: 7 pares FX, 1400 reglas, 21 años (2004–2024), train 2013–2017, forward real 2018–2024. 

Resultado: correlación Sharpe(train) vs Profit(forward) r=0.050 (p=0.162); Profit(train) r=-0.009 (p=0.804); Profit Factor(train) r=0.021 (p=0.556). Traducido: correlación prácticamente nula con el performance futuro. Estadísticamente equivalente a tirar una moneda.

Inferencia mínima: con esos datos, usar Sharpe (o métricas similares) como criterio de selección no aporta ventaja predictiva medible frente a decidir a ciegas (al menos en ese experimento).

La esperanza matemática no es “un mito”; el problema es que el estimador in-sample (sobre todo bajo data mining/múltiples pruebas/no-estacionariedad) puede no generalizar. La única forma de llamarlo “información” es exigir evidencia OOS/forward.
Veo que hemos pasado del debate de café a la cátedra con bata, fórmulas y fechas milimétricas. Solo falta el DOI y un sello notarial.

Antes de aceptar el experimento como verdad revelada, estaría bien ver la fuente real y reproducible, no un resumen narrado estilo acta apostólica. Correlacionar Sharpe in-sample con profit forward es como juzgar un coche por el color del asiento: métricas distintas, preguntas distintas.

Nadie ha dicho que el Sharpe sea una bola de cristal, pero tampoco es un florero estadístico. Es una estimación de ventaja ajustada por riesgo. Si la descartamos por no ser profética, entonces tiramos a la papelera cualquier análisis cuantitativo y nos quedamos con el oráculo del “me gusta la curva”.

Y sobre lo de decidir a ciegas porque la correlación salió baja… interesante método científico: si la báscula no predice tu peso del año que viene, mejor pesar a ojo.

En fin, si hay estudio serio, encantado de leerlo. Con enlace, metodología y sin incienso académico de IA.
 
Miguel Angel Vico Alba #:
Veo que hemos pasado del debate de café a la cátedra con bata, fórmulas y fechas milimétricas. Solo falta el DOI y un sello notarial.

Antes de aceptar el experimento como verdad revelada, estaría bien ver la fuente real y reproducible, no un resumen narrado estilo acta apostólica. Correlacionar Sharpe in-sample con profit forward es como juzgar un coche por el color del asiento: métricas distintas, preguntas distintas.

Nadie ha dicho que el Sharpe sea una bola de cristal, pero tampoco es un florero estadístico. Es una estimación de ventaja ajustada por riesgo. Si la descartamos por no ser profética, entonces tiramos a la papelera cualquier análisis cuantitativo y nos quedamos con el oráculo del “me gusta la curva”.

Y sobre lo de decidir a ciegas porque la correlación salió baja… interesante método científico: si la báscula no predice tu peso del año que viene, mejor pesar a ojo.

En fin, si hay estudio serio, encantado de leerlo. Con enlace, metodología y sin incienso académico de IA.
Sin problema, ahí está el enlace: ¿Las métricas de backtest sirven para algo?

Esto no es una discusión, no tiene la intención de criticar o de atacar a nadie, no es nada más que aportar información a un hilo que pueda servir a quien la lee. "cátedra con bata, fórmulas y fechas milimétrica" porque así lo merece el asunto.

un saludo