Discusión sobre el artículo "Superando las limitaciones del aprendizaje automático (Parte 1): Falta de métricas interoperables"

 

Artículo publicado Superando las limitaciones del aprendizaje automático (Parte 1): Falta de métricas interoperables:

Existe una fuerza poderosa y omnipresente que corrompe silenciosamente los esfuerzos colectivos de nuestra comunidad por desarrollar estrategias comerciales fiables que empleen la IA en cualquiera de sus formas. Este artículo establece que parte de los problemas a los que nos enfrentamos tienen su origen en la adhesión ciega a las «mejores prácticas». Al proporcionar al lector pruebas sencillas basadas en el mercado real, le explicaremos por qué debemos abstenernos de tal conducta y adoptar, en su lugar, las mejores prácticas específicas del ámbito si nuestra comunidad quiere tener alguna posibilidad de recuperar el potencial latente de la IA.

Imagina que estás en una competición tipo lotería. Tú y otras 99 personas habéis sido seleccionados al azar para jugar por un bote de 1.000.000 $. Las reglas son sencillas: debes adivinar la estatura de los otros 99 participantes. El ganador es la persona con el menor error total en sus 99 intentos.

Ahora, aquí está el giro: para este ejemplo, imagina que la altura media global de los seres humanos es de 1,1 metros. Si simplemente adivinas 1,1 metros para todos, podrías ganar el premio gordo, aunque técnicamente todas las predicciones sean incorrectas. ¿Por qué? Porque en entornos ruidosos e inciertos, adivinar el promedio tiende a producir el error general más pequeño.


Autor: Gamuchirai Zororo Ndawana

[Eliminado]  

"Sin embargo, nuestra estrategia demuestra la capacidad de recuperarse y mantener el rumbo, que es exactamente lo que pretendemos".

Siempre he pensado que por lo que hay que esforzarse es porque una estrategia genere beneficios :)

 
Maxim Dmitrievsky #:

"Sin embargo, nuestra estrategia muestra la capacidad de recuperarnos y mantenernos en el buen camino, que es exactamente lo que pretendemos".

Siempre he pensado que hay que esforzarse para que una estrategia aporte beneficios :)

Sí, en efecto, pero por desgracia aún no disponemos de métricas estandarizadas de aprendizaje automático que tengan en cuenta la diferencia entre beneficios y pérdidas.
 

Gracias por el artículo, @Gamuchirai Zororo Ndawana.

Estoy de acuerdo con @Maxim Dmitrievsky en que el objetivo final es la rentabilidad. La idea de "recuperar y mantener el rumbo" tiene sentido como robustez y control del drawdown, pero no sustituye a la rentabilidad.

Sobre las métricas: es cierto que no hay una métrica estandarizada de ML que tenga en cuenta el PnL, aunque en la práctica se validan modelos con Sharpe, Sortino, Calmar, profit factor, max DD, más pérdidas o recompensas asimétricas en aprendizaje por refuerzo (estilo RL) que sí incorporan PnL y costes (costes y rotación).

Técnicamente, yo revisaría dos puntos clave del artículo:
  • Los ejemplos contienen sesgo look-ahead (características que usan i + HORIZON), lo que invalida la evaluación;
  • La prueba DRS que "suma cero" es tautológica porque las dos etiquetas son antisimétricas por construcción, no prueba la comprensión del mercado.
Aún así, el recordatorio de no seleccionar por RMSE o MAE en los rendimientos es útil.

Sugerencia práctica: prueba de walk-forward, costes y deslizamiento, pérdida asimétrica o cuantílica u objetivos basados en la utilidad, y penalizar la rotación para evitar el abrazo a la media. (Sugerencia pragmática: alinear la pérdida con la forma de ganar dinero).
 

Citado: Sí, en efecto, pero por desgracia aún no disponemos de métricas estandarizadas de aprendizaje automático que sean conscientes de la diferencia entre pérdidas y ganancias.

Respuesta: Las columnas de pérdidas y ganancias sólo existirán si su producto de backtesting o el mercado plano es tan bueno como el mercado a plazo que está utilizando contra la cartera subsiguiente o cesta de índice que seguirá esta línea de orden.

Hay algunos índices y ETF's recientemente fundados que están saliendo, o que son producidos sobre una base creciente, para este uso previsto, y producirán estos resultados, márgenes de beneficio tales como el índice dowjones 30 así como muchos otros índices que han sido creados para este uso previsto. Peter Matty

 
Miguel Angel Vico Alba # :

Gracias por el artículo, @Gamuchirai Zororo Ndawana .

Estoy de acuerdo con @Maxim Dmitrievsky en que el objetivo final es la rentabilidad. La idea de recuperar y mantener el rumbo tiene sentido por solidez y para controlar el drawdown, pero no sustituye a la rentabilidad.

Respecto a las métricas: Es cierto que no existe una métrica estandarizada de ML que tenga en cuenta el PnL, aunque en la práctica se validan modelos utilizando Sharpe, Sortino, Calmar, Win Factor, Max DD, así como pérdidas o recompensas asimétricas en aprendizaje por refuerzo (estilo RL) que incluyen PnL y coste (coste e ingresos).

Desde un punto de vista técnico, revisaría dos puntos importantes del artículo:
  • Los ejemplos contienen sesgo de look-ahead (características con i + HORIZON), lo que invalida la evaluación;
  • La prueba DRS, en la que "la suma es cero", es tautológica porque los dos términos son antisimétricos por diseño; no demuestra comprensión del mercado.
No obstante, el consejo de no seleccionar basándose en el RMSE o MAE de los rendimientos es útil. Sugerencias prácticas: Pruebas de avance, costes y desviaciones, objetivos asimétricos o cuantílicos basados en pérdidas o beneficios, y penalización de los ingresos para evitar el abrazo a la media. (Enfoque pragmático: Alinear la pérdida con la forma de ganar dinero.)

A veces me pregunto si las herramientas de traducción que utilizamos no captan el mensaje original. Tu respuesta ofrece muchos más puntos de discusión que lo que yo entendí del mensaje original de @Maxim Dmitrievsky .

Gracias por señalar esos descuidos en el look ahead bias (rasgos con i + HORIZONTE), esos son los peores bugs que odio, necesitan todo un re-test. Pero esta vez con más detenimiento.

También has aportado información valiosa con las medidas de validación utilizadas para validar modelos en la práctica, el Sharpe Ratio debe ser algo así como un Gold Standard universal. Tengo que aprender más sobre Calmar y Sortino para formarme una opinión al respecto, gracias por ello.

Estoy de acuerdo contigo en que los dos términos son antisimétricos por diseño, y la prueba es que los modelos deben permanecer antisimétricos, cualquier desviación de esta expectativa, es fallar la prueba. Si uno o ambos modelos tienen un sesgo inaceptable, sus predicciones no seguirán siendo antisimétricas como esperamos.

Sin embargo, la noción de beneficio no es más que una simple ilustración que he dado para poner de relieve el problema. Ninguna de las métricas que tenemos hoy en día nos informa de cuándo se está produciendo el abrazo a la media. Ninguna de las publicaciones sobre aprendizaje estadístico nos explica por qué se produce este fenómeno. Desgraciadamente, se debe a las mejores prácticas que seguimos, y ésta es sólo una de las muchas maneras en que deseo que se inicien más conversaciones sobre los peligros de las mejores prácticas.

Este artículo era más bien un grito de ayuda, para que nos unamos y diseñemos nuevos protocolos desde cero. Nuevas normas. Nuevos objetivos en los que trabajen directamente nuestros optimizadores, que se adapten a nuestros intereses.