Discusión sobre el artículo "Los bosques aleatorios predicen las tendencias" - página 13

 
MetaQuotes Software Corp.:

Publicado el nuevo artículo Predicting Trends with Random Forests:

Por СанСаныч Фоменко


Este modelo es muy fácil en la predicción, pero en la práctica hay un montón de problemas con él.

1. Debido a que la señal de zigzag se elige como el objetivo, una de las variables más simples se puede predecir fuera de él, por ejemplo, la ordenación de PRECIO para los últimos 20 ciclos, obviamente, desde el diseño de destino, la señal de zigzag es hacia arriba cuando moverank_price_20 =1, y moverank_price_20 >1 cuando. Hay más de un 90% de probabilidad de que la señal de zigzag sea descendente; se pueden construir muchas variables de este tipo a partir de esto, por lo que es fácil tener éxito en la predicción de modelos; pero una condición a priori aquí es que hay que saber que este punto es el punto de zigzag. Si son otros puntos en el tiempo, pero no el punto de zigzag, las variables anteriores no existen en la capacidad de predicción.

2. Así que habrá un gran problema cuando se aplica, porque usted no sabe cuál es el punto de partida del zigzag, por lo que tiene que calcular todos los datos, en este momento, moverank_price_20 =1, no creo que sea el punto de partida del zigzag, y por lo tanto no se puede predecir para cambiar el punto después de que la tendencia es alcista.

3. Así que el método de fijación de objetivos de zigzag es difícil de trabajar.

 
Por favor, ¿podría decirme qué poner allí en Windows? En ruso, si se puede, porque algo aquí está en mal estado https://rattle.togaware.com/rattle-install-mswindows.html.
 

Hay una tabla en el artículo



01PrecisiónDisminuciónMedia DisminuciónMediaGini
MA_eur.5.dif142.9741.8554.86 321.86
EUR.dif337.2146.3851.80177.34
RSI_eur.1437.7040.1150.75254.61
EUR.dif2 24.6631.6438.24110.83
MA_eur.10.dif122.9425.3931.48193.08
CHF.dif3 22.9123.4230.1573.36
MA_chf.5.dif1 21.8123.2429.56135.34


Pero no se dice nada de lo que significan las cifras por sí mismas, su relación con otras cifras es comprensible - mejor - mejor, pero los valores en sí, ¿cuáles deberían ser y de qué dependen? Aquí en el artículo el valor máximo de MeanDecreaseGini es 321,86, y yo tengo 1876 - ¿depende del número de predictores o qué? Y tengo una MeanDecreaseAccuracy de 140.22 - ¿cómo interpreto esto? ¿Tal vez debería convertir todos los valores en un porcentaje del valor más alto?

 
Aleksey Vyazmikin:

Hay una tabla en el artículo



01PrecisiónDisminuciónMedia DisminuciónMediaGini
MA_eur.5.dif142.9741.8554.86 321.86
EUR.dif337.2146.3851.80177.34
RSI_eur.1437.7040.1150.75254.61
EUR.dif2 24.6631.6438.24110.83
MA_eur.10.dif122.9425.3931.48193.08
CHF.dif3 22.9123.4230.1573.36
MA_chf.5.dif1 21.8123.2429.56135.34


Pero no se dice nada de lo que significan las cifras por sí mismas, su relación con otras cifras es comprensible -mejor es mejor, pero los valores en sí deben ser ¿qué y de qué dependen? Aquí en el artículo el valor máximo de MeanDecreaseGini es 321,86, y yo tengo 1876 - ¿depende del número de predictores o qué? Y tengo una MeanDecreaseAccuracy de 140.22 - ¿cómo interpreto esto? ¿Tal vez debería convertir todos los valores en un porcentaje del valor más alto?

Esta es la estadística interna de usar predictores mientras se construye un montón de árboles, todos juntos llamados randoForest. Comparar diferentes modelos no tiene ningún sentido. No he podido comparar ni siquiera dentro del mismo modelo. Si quieres seleccionar predictores, necesitas usar otras herramientas. He escrito muchas veces en el hilo de aprendizaje automático y no soy el único.

 
СанСаныч Фоменко:

Esta es la estadística interna del uso de predictores al construir un montón de árboles, todos juntos llamados randoForest. Comparar diferentes modelos no tiene ningún sentido. No he podido comparar ni siquiera dentro del mismo modelo. Si quieres seleccionar predictores, necesitas usar otras herramientas. He escrito muchas veces en el hilo de aprendizaje automático y no soy el único.

Ya veo, es decir, es un estimador dentro de un modelo, pero no absoluta....

Tal vez, por supuesto, y escribió en el foro, pero que el volumen para hacer frente a.... - He leído la mitad del foro a través de mi lector. Si usted me puede apuntar en la dirección correcta, se lo agradecería.

 
Aleksey Vyazmikin:

Ya veo, es decir, es un estimador dentro del modelo, pero no absoluto....

Tal vez, por supuesto, y escribió en el foro, pero que el volumen de hacer frente ... - He leído la mitad del foro a través de mi lector. Si asoma la nariz, se lo agradecería.

1. No tengo una respuesta corta, ya que es toda una industria, llamada datamining, que es comparable a la modelización

2. El esquema estándar de los modelos de clasificación datamining es el siguiente:

  • definir una variable objetivo
  • buscar predictores para ESTA variable objetivo
  • Determinar el poder predictivo de los predictores, es decir, parte del predictor debe predecir una clase, la otra parte debe predecir otra clase, cuanto menor sea el solapamiento, mejores son los predictores
  • tomamos los paquetes para determinar la importancia de los predictores. Hay muchos de ellos, encadeno el archivo con una visión general

3. Ajuste el modelo en la primera mitad del archivo preferiblemente con validación cruzada

4. Comprobar en la segunda mitad del archivo. Los resultados deben coincidir


Para todo esto necesitas muchas herramientas DONE. La mejor es caret. Tiene todo lo que necesitas. Pero no lo suficiente.


PD.

Esto es R. Fuera de él, no se puede llegar más lejos que el balbuceo inarticulado de un bebé.

Archivos adjuntos:
 
СанСаныч Фоменко:

1. No tengo una respuesta corta, ya que se trata de toda una industria llamada datamining, que es comparable a la modelización.

2. El esquema estándar para los modelos de clasificación datamining es el siguiente:

  • definir una variable objetivo
  • encontrar predictores para ESTA variable objetivo
  • determinar el poder predictivo de los predictores, es decir, parte del predictor debe predecir una clase, la otra parte debe predecir otra clase, cuanto menor sea el solapamiento, mejores son los predictores
  • tomamos los paquetes para determinar la importancia de los predictores. Hay muchos, adjunto un archivo con una visión general

3. Ajuste del modelo en la primera mitad del archivo, preferiblemente con validación cruzada

4. Comprobación en la segunda mitad del archivo. Los resultados deben coincidir


Para todo esto necesitas muchas herramientas DONE. La mejor es caret. Tiene todo lo que se necesita. Pero no lo suficiente.


PS.

Eso es R. Fuera de eso, no se puede llegar más allá de balbuceo bebé inarticulado.

Gracias, seguiré buscando.

 
He instalado RStudio, descargado el paquete Boruta, pero ¿cómo activarlo, cómo trabajar con él?
 
Aleksey Vyazmikin:
He instalado RStudio, descargado el paquete Boruta, pero ¿cómo activarlo, cómo trabajar con él?

Lee la documentación, siempre para todos los paquetes. En RStudio, abra la pestaña Paquetes, escriba el nombre del paquete en la búsqueda y haga clic en el nombre del paquete que aparece, se abrirá la Ayuda. O mejor aquí por nombre de paquete, puede haber enlaces a materiales relacionados.

Si te interesa la ideología, encontrarás un enlace a un artículo teórico en las funciones incluidas en el paquete.

CRAN Packages By Name
  • cran.r-project.org
The package will formally test two curves represented by discrete data sets to be statistically equal or not when the errors of the two curves were assumed either equal or not using the tube formula to calculate the tail probabilities
 
СанСаныч Фоменко:

Lea la documentación, siempre para todos los paquetes. En RStudio, abra la pestaña Paquetes, escriba el nombre del paquete en la búsqueda y haga clic en el nombre del paquete que aparece, se abrirá la Ayuda. O mejor, haz clic aquí en el nombre del paquete, puede haber enlaces a materiales relacionados.

Si la ideología es interesante, habrá un enlace al artículo teórico en las funciones que se incluyen en el paquete.

Gracias.

Así que abrí el pdf con la descripción y aquí los ajustes son estupefactos - se requieren tantas cosas que no sé lo que significa la mitad de ella.

¿Hay algo más simple, aunque menos fiable, y preferiblemente con GUI?

¡En general, sería muy útil para usted para hacer artículos sobre este tema, con detalles de dónde y cómo!