Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2808

 
mytarmailS #:

Consejo: ¿Es necesario utilizar vectores de 100.000 observaciones para ver la correlación entre ellos?

Busco vectores altamente correlacionados, es decir, con una correlación superior a 0,9.

No sé si es necesario o no - deberías experimentar. La muestra no es estacionaria - para la mitad de la muestra no había correlación, y luego bang, y luego apareció.

Además, he probado todos los coeficientes en pasos de 0,1.

mytarmailS #:
De nada.

¿Es este el grito del alma?

 
Vladimir Perervenko #:

Depende de zhekez y del tamaño de la muestra. Si el procesador es multinúcleo, paralelice la ejecución. A continuación se muestra una variante de ejecución paralela

Es 4 veces más rápida que la ejecución en serie. Hardware y software

Buena suerte

¿Entonces el paralelismo no aumenta el consumo de RAM?

Aunque el código de mytarmailS consume más RAM, es 50 veces más rápido, quizás hay algunas limitaciones de las librerías que usas - el script funcionó durante más de 30 horas y no creó ni un solo fichero.

Gracias por algunos ejemplos de código complicado - en R soy más bien sólo un consumidor, no puedo averiguar qué corregir en el script principal.

 
mytarmailS #:
¿Quieres decir que para cada tipo de datos debería haber un método para calcular corr?

matrix es un tipo de datos incorporado en R, tiene algo como matrix.corr() vector.

 
Aleksey Vyazmikin #:

Qué se entiende por "dataframes" - explíquese a los ignorantes de este lenguaje.

Era más bien un mensaje para los escritores de R :) se trata de tablas para la visualización conveniente de los datos y algunas manipulaciones típicas con ellos, tales como la extracción de submuestras (como en sql).

No están diseñadas para correrlas en bucles en datos tan grandes como los que tienes, será más lento que los arrays entre 20 y 100 veces. De memoria ya lo has entendido por ti mismo.

Yo creo que aquí está bien:

#  чтобы прочитать как работает функция и примеры  ?caret::findCorrelation
#  находим колонки которые не коррелированы с порогом корреляции 0,9    "cutoff = 0.9"
not_corr_colums <- caret::findCorrelation(as.matrix(df), cutoff = 0.9, exact = F,names = F)

No sé cómo de rápido es el tipo incorporado "matrix", pero usa caret, que también puede ralentizar. El tipo incorporado no tiene ninguna operación vectorial para calcular la correlación o algo así.

 
¿De dónde vienen estos pensamientos?
 
mytarmailS #:
¿De dónde vienen estos pensamientos

por qué ralentizar un tipo incorporado con el lóbulo izquierdo, que debe tener su propio cálculo corr, lo más rápido posible para él

 
Maxim Dmitrievsky #:

¿por qué ralentizar un tipo incorporado que debería tener su propio cálculo de Korr lo más rápido posible para él?

¿La lib no tiene en cuenta el tipo? Tipo de datos es como datos para los cálculos más baratos. La misma matriz debe ser diseñado para los cálculos.

 
mytarmailS #:
¿Cómo ser más inteligente en el futuro sin ser más estúpido en el pasado? Algorítmicamente... sin crear terabytes de conocimiento.

No es así.

 
Valeriy Yastremskiy #:

¿La lib no tiene en cuenta el tipo? El tipo de datos es como los datos para los cálculos más baratos. La misma matriz debe ser diseñado para los cálculos.

No he encontrado un análogo de numpy para R, y las matrices allí no son tan rápidas y R mismo consume mucha memoria debido a su paradigma.

Claro que una lib de terceros puede ser lenta, ¿quién la revisaría?

No sé con qué comparar, así que no quiero cargar un conjunto de datos de un gigabyte para comparar la velocidad
 
Алексей Тарабанов #:

De ninguna manera.

¿Y entrenar con refuerzos?
Razón de la queja: