Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2110

 
elibrarius:
Si es único, está torcido. Por ejemplo, hay 100 cadenas de las cuales 10 son únicas, de las cuales 2 son 45 cadenas y 8 son 1. Dividido entre 5 cuantos, es posible que sólo se elijan 5 por 1, y se salten los 2 más representativos (45 cada uno).

Los distintos enfoques funcionan de forma diferente con distintos predictores, por eso quiero tener distintos algoritmos para entender cómo elegirlos mejor. Voy a compartir mi investigación si usted puede traducir el código en MT5.

 
Aleksey Vyazmikin:

Con la distribución uniforme veo - primero crearía un array de valores únicos y lo usaría para cortar.

Pero hay otros métodos para dividir la red:

Uniforme - simplemente dividir el rango de valores, por ejemplo, los valores en una columna de 0 a 100, cuantificación del paso = 100/255 = 0,39 sólo que no en filas, sino en valores. Es decir, 0,0,39,0,78 .... 99.61

A continuación, puede utilizar estos valores para encontrar los que realmente están presentes en la columna y eliminar los duplicados.


UniformAndQuantiles - sólo busca la mitad de 255/2 = 127 cuantos por el método 1 y 128 por el método 2, y los combina en un array.

Los 3 métodos restantes son complicados - no he echado un vistazo.

 
Aleksey Vyazmikin:

Estos son los métodos de cuantificación de muestreo para CatBoost - estos son los límites por los que la enumeración/aprendizaje procede.

Mis experimentos muestran que la rejilla debe ser elegida para cada predictor por separado, entonces se observa una ganancia de calidad, pero CatBoost no puede hacerlo y no puedo construir una rejilla y tengo que construir rejillas y subirlas a csv y luego iterar a través de ellas para evaluar el comportamiento del objetivo en ellas. Creo que este es un chip muy prometedor, pero necesita traducir el código a MQL.

1) Así es como funciona. Toma una columna separada ordenada y la divide en cuantos.

2) Eso es exactamente lo que hace.

 

Uniforme - simplemente dividir el rango de valores, por ejemplo, los valores en una columna de 0 a 100, cuantía de paso = 100/255 = 0,39 sólo que no en filas, sino en valores. Es decir, 0,0,39,0,78 .... 99.61

A continuación, puede utilizar estos valores para encontrar los valores reales presentes en la columna y eliminar los duplicados.


UniformAndQuantiles - sólo busca la mitad de 255/2 = 127 cuantos por el método 1 y 128 por el método 2, y los combina en un array.

Los otros 3 métodos son complicados, no los he investigado.

Estos son complejos que nos interesan :)

Y sobre UniformAndQuantiles conozco la teoría, pero cómo hacerlo en la vida real no lo entiendo - cómo definir el área donde tan cuántica y tan cuántica. Aquí no entiendo - o hasta el medio por un método, y después por otro - pero es una locura.

 
Aleksey Vyazmikin:

La elección del desglose correcto tiene un impacto significativo en el resultado.

Aquí hay un ejemplo en Recall - hasta un 50% de diferencia - para mí eso es significativo.

Aumentando los límites de 8 a 512 en incrementos de 512 - aunque no en orden en el histograma - tengo los nombres un poco de un obstáculo.


Todavía estoy experimentando con la selección de mallas, pero ya es obvio que hay diferentes predictores para los que se necesitan diferentes mallas para seguir la lógica, no sólo para ajustarse.

Toma 65535 cuantos y no te molestes. Los cálculos serán lo más precisos posible.

 
Aleksey Vyazmikin:

Estos son los complejos que me interesan :)

Y sobre UniformAndQuantiles conozco la teoría, pero no entiendo cómo hacerlo en la vida real - cómo definir el área donde cuantificamos y dónde cuantificamos. Aquí no entiendo - o hasta el medio por un método, y después de otro - pero es una locura.


 
elibrarius:

1) Así es como funciona. Toma una columna separada, la clasifica y la divide en cuantos.

2) Eso es exactamente lo que hace, ¿qué te hace pensar eso?

No sabe cómo estimar la relación entre el objetivo y el conjunto de valores cuando se cuantifican. Divide la cuadrícula en un número determinado de segmentos, si es posible, para todos los predictores, y eso no siempre es necesario. Pero CatBoost sabe trabajar con rejilla de cuantificación alimentada (preparada por separado), lo que yo uso.

 
elibrarius:

Toma 65535 cuantos y no te preocupes. Los cálculos serán lo más precisos posible.

No, será una adaptación, ¡no un modelo significativo!

 
elibrarius:


Es bastante extraño.

 
Aleksey Vyazmikin:

No sabe cómo estimar la relación entre el objetivo y el conjunto de valores al cuantificar. La cuadrícula se divide en un número determinado de secciones, si es posible, para todos los predictores, aunque no siempre es necesario. Pero CatBoost sabe cómo trabajar con la rejilla de cuantificación presentada (preparada por separado), lo que yo utilizo.

¿Y sabes cómo?

Razón de la queja: