sélectionner tous les fichiers et les télécharger, ils seront zippés
différentes longueurs d'échantillon, alors si une partie
Merci, c'est vrai - vous pouvez télécharger comme une archive, ce qui est bien !
Mais des longueurs d'échantillonnage différentes sont mauvaises, je pensais sélectionner les colonnes les plus aléatoires où de petits écarts sont acceptables.
Je pense qu'il n'est pas nécessaire d'appliquer cette méthode à l'échantillon - sinon comment puis-je l'utiliser dans la vie réelle.
Je l'utilise pour m'entraîner, on verra bien ce qui se passe.
Je n'en ai pas besoin pour les examens, mais ça peut être utile.
Trop paresseux pour convertir)
Laissez-moi vous expliquer :
1) nous trions la colonne
2) nous comptons le nombre moyen d'éléments dans un quantum, par exemple 10000 éléments / 255 quanta = 39,21
3) dans la boucle, nous nous déplaçons de 39,21 éléments à chaque étape et ajoutons la valeur du tableau trié au tableau des valeurs des quanta. Par exemple, la valeur 0 du tableau = 0 quantum, la 39e valeur = 1 quantum, la 78e valeur = 2 quantum, etc.
Si la valeur est déjà dans le tableau, c'est-à-dire si nous arrivons dans une zone avec de nombreux doublons, nous ignorons le doublon et ne l'ajoutons pas.
À chaque étape, nous ajoutons exactement 39,21, puis nous arrondissons la somme pour sélectionner un élément du tableau, afin qu'il soit égal. Par exemple, au lieu de 195 (39*5 = 195), prenez 196 ( 39,21 * 5 = (int) 196,05).
Avec une distribution uniforme, c'est clair - je créerais un tableau de valeurs uniques et l'utiliserais pour le découpage.
Mais il existe d'autres méthodes pour diviser la grille :
Il doit y avoir beaucoup d'échantillons, sinon le modèle n'apprendra rien.
Ce sont les méthodes de quantification de l'échantillonnage pour CatBoost - ce sont les limites sur lesquelles l'énumération/apprentissage va ensuite.
Mes expériences montrent que la grille devrait être choisie pour chaque prédicteur séparément, alors l'augmentation de la qualité est observée, mais il n'est pas capable de le faire CatBoost et je ne suis pas capable de construire une grille et je dois construire des grilles et les télécharger en csv, puis les itérer afin d'estimer le comportement des cibles en eux. Je pense que c'est un outil très prometteur, mais je dois traduire le code en MQL.
est-ce dans les réglages du modèle lui-même (paramètres) ? je ne sais pas ce que c'est
si ce n'est pas dans les paramètres, alors c'est une connerie.
Il est dans les paramètres, au moins pour la ligne de commande
--feature-border-type
Le mode dequantification pour les caractéristiques numériques.
Est-ce que ça fait une grande différence ? Ça devrait être à un pour cent près.
et est-ce que ça fait une grande différence ? Ça devrait être à un pourcentage près.
Le choix de la bonne ventilation a un impact important sur le résultat.
Voici un exemple sur le rappel - jusqu'à 50% de variation - pour moi c'est significatif.
En augmentant les limites de 16 à 512 par incréments de 16 - mais pas dans l'ordre sur l'histogramme - mes titres sont un peu gênants.
Je suis encore en train d'expérimenter la sélection de mailles, mais il est déjà évident qu'il y a différents prédicteurs pour lesquels différentes mailles sont nécessaires, pour observer la logique, et pas seulement pour les ajuster.