СанСаныч Фоменко #:
Ma soprattutto, deve essere dimostrato teoricamente che il potere predittivo delle caratteristiche disponibili non cambia, o cambia debolmente, in futuro. In tutto il rullo compressore, questa è la cosa più importante.

Purtroppo nessuno l'ha trovata, altrimenti non sarebbe qui ma sulle isole tropicali))))

SanSanych Fomenko #: A mio parere, il modello gioca un ruolo estremamente ridotto, perché non ha alcuna relazione con la stabilità della capacità predittiva dei tratti: la stabilità della capacità predittiva è una proprietà della coppia "insegnante-tratto".

Sì. Anche 1 albero o una regressione possono trovare un modello se c'è e non cambia.

SanSanych Fomenko #:

1. Qualcun altro ha una coppia insegnante-tratto con un errore di classificazione inferiore al 20%?

Facile. Posso decongestionare decine di set di dati. Sto esaminando ora TP=50 e SL=500. C'è un errore medio del 10% nel punteggio dell'insegnante. Se è del 20%, sarà un modello di prugna.
Quindi il punto non è nell'errore di classificazione, ma nel risultato della somma di tutti i profitti e le perdite.

Come si può vedere, il modello top ha un errore del 9,1%, e si può guadagnare qualcosa con un errore dell'8,3%.
I grafici mostrano solo gli OOS, ottenuti da Walking Forward con riqualificazione una volta alla settimana, per un totale di 264 riqualificazioni in 5 anni.
È interessante che il modello abbia funzionato a 0 con un errore di classificazione del 9,1%, e 50/500 = 0,1, cioè il 10% dovrebbe essere. Si scopre che l'1% ha mangiato lo spread (minimo per barra, quello reale sarà più grande).

 

Per prima cosa bisogna rendersi conto che il modello è pieno di spazzatura al suo interno...

Se si scompone un modello di legno addestrato nelle regole interne e nelle statistiche relative a tali regole.

come :

     len  freq   err                                                                                 condition pred
315    3 0.002 0.417    X[,1]>7.49999999999362e-05 & X[,2]<=-0.00026499999999996 & X[,4]<=0.000495000000000023    1
483    3 0.000 0.000     X[,1]<=0.000329999999999941 & X[,8]>0.000724999999999976 & X[,9]>0.000685000000000047    1
484    3 0.002 0.273      X[,1]>0.000329999999999941 & X[,8]>0.000724999999999976 & X[,9]>0.000685000000000047   -1
555    3 0.001 0.333   X[,5]<=0.000329999999999941 & X[,7]>0.000309999999999921 & X[,8]<=-0.000144999999999951   -1
687    3 0.001 0.250 X[,2]<=-0.00348499999999996 & X[,7]<=-0.000854999999999939 & X[,9]<=-4.99999999999945e-05    1
734    3 0.003 0.000    X[,7]>-0.000854999999999939 & X[,8]>0.000724999999999865 & X[,9]<=0.000214999999999965    1
1045   3 0.003 0.231   X[,1]<=-0.000310000000000032 & X[,4]>0.000105000000000022 & X[,4]<=0.000164999999999971   -1
1708   3 0.000 0.000    X[,3]>0.00102499999999994 & X[,6]<=0.000105000000000022 & X[,7]<=-0.000650000000000039    1
1709   3 0.002 0.250     X[,3]>0.00102499999999994 & X[,6]<=0.000105000000000022 & X[,7]>-0.000650000000000039   -1
1984   3 0.001 0.000     X[,1]<=0.000329999999999941 & X[,8]>0.000724999999999976 & X[,9]>0.000674999999999981    1
2654   3 0.003 0.000        X[,4]<=0.00205000000000011 & X[,5]>0.0014550000000001 & X[,9]<=0.00132999999999994    1
2655   3 0.000 0.000         X[,4]<=0.00205000000000011 & X[,5]>0.0014550000000001 & X[,9]>0.00132999999999994   -1
2656   3 0.001 0.200         X[,3]<=0.00245499999999998 & X[,4]>0.00205000000000011 & X[,5]>0.0014550000000001   -1
2657   3 0.000 0.000          X[,3]>0.00245499999999998 & X[,4]>0.00205000000000011 & X[,5]>0.0014550000000001    1
2852   3 0.000 0.000                X[,2]<=-0.001135 & X[,8]>-0.000130000000000075 & X[,8]>0.00128499999999998   -1
2979   3 0.001 0.200     X[,1]>0.000930000000000097 & X[,1]>0.00129000000000012 & X[,8]<=-0.000275000000000025   -1


e si analizza la dipendenza dell'errore della regola errata dalla frequenza della sua presenza nel campione.


otteniamo


Allora siamo interessati a quest'area


Dove le regole funzionano molto bene, ma sono così rare che ha senso dubitare dell'autenticità delle statistiche su di esse, perché 10-30 osservazioni non sono statistiche.

Solo un raggio di sole nell'oscurità degli ultimi post
Se si analizzano correttamente gli errori del modello, si può trovare qualcosa di interessante. Accetteremo molto rapidamente e senza alcuna gpu, sms e registrazioni.
 
ci sarà un articolo a riguardo, se ci sarà.

Norm, il mio ultimo articolo riguardava la stessa cosa. Ma se il vostro metodo è più veloce, è un vantaggio.
 
Cosa intendi per "più veloce"?

In termini di velocità.
 
circa 5-15 secondi su un campione di 5 km

Intendo l'intero processo, dall'inizio all'ottenimento del TC.

Ho due modelli che vengono riqualificati più volte, quindi non è molto veloce, ma è accettabile.

E alla fine non so che cosa abbiano esattamente eliminato.

 
Addestramento 5k.

Valido 60k.


formazione del modello - 1-3 secondi

estrazione delle regole - 5-10 secondi

verifica della validità di ogni regola (20-30k regole) 60k 1-2 minuti


Naturalmente tutto è approssimativo e dipende dal numero di caratteristiche e di dati.

