Galateo del mercato o buone maniere in un campo minato - pagina 82

 
Neutron >> :

È qui che io stesso non ho una comprensione completa.

Secondo la dichiarazione(Alexander Ezhov, Sergey Shumsky"Neurocomputing"), c'è una lunghezza ottimale, alla quale l'errore di generalizzazione Popt=w^2/d è minimizzato, dove d è la dimensione dell'input NS, w è il numero di tutti i parametri sintonizzabili di NS. Quindi, da questo punto di vista, il NS è sovrallenato se P<Popt il NS "ricorda" il campione di allenamento. Anche la variante P>Popt non è buona, perché a una lunghezza maggiore, c'è più probabilità di inversione di tendenza del mercato, che equivale a una diminuzione delle correlazioni tra i campioni.

D'altra parte, NS può essere "trascinato" al numero eccessivo di epoche di addestramento e come conseguenza, l'errore di generalizzazione inizierà a crescere di nuovo o a non crescere... In generale, abbiamo bisogno di fare esperimenti numerici con un insieme di statistiche, che di per sé è molto ricorsivo! Ma deve essere fatto. Sarà molto più facile dimostrare l'equazione di cui sopra per la lunghezza ottimale del vettore di addestramento. gpwr, vuoi armeggiare?

Se guardate i vostri grafici


allora sorgono diverse domande. Come ho capito, la linea rossa nei cerchi è l'errore medio di apprendimento da diversi esperimenti statistici con diversi pesi iniziali casuali. La linea blu nei cerchi è l'errore medio di predizione sui dati non addestrati. Giusto? Le linee sottili mostrano la gamma di dispersione. Ora le domande

1. La linea blu sottile in basso corrisponde alla linea rossa sottile in basso? In altre parole, l'accuratezza della previsione fuori dal campione migliora per gli esperimenti statistici con il più piccolo errore di apprendimento?

2. Poiché la diffusione dell'errore di apprendimento non si riduce a zero, allora l'apprendimento non raggiunge un minimo globale.

Ora sono molto preoccupato per questa domanda: dovrei cercare un algoritmo di apprendimento che raggiunga il minimo globale nella speranza che le previsioni sui campioni non addestrati siano più accurate? Sto eseguendo la mia griglia e vedendo quanto siano incoerenti le sue previsioni a seconda di dove smetto di allenarla. Anche se imposto lo stesso numero di epoche 1000, le predizioni sono diverse in diverse corse sugli stessi campioni di allenamento. La metà delle previsioni è che il prezzo salirà, l'altra metà scenderà. Non sono contento di questo. Se ci si allena molto a lungo, la rete si avvicina ad un minimo globale e le sue previsioni sono le stesse in diverse corse.

Sul numero ottimale di campioni, ci penserò. Non è facile. Bisogna conoscere le statistiche del mercato e quanto velocemente cambia la sua distribuzione. L'aumento del numero di campioni porterà a una situazione in cui la rete stava rilevando provvisoriamente una mucca e nel processo è stata cambiata da una mucca a una tartaruga. Alla fine la rete concluderà che si tratta di una tartaruga cornuta con gli zoccoli. Se si riduce il numero di campioni, diciamo che la rete è stata data solo per sentire le corna di una mucca, allora ci saranno molte varianti: mucca, alce, capra, cervo, ecc.

 
gpwr писал(а) >>

Aumentando il numero di campioni, la rete userà i suoi tentacoli per identificare una mucca e nel processo cambierà la mucca in una tartaruga. Di conseguenza, la rete conclude che si tratta di una tartaruga cornuta con gli zoccoli. Se per ridurre il numero di campioni, diciamo che la rete è stata data solo per sentire le corna di una mucca, allora ci sarebbero molte varianti: mucca, alce, capra, cervo, ecc.

+5 Sono completamente d'accordo.

Lei, invece, sfoglia Jejov e Shumsky. Forse avrete qualche idea sulle prove.

La linea blu nei cerchi è l'errore medio di previsione sui dati grezzi. Giusto?

Corretto.

1. La linea blu sottile in basso corrisponde alla linea rossa sottile in basso? In altre parole, l'accuratezza della previsione fuori dal campione migliora per gli esperimenti statistici con il più piccolo errore di apprendimento?

A causa dell'intensità delle risorse, non ho fatto un esperimento completo. Ma sono d'accordo che è necessario e mi costringerò a farlo.

P.S. gpwr, ho incontrato un link in rete al lavoro di due americani che 5 anni fa potrebbero dimostrare l'esistenza e implementare un algoritmo ORO modificato per NS non lineare bilayer con UN neurone di uscita. Così, con un tipo speciale di funzione di attivazione (e il suo tipo specifico non influisce sulla potenza di calcolo della rete), la velocità di apprendimento del nuovo algoritmo supera il classico ORO di più di due ordini di grandezza! Ha mai visto qualcosa di simile?

 
Neutron >> :

+5 Sono completamente d'accordo.

Però dovresti sfogliare Jejov e Shumsky. Forse ti verrà qualche idea sulle prove.

Giusto.

A causa dell'intensità delle risorse, non ho fatto un esperimento completo. Ma sono d'accordo che è necessario e mi costringerò a condurlo.

P.S. gpwr, ho incontrato un riferimento in rete al lavoro di due americani che 5 anni fa potevano dimostrare l'esistenza e realizzare l'algoritmo ORO modificato per NS non lineare bilayer con UN neurone di uscita. Così, con un tipo speciale di funzione di attivazione (e il suo tipo specifico non influisce sulla potenza di calcolo della rete), la velocità di apprendimento del nuovo algoritmo supera il classico ORO di più di due ordini di grandezza! Non avete mai incontrato qualcosa di simile?

Ho visto diverse varianti di RFO:

QuickProp - 1988, derivata del secondo ordine aggiunta per accelerare la convergenza

RProp - Resilient back-Propagation - 1993, Riedmiller, Germania, il punto dell'algoritmo è di sostituire il gradiente con il suo segno

iRProp - Improved RProp - 2000, Igel, tedesco, stesso RProp ma la rete fa un passo indietro se l'errore di apprendimento dell'epoca precedente è aumentato

SARProp - Simulated Annealing back-Propagation - 1998, Treadgold, Australian, per la convergenza globale, ha aggiunto la dimensione casuale del passo in certe condizioni quando l'errore dall'epoca precedente è aumentato

JRProp - Jacobi RProp, 2005, Anastasiadis, greco d'Inghilterra, stesso iRProp, ma metodo leggermente diverso di ritorno quando l'errore è aumentato

GRProp, GJRProp - Global RProp/JRProp - 2005, Anastasiadis, ad ogni epoca viene scelto il passo di peso più piccolo e sostituito da una strana formula

Le ho provate tutte. RProp, iRProp, JRProp funzionano in modo quasi identico. I metodi globali SARProp e GRProp non funzionano. Si possono trovare facilmente articoli su questi algoritmi.

Dai un'occhiata qui in russo

http://masters.donntu.edu.ua/2005/kita/tkachenko/library/article01/index.htm

www.iis.nsk.su/preprints/pdf/063.pdf

 

Grazie. Darò un'occhiata.

Quei due americani hanno inventato il loro algoritmo veloce solo per NS a uscita singola, cioè stiamo parlando di qualcosa di altamente specializzato.

 

Mi sono preso un 2001i Pro.

Puoi commentare brevemente i grafici di allocazione che ho postato ieri?

 

Beh, naturalmente.

Sono corretti. La prima e la terza cifra non sono interessanti a causa della piccola statistica dell'ultima e della piccola H della prima. Tuttavia, la seconda figura è rappresentativa:

Per la distribuzione di Kagi (figura a sinistra), possiamo notare l'assenza di lunghezze di spalla più piccole del passo di divisione H(paralocus, tu sei naturalmente un grande originale in termini di rappresentazioni insolite di dnani, ad esempio misurando il passo di divisione in spread invece di punti...) e una diminuzione esponenziale della frequenza delle lunghezze di spalla con l'aumentare della loro lunghezza. Per un certo numero di operazioni, possiamo notare una distribuzione quasi a forma di banda della frequenza di occorrenza delle lunghezze nelle preposizioni +/-H e lo stesso decadimento esponenziale al passaggio a lunghezze maggiori di H. Questo può essere visto nella Fig. a destra. Penso che tale rappresentazione dei dati di input per NS (normalizzati ancora su Н), sia quasi ideale, poiché non richiede procedure "furbe" di normalizzazione e centratura (MO è identicamente uguale a zero). Tuttavia, la questione dell'ottimalità della rappresentazione Cagi rimane aperta. Qui il problema dovrebbe essere risolto in modo completo, e il secondo blocco importante nel collegamento è MM. Per TC senza reinvestimento, il Kagi-partitioning è davvero ottimale.

 
Grazie. MM è ancora terra incognita per me. Diverse volte ho provato a reinvestire il denaro accumulato con un lotto e ho ottenuto una perdita significativa. All'inizio di questo thread hai scritto di MM in relazione alla leva. Ma la leva è regolabile dal trader? Secondo me, leva = 100 e basta. Si possono scegliere solo coppie per ridurre il rischio. Preferisco AUDUSD - l'ho capito anche dal tuo post. Beh, il momento non è ancora arrivato (per me). Ora lavorerò sul doppio strato. Oggi codificherò e domani vi mostrerò quello che ho ottenuto.
 
La leva finanziaria è proporzionale al valore del lotto in relazione alla quantità di capitale. Perciò, aumentando o diminuendo la dimensione del lotto scambiato, state essenzialmente cambiando la dimensione della leva. Per l'analisi è più facile usare la leva rispetto alla dimensione del lotto, perché è adimensionale. Ecco perché l'ho usato nelle mie formule.
 

In sostanza, un tester MT è una scatola nera con diversi input (MAs, stocastico e altri indicatori TA), con un numero considerevole di parametri regolabili (periodi delle MAs, ampiezze ottimali, ecc.) e un algoritmo "astuto" per mescolare il tutto all'interno. Nell'output abbiamo un ordine Sell/Buy o Stop trade. C'è una procedura di ottimizzazione che permette di scegliere i migliori parametri in funzione del massimo profitto del TS sui dati storici. Ti ricorda qualcosa? Esattamente, se consideriamo che gli indicatori TA insieme all'astuto algoritmo (non lineare) della loro elaborazione, l'essenza è una funzione non lineare di attivazione pseptron multistrato, allora tutti noi qui abbiamo fatto la stessa cosa per molti anni - costruire ed educare il nostro NS! Solo che questo fatto non è ovvio, il che causa tanti problemi nel lavoro con il tester di strategia (adattamento, instabilità dell'optimum trovato, ecc.). Molte persone rispettabili sul forum sono spesso scettiche sul NS, mentre fanno la stessa cosa tutto il loro tempo libero e sembra che non ci sia altro! Pensateci.

Se questo è davvero il caso, allora ovviamente dobbiamo passare al linguaggio dei termini dell'IA. Molto diventerà ovvio da ciò che ci ha afflitto per tanti anni. Per esempio, l'adattamento di un tester sulla storia, semplicemente non è abbastanza lungo (misurato in eventi TC cioè le transazioni, non il numero di barre) o, allo stesso modo, un numero eccessivo di parametri regolabili. Redditività insufficiente - si usano indicatori con una trasformazione lineare del prezzo (non si sfruttano le correlazioni non lineari tra eventi di mercato), ecc. Un altro punto importante - è dimostrato nella teoria dei NS che la potenza di calcolo della rete non dipende da un tipo specifico di non linearità. Ne consegue che non ha molto senso infilare indicatori e algoritmi intelligenti e non banali di elaborazione delle serie di prezzi nel TS, non può influenzare significativamente le proprietà predicative del TS. Ma è molto importante minimizzare l'errore di generalizzazione (in termini di TC), e per questo è sufficiente scegliere la lunghezza ottimale dei dati storici e il numero di indicatori!

In breve, tutti noi faremo la stessa cosa, e non importa se stiamo lucidando il nostro Strategy Tester o scrivendo la nostra rete. L'importante è capire esattamente cosa stiamo facendo e perché.

P.S. Ho fatto un piccolo perseptron solitario sui sintetici.

Si vede bene che nel processo di addestramento il neurone rotola fiduciosamente verso il minimo globale (fig. a sinistra in rosso), questo è indicato dalla dispersione che diminuisce a zero (linee sottili), caratterizzando il processo di apprendimento per esperimenti con diversi valori dei pesi di inizializzazione. D'altra parte, l'errore di generalizzazione (l'inverso della capacità predittiva) comincia a crescere di nuovo a un certo punto del processo di apprendimento, indicando che il neurone perde la sua capacità di generalizzare la conoscenza. La figura a destra mostra gli stessi dati ma sull'asse dei dossi. L'apprendimento ottimale è ben indicato.

 

Quando stavo "lucidando il tester" ho avuto una sensazione simile, ma non si è realizzata... -:)

Ma ora sono venute fuori idee apparentemente semplici, ma più funzionanti. Qualcosa che ho formulato ieri:

Оптимальным каги-разбиением тикового ВР с порогом Н, следует считать такое разбиение, при котором имеется минимальное количество следующих друг за другом одноцветных плеч ряда транзакций. При этом средняя длина плеча равна величине средней взятки.


Cioè risulta effettivamente quello che hai scritto - prendere è uguale a smettere! C'è un punto sottile qui:

Se la distribuzione delle serie di transazioni ricevute è tale che più del 50% delle spalle successive hanno un colore diverso, allora perché NS? (non prendetemi a calci, ho solo chiesto... -:))


P.S. Corretto il refuso

Motivazione: