Apprendimento automatico e Reti Neurali - pagina 71

 

8.6 Diversi usi del termine "bias" (L08: Model Evaluation Part 1)



8.6 Diversi usi del termine "bias" (L08: Model Evaluation Part 1)

La conferenza non è stata particolarmente entusiasmante in quanto ha approfondito l'argomento della decomposizione di bias e varianza nell'apprendimento automatico. L'oratore ha riconosciuto la noiosità dell'argomento. Tuttavia, c'era un ultimo punto importante che il relatore voleva affrontare riguardo alle diverse forme di bias nell'apprendimento automatico.

Il termine "bias dell'apprendimento automatico" è stato spiegato come un termine sovraccarico, nel senso che è usato per riferirsi a cose diverse in contesti diversi. In un precedente corso di machine learning tenuto dal relatore, sono state discusse l'unità di bias e le reti neurali, ma questo era diverso dal bias statistico discusso in questa lezione. Nel contesto dell'apprendimento automatico, il bias si riferisce alle preferenze o alle restrizioni dell'algoritmo di apprendimento automatico, noto anche come bias induttivo.

Il relatore ha fornito un esempio di un algoritmo ad albero decisionale per illustrare la distorsione induttiva. Gli alberi decisionali favoriscono gli alberi più piccoli rispetto agli alberi più grandi. Se due alberi decisionali hanno le stesse prestazioni su un set di addestramento, l'algoritmo preferirebbe l'albero più piccolo e interromperebbe la crescita dell'albero se non è possibile apportare miglioramenti. Questa preferenza per alberi più piccoli è un esempio di distorsione induttiva che influenza un algoritmo di albero decisionale.

Il relatore ha fatto riferimento a un documento di Dieterich e Khan che contrappone il pregiudizio dell'apprendimento automatico al pregiudizio statistico. Pregiudizi appropriati e inappropriati sono stati discussi in relazione al pregiudizio assoluto. Distorsioni inappropriate non contengono alcuna buona approssimazione alla funzione target, il che significa che l'algoritmo non è adatto al problema. D'altra parte, distorsioni appropriate consentono buone approssimazioni alla funzione target.

Il pregiudizio relativo è stato descritto come troppo forte o troppo debole. Un pregiudizio troppo forte potrebbe non escludere buone approssimazioni ma preferire invece ipotesi più scadenti. Al contrario, un pregiudizio troppo debole considera troppe ipotesi, portando potenzialmente all'overfitting.

Il relatore ha condiviso un esempio di uno studio di simulazione che coinvolge modelli di alberi decisionali per dimostrare l'interazione tra bias e varianza. Lo studio ha valutato il tasso di errore medio e ha rilevato che alcuni errori erano dovuti a bias mentre altri erano dovuti a varianza.

Un altro importante tipo di bias discusso è stato il fairness bias, che si riferisce alle disparità demografiche nei sistemi algoritmici che sono discutibili per ragioni sociali. I modelli di machine learning possono trattare ingiustamente alcuni dati demografici e questo pregiudizio può derivare da set di dati squilibrati o altri fattori. Il relatore ha raccomandato di fare riferimento al libro Fair ML per ulteriori informazioni sull'equità nell'apprendimento automatico.

L'oratore ha accennato brevemente a un progetto su cui hanno lavorato che prevedeva l'occultamento di informazioni biometriche morbide dalle immagini dei volti pur mantenendo l'accuratezza della corrispondenza. L'obiettivo era proteggere la privacy impedendo agli algoritmi di estrarre informazioni di genere dalle immagini dei volti. L'oratore ha valutato le prestazioni del proprio sistema e degli algoritmi di corrispondenza dei volti commerciali, rilevando i pregiudizi nel classificatore binario di genere del software commerciale basato sul colore della pelle.

Il relatore ha sottolineato l'importanza di ridurre al minimo i pregiudizi e di essere consapevoli di come i classificatori si comportano su diversi dati demografici. Hanno evidenziato la necessità di tecniche come il sovracampionamento per affrontare i pregiudizi e garantire risultati più equi.

La conferenza ha coperto varie forme di bias nell'apprendimento automatico, inclusi bias induttivi, bias statistici e bias di equità. Gli esempi e le discussioni fanno luce sulle sfide e le considerazioni coinvolte nella mitigazione dei pregiudizi e nella promozione dell'equità negli algoritmi di apprendimento automatico.

8.6 Different Uses of the Term "Bias" (L08: Model Evaluation Part 1)
8.6 Different Uses of the Term "Bias" (L08: Model Evaluation Part 1)
  • 2020.11.05
  • www.youtube.com
This video discusses the different uses of the term "bias" in machine learning by introducing the concepts of machine learning bias and fairness bias.-------...
 

9.1 Introduzione (L09 Model Eval 2: Intervalli di confidenza)



9.1 Introduzione (L09 Model Eval 2: Intervalli di confidenza)

Ciao a tutti! Oggi ci aspetta una conferenza molto coinvolgente e istruttiva. Contrariamente alla lezione precedente, che ha approfondito l'argomento piuttosto arido dell'impostazione e della scomposizione della varianza bias, questa sessione promette di essere più entusiasmante. Discuteremo varie tecniche di ricampionamento e condurremo simulazioni su diversi set di dati per osservare come il ricampionamento influisce sull'addestramento degli algoritmi. Dividendo un set di dati in set di addestramento e set di test, riduciamo le dimensioni di addestramento disponibili, con un potenziale impatto sulle prestazioni del modello.

Inoltre, esploreremo intervalli di confidenza e diversi metodi per costruirli. Ciò include l'utilizzo di normali intervalli di approssimazione e varie tecniche di bootstrap. Gli intervalli di confidenza hanno acquisito importanza nell'apprendimento automatico, con i recenti invii di documenti che richiedono la loro inclusione. I revisori ora prendono anche più seriamente gli intervalli di confidenza. Forniscono un'aspettativa all'interno del campo e si rivelano utili non solo per i revisori ma anche per altri lettori che esaminano i tuoi modelli.

Ora, tuffiamoci negli argomenti della lezione. Inizieremo con un'introduzione, seguita dal metodo di controllo per la valutazione del modello. Quindi, esploreremo come utilizzare il metodo di controllo per la selezione del modello. Andando avanti, approfondiremo la costruzione di intervalli di confidenza utilizzando tecniche diverse, a partire dall'intervallo di approssimazione normale.

Anche i metodi di ricampionamento saranno un obiettivo chiave. Analizzeremo il metodo di controllo ripetuto, in cui il metodo di controllo viene applicato alle versioni ricampionate del set di addestramento. Inoltre, esamineremo gli intervalli di confidenza empirici, che si basano su tecniche di ricampionamento. Qui incontreremo la familiare tecnica del bootstrap discussa nella conferenza sul modello di insaccamento e ensemble.

Una volta compreso come creare intervalli di confidenza empirici utilizzando il metodo bootstrap, esploreremo due versioni avanzate: il punto 632 bootstrap e il punto 632 plus bootstrap. È importante notare il contesto di questa conferenza all'interno del quadro più ampio della valutazione del modello. Non introdurremo nuovi algoritmi di apprendimento automatico, ma ci concentreremo invece sulle tecniche essenziali per confrontare e selezionare i modelli.

Queste tecniche sono cruciali perché è difficile determinare quale algoritmo di apprendimento automatico funziona bene su un determinato set di dati. Spesso abbiamo bisogno di provare a confrontare numerosi algoritmi per trovare quello più performante. Inoltre, la valutazione delle prestazioni del modello è fondamentale per lo sviluppo di applicazioni come il riconoscimento delle immagini su iPhone, dove la previsione accurata delle etichette delle immagini è fondamentale.

Oltre a stimare le prestazioni di generalizzazione per i dati invisibili, confrontiamo anche diversi modelli. Utilizzando lo stesso algoritmo e set di addestramento, possiamo ottenere più modelli con diverse impostazioni di iperparametri. Confrontiamo questi modelli per selezionare quello migliore. Inoltre, potremmo utilizzare algoritmi diversi e voler valutare le loro prestazioni su tipi di dati specifici, come immagini o testo.

Per selezionare il modello migliore, possiamo stimare accuratamente le prestazioni di generalizzazione assoluta o classificare i modelli senza valori di prestazioni assolute. Quest'ultimo approccio aiuta a evitare distorsioni introdotte quando si utilizza lo stesso set di test più volte. Un sistema di classificazione ci consente di selezionare il modello migliore senza fare affidamento su stime accurate delle prestazioni di generalizzazione.

Nelle prossime lezioni tratteremo le tecniche di convalida incrociata, i test statistici per la valutazione del modello e le metriche di valutazione oltre l'accuratezza, come la precisione, il richiamo e le curve delle caratteristiche operative del ricevitore (ROC).

Queste lezioni sono fondamentali perché forniscono i mezzi per confrontare diversi algoritmi di apprendimento automatico e selezionare il modello più adatto. Sebbene non introducano nuovi algoritmi, offrono approfondimenti pratici e tecniche per valutare le prestazioni del modello.

In sintesi, la nostra lezione di oggi riguarderà le tecniche di ricampionamento, gli intervalli di confidenza e la loro rilevanza nell'apprendimento automatico. Alla fine di questa serie di lezioni, avrai una comprensione completa della valutazione del modello e degli strumenti necessari per prendere decisioni informate nell'apprendimento automatico. Cominciamo la nostra esplorazione di questi argomenti!

9.1 Introduction (L09 Model Eval 2: Confidence Intervals)
9.1 Introduction (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.11
  • www.youtube.com
This first video goes over the contents being covered in L09 (issues with the holdout method, resampling methods, and confidence intervals). Then, it introdu...
 

9.2 Valutazione di controllo (L09 Model Eval 2: Intervalli di confidenza)



9.2 Valutazione di controllo (L09 Model Eval 2: Intervalli di confidenza)

In questo video, discuteremo il metodo di controllo per la valutazione del modello. Sebbene questo metodo non sia nuovo, ci sono alcuni aspetti interessanti che non abbiamo esplorato prima. Il metodo di controllo comporta la divisione del set di dati in un set di addestramento e un set di test. Il set di addestramento viene utilizzato per addestrare o adattare il modello, mentre il set di test viene utilizzato per valutare le prestazioni del modello.

Tuttavia, ci sono alcune considerazioni da tenere a mente. In primo luogo, l'errore del set di addestramento è una stima ottimisticamente distorta dell'errore di generalizzazione. Ciò significa che l'errore di addestramento potrebbe non stimare in modo affidabile le prestazioni del modello perché potrebbe sovradimensionare i dati di addestramento. D'altra parte, il set di test fornisce una stima imparziale dell'errore di generalizzazione se è indipendente dal set di addestramento. Tuttavia, da un punto di vista concettuale, il set di test può essere influenzato dal pessimismo. Questo pregiudizio sorge perché quando dividiamo il set di dati in set di addestramento e test, perdiamo dati preziosi. Anche con un piccolo set di dati, la rimozione del 30% dei dati per la valutazione può avere un impatto significativo sulle prestazioni del modello.

Per illustrare questo punto, consideriamo un semplice esempio. Immagina di avere un set di dati composto da soli 10 punti dati. Se rimuoviamo il 30% dei dati per la valutazione, il modello verrà addestrato solo sul 70% dei dati. Questi dati di addestramento limitati possono portare a una riduzione delle prestazioni del modello perché i modelli di machine learning generalmente traggono vantaggio da più dati. Se tracciamo una curva di apprendimento, in genere osserviamo che all'aumentare delle dimensioni del set di dati, le prestazioni di generalizzazione migliorano. Pertanto, trattenere una parte significativa dei dati per la valutazione può peggiorare il modello.

Nonostante questo inconveniente, è necessario valutare il modello. In ambito accademico, di solito riportiamo le prestazioni del set di test e consideriamo il nostro compito completo. Tuttavia, nell'industria, spesso addestriamo il modello sull'intero set di dati dopo averlo valutato sul set di test. Questo ci consente di riportare accuratamente le prestazioni del modello alle parti interessate, come i project manager. Tuttavia, l'addestramento sull'intero set di dati può portare a una distorsione pessimistica nella stima delle prestazioni del set di test. Ad esempio, se il modello ha raggiunto una precisione del 95% sul set di test, l'addestramento sull'intero set di dati potrebbe migliorare le prestazioni del modello al 96%. In questo caso, la stima iniziale dell'accuratezza del 95% è distorta dal punto di vista pessimistico.

L'uso del solo metodo di controllo non è sempre l'ideale. Ha dei limiti, come non tenere conto della varianza nei dati di addestramento. Quando dividiamo i dati in modo casuale, diverse suddivisioni possono comportare prestazioni del modello variabili. Questa variabilità rende la stima del set di test meno affidabile in quanto fornisce solo una stima puntuale. Inoltre, il metodo di controllo non considera la possibilità di distorsione ottimistica quando il set di test viene utilizzato più volte per ottimizzare e confrontare i modelli.

Per comprendere ulteriormente l'impatto dei pregiudizi, consideriamo il concetto di pregiudizio pessimistico. In termini di selezione del modello, una distorsione pessimistica del 10% non influisce sulla classificazione dei modelli in base all'accuratezza della previsione. Supponiamo di avere tre modelli: h2, h1 e h3. Anche se tutte le stime di accuratezza sono distorte pessimisticamente del 10%, la classifica rimane la stessa. L'obiettivo della selezione del modello è scegliere il miglior modello disponibile e una distorsione pessimistica coerente tra tutti i modelli non altera la classificazione relativa.

Allo stesso modo, ci possono essere casi in cui l'errore del set di test è ottimisticamente distorto. Ciò si verifica quando lo stesso set di test viene utilizzato più volte per ottimizzare e confrontare modelli diversi. L'uso ripetuto del set di test può portare a bias di sopravvivenza, in cui vengono considerati solo i modelli che si comportano bene nel set di test. Un esempio di ciò è "I classificatori CIFAR-10 si generalizzano a CIFAR-10?" articolo, che esamina l'overfitting e i pregiudizi ottimistici nei classificatori formati e valutati sul set di dati di immagini CIFAR-10.

In conclusione, mentre il metodo di controllo è un approccio comunemente utilizzato per la valutazione del modello, ha i suoi limiti e potenziali pregiudizi. Per superare queste limitazioni, sono state sviluppate tecniche alternative, come la convalida incrociata e il bootstrap.

La convalida incrociata è un metodo che prevede la divisione del set di dati in più sottoinsiemi o pieghe. Il modello viene addestrato su una combinazione di queste pieghe e valutato sulla piega rimanente. Questo processo viene ripetuto più volte, con ogni piega che funge da set di test una volta. La convalida incrociata fornisce una valutazione più completa delle prestazioni del modello in quanto utilizza diversi sottoinsiemi di dati per l'addestramento e il test. Aiuta a mitigare l'impatto delle suddivisioni casuali dei dati e fornisce una stima più affidabile delle prestazioni di generalizzazione del modello.

Il bootstrap è un'altra tecnica di ricampionamento che risolve i limiti del metodo di controllo. Implica il campionamento casuale del set di dati con la sostituzione per creare più campioni di bootstrap. Ogni campione di bootstrap viene utilizzato come set di addestramento e i dati rimanenti vengono utilizzati come set di test. Campionando ripetutamente con la sostituzione, il bootstrap genera più suddivisioni del test di addestramento, consentendo una valutazione più solida delle prestazioni del modello.

Sia la convalida incrociata che il bootstrap aiutano ad alleviare i pregiudizi associati al metodo di controllo. Forniscono stime più affidabili delle prestazioni del modello utilizzando i dati disponibili in modo più efficiente e tenendo conto della variabilità nelle suddivisioni del test di addestramento.

Sebbene il metodo di controllo sia un approccio diretto per la valutazione del modello, presenta limitazioni e potenziali distorsioni. Per mitigare questi problemi, tecniche come la convalida incrociata e il bootstrap offrono stime più solide e affidabili delle prestazioni del modello. È importante considerare questi metodi alternativi a seconda dei requisiti e dei vincoli specifici del problema in questione.

9.2 Holdout Evaluation (L09 Model Eval 2: Confidence Intervals)
9.2 Holdout Evaluation (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.11
  • www.youtube.com
The second video talks about using a test set for estimating the generalization performance of a model. Technically, an independent test set can provide an u...
 

9.3 Selezione del modello di controllo (L09 Model Eval 2: Confidence Intervals)



9.3 Selezione del modello di controllo (L09 Model Eval 2: Confidence Intervals)

Nel video precedente, abbiamo discusso il metodo di controllo per la valutazione del modello. Ora, esploreremo come possiamo modificare questo metodo per la selezione del modello. Ricapitolando, nel video precedente abbiamo suddiviso il set di dati in un set di addestramento e un set di test. Abbiamo addestrato un modello sul set di addestramento utilizzando un algoritmo di apprendimento automatico e impostazioni fisse degli iperparametri. Quindi, abbiamo valutato il modello sul set di test. Inoltre, opzionalmente adattiamo il modello all'intero set di dati per sfruttare più dati, prevedendo prestazioni migliori.

Ora, miriamo a utilizzare il metodo di controllo per la selezione del modello, che è strettamente correlato all'ottimizzazione degli iperparametri. La selezione del modello implica la scelta del modello migliore tra le diverse impostazioni degli iperparametri. Nel processo di messa a punto dell'iperparametro, generiamo più modelli, ciascuno corrispondente a una specifica impostazione dell'iperparametro. La selezione del modello ci aiuta a identificare il modello con l'impostazione ottimale dell'iperparametro.

Per spiegare il metodo di controllo modificato per la selezione del modello, analizziamo i passaggi. Innanzitutto, invece di suddividere il set di dati in un solo set di addestramento e test, lo dividiamo in tre set: un set di addestramento, un set di convalida e un set di test. Questa separazione ci consente di avere un dataset indipendente, il validation set, per la selezione del modello.

Successivamente, consideriamo diverse impostazioni dell'iperparametro e adattiamo più modelli utilizzando i dati di addestramento. Ad esempio, possiamo utilizzare un algoritmo K-nearest neighbor con valori di iperparametri di k=3, k=5 e k=7, risultando in tre modelli.

La fase di selezione del modello comporta la valutazione di questi modelli utilizzando il set di convalida. Poiché i modelli possono adattarsi eccessivamente ai dati di addestramento, non è adatto per la selezione del modello migliore. Pertanto, ci affidiamo al set di convalida indipendente per valutare i modelli. Calcoliamo le metriche delle prestazioni, come l'accuratezza della previsione, per ciascun modello e selezioniamo quello con le migliori prestazioni come modello ottimale, corrispondente alle migliori impostazioni dell'iperparametro.

Tuttavia, l'utilizzo del set di convalida più volte per la selezione del modello può introdurre bias, in modo simile al problema che abbiamo riscontrato con il set di test nel video precedente. Per ottenere una stima imparziale delle prestazioni del modello, riserviamo un set di test indipendente. Dopo aver selezionato il modello migliore, valutiamo le sue prestazioni sul set di test e riportiamo i risultati.

Facoltativamente, prima della valutazione finale, possiamo riadattare il modello utilizzando i dati combinati di addestramento e convalida. Questo passaggio sfrutta più dati per migliorare potenzialmente le prestazioni del modello. Infine, valutiamo il modello finale sul set di test indipendente e riportiamo le sue prestazioni. Sebbene non disponiamo di un set di test per valutare ulteriormente il modello adattato ai dati combinati, in genere si prevede che sia migliore a causa della maggiore quantità di dati.

In pratica, il metodo di controllo per la selezione del modello può variare e non tutti i passaggi vengono seguiti rigorosamente. Alcuni professionisti valutano direttamente il modello selezionato sul set di test senza ripetere il training sui dati combinati. Tuttavia, l'idea chiave è disporre di set di dati separati per l'addestramento, la convalida e il test per garantire una stima imparziale delle prestazioni e facilitare la selezione del modello migliore.

Nel prossimo video, approfondiremo il concetto di intervalli di confidenza.

9.3 Holdout Model Selection (L09 Model Eval 2: Confidence Intervals)
9.3 Holdout Model Selection (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.12
  • www.youtube.com
After discussing the holdout method for model evaluation in the previous video, this video covers the holdout method for model selection (aka hyperparameter ...
 

9.4 Intervalli di confidenza ML tramite approssimazione normale (L09 Model Eval 2: Confidence Intervals)



9.4 Intervalli di confidenza ML tramite approssimazione normale (L09 Model Eval 2: Confidence Intervals)

In questo video, ci concentriamo sugli intervalli di confidenza, in particolare per stimare l'errore di classificazione o l'accuratezza della classificazione da un set di test. Useremo il metodo di approssimazione normale, che è l'approccio più semplice. Tuttavia, discuteremo anche di metodi migliori basati sul ricampionamento nei prossimi video.

Attualmente, siamo nella sezione di base, esplorando gli intervalli di confidenza usando il metodo dell'approssimazione normale. Nei video successivi, approfondiremo diverse tecniche di ricampionamento, iniziando con il metodo di holdout ripetuto e passando poi a metodi come il bootstrap per la costruzione di intervalli di confidenza empirici, che sono più efficaci quando si ha a che fare con set di dati più piccoli comunemente riscontrati nell'apprendimento automatico tradizionale.

Iniziamo discutendo la distribuzione binomiale, che potresti già conoscere da altre classi statistiche. La distribuzione binomiale fornisce il numero di successi, con parametri n e p, che rappresentano rispettivamente il numero di tentativi e la probabilità di successo. La media della distribuzione binomiale è data da n volte p. Ad esempio, se abbiamo 100 prove con una probabilità di successo del 33%, la media sarebbe 30.

Nella figura a sinistra, puoi vedere la funzione di densità di probabilità della distribuzione binomiale per diversi valori di p e n. Questa funzione di densità illustra la probabilità di diversi numeri di successi. Inoltre, la varianza della distribuzione binomiale viene calcolata come n volte p volte (1 - p), che useremo in seguito. Prenditi un momento per familiarizzare con questo modello.

Ora colleghiamo la distribuzione binomiale all'apprendimento automatico. Possiamo vedere la sconfitta per 0-1 come un processo Bernoulli, dove abbiamo due possibilità: classificazione corretta (successo) e classificazione errata (fallimento). Possiamo considerare la classificazione errata come un successo e la corretta classificazione come un fallimento. Questa prospettiva è in linea con il concetto di testa e croce in un lancio di moneta. Per stimare la probabilità di successo (cioè classificazione errata), possiamo calcolarla empiricamente eseguendo un gran numero di prove e contando il numero di successi diviso per il numero totale di prove. Il numero medio di successi è n volte p, che corrisponde alla media della distribuzione binomiale.

La relazione tra la perdita 0-1 e la distribuzione binomiale ci aiuta a comprendere la nozione di errore nell'apprendimento automatico. Possiamo considerare la sconfitta per 0-1 come una prova di Bernoulli, e il vero errore come la probabilità di pronostici corretti. Per stimare il vero errore, utilizziamo un set di test e calcoliamo la proporzione di previsioni errate. Questa proporzione rappresenta l'errore di classificazione, che può essere ulteriormente diviso per la dimensione del set di test per ottenere un valore compreso tra zero e uno.

Quando costruiamo intervalli di confidenza, utilizziamo gli stessi metodi impiegati negli intervalli di confidenza di un campione da altre classi statistiche. Un intervallo di confidenza è un intervallo che dovrebbe contenere il parametro di interesse con una certa probabilità. Il livello di confidenza più comune è il 95%, ma possono essere utilizzati anche altri livelli come il 90% o il 99%. La scelta del livello di confidenza determina l'ampiezza dell'intervallo, con livelli più alti che determinano intervalli più ampi.

Per definire formalmente un intervallo di confidenza, consideriamo più campioni estratti ripetutamente dalla distribuzione presunta. Nel nostro caso, assumiamo una distribuzione normale. Quando si costruisce un intervallo di confidenza al 95% utilizzando questo metodo, se dovessimo costruire un numero infinito di intervalli basati su un numero infinito di campioni, ci aspetteremmo che il 95% di questi intervalli contenga il vero parametro.

Forse ti starai chiedendo perché assumiamo che i dati possano essere estratti da una distribuzione normale. Il motivo è che la distribuzione binomiale assomiglia a una distribuzione normale quando il numero di prove è elevato. Anche per un numero relativamente piccolo di prove, i dati mostrano già una forma simile a una distribuzione normale standard. Questo è il motivo per cui utilizziamo l'approssimazione normale

metodo per la costruzione degli intervalli di confidenza in questo caso.

Ora, entriamo nei dettagli della costruzione di un intervallo di confidenza per l'errore di classificazione utilizzando il metodo di approssimazione normale. Innanzitutto, dobbiamo calcolare la deviazione standard della distribuzione binomiale. Come accennato in precedenza, la varianza della distribuzione binomiale è data da n volte p volte (1 - p). Pertanto, la deviazione standard è la radice quadrata della varianza.

Successivamente, determiniamo il punteggio z corrispondente al livello di confidenza desiderato. Il punteggio z rappresenta il numero di deviazioni standard dalla media della distribuzione normale standard. Per un livello di confidenza del 95%, il punteggio z è di circa 1,96. La formula generale per calcolare il punteggio z è (x - μ) / σ, dove x è il livello di confidenza desiderato, μ è la media e σ è la deviazione standard.

Per costruire l'intervallo di confidenza, iniziamo con il tasso di errore stimato dal set di test, che rappresenta la nostra stima puntuale. Quindi, sottraiamo e aggiungiamo il prodotto del punteggio z e la deviazione standard dalla stima puntuale. Questo ci dà rispettivamente i limiti inferiore e superiore dell'intervallo di confidenza. L'intervallo risultante rappresenta l'intervallo di valori all'interno del quale ci aspettiamo che il vero errore di classificazione rientri con il livello di confidenza specificato.

È importante notare che il metodo di approssimazione normale presuppone che il numero di prove (dimensione del set di test) sia sufficientemente grande. Se il set di test è piccolo, questa approssimazione potrebbe non essere accurata. In tali casi, metodi di ricampionamento come il bootstrap possono fornire intervalli di confidenza più affidabili.

In sintesi, la costruzione di intervalli di confidenza per l'errore di classificazione utilizzando il metodo di approssimazione normale comporta i seguenti passaggi:

  1. Calcola la deviazione standard della distribuzione binomiale usando la formula sqrt(n * p * (1 - p)).
  2. Determina il punteggio z corrispondente al livello di confidenza desiderato.
  3. Calcola i limiti inferiore e superiore dell'intervallo di confidenza sottraendo e aggiungendo rispettivamente il prodotto del punteggio z e la deviazione standard dalla stima puntuale.

Tieni presente che nei video successivi esploreremo metodi più avanzati basati su tecniche di ricampionamento, particolarmente utili per set di dati più piccoli. Questi metodi forniscono intervalli di confidenza empirici e sono spesso più accurati del normale metodo di approssimazione.

9.4 ML Confidence Intervals via Normal Approximation (L09 Model Eval 2: Confidence Intervals)
9.4 ML Confidence Intervals via Normal Approximation (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.12
  • www.youtube.com
This video talks about the simplest way for making confidence intervals for machine learning classifiers using the test set performance: normal approximation...
 

9.5 Ricampionamento e Holdout ripetuto (L09 Model Eval 2: Confidence Intervals)



9.5 Ricampionamento e Holdout ripetuto (L09 Model Eval 2: Confidence Intervals)

In questo video, approfondiremo l'argomento del ricampionamento e discuteremo specificamente il metodo di holdout ripetuto. In precedenza, abbiamo esplorato il normale metodo di controllo, in cui il set di dati è suddiviso in set di addestramento e set di test. Abbiamo anche esplorato come il metodo di approssimazione normale può essere utilizzato per costruire intervalli di confidenza basati sulle prestazioni stimate sul set di test. Ora sposteremo la nostra attenzione sui metodi di ricampionamento, a partire dal metodo di holdout ripetuto.

Per fornire un'illustrazione visiva, consideriamo le curve di apprendimento. Le curve di apprendimento servono come indicatori del fatto che il nostro modello trarrebbe vantaggio da ulteriori dati di addestramento. Nel grafico, l'asse x rappresenta la dimensione del training set, mentre l'asse y rappresenta le prestazioni, misurate come accuratezza. Tuttavia, lo stesso grafico potrebbe essere utilizzato per misurare l'errore capovolgendolo. Le prestazioni mostrate qui si basano sul set di dati di cifre scritte a mano di Amnesty, ma per accelerare il calcolo è stato utilizzato solo un sottoinsieme di 5000 immagini. Di queste 5000 immagini, 3000 sono state assegnate per l'addestramento e 1500 sono state messe da parte come set di test. È stato inoltre creato un altro set di dati composto da 3500 immagini e da esso sono stati costruiti set di addestramento di varie dimensioni.

Ogni punto dati sul grafico corrisponde a una specifica dimensione del set di allenamento, mentre la dimensione del set di test rimane costante a 1500. La tendenza osservata è che al diminuire della dimensione del set di allenamento, aumenta la precisione dell'allenamento. Tuttavia, all'aumentare delle dimensioni del training set, la precisione dell'addestramento diminuisce. Una possibile spiegazione di questa tendenza è che con un set di addestramento più piccolo, è più facile per il modello memorizzare i dati, inclusi eventuali valori anomali o rumore. Con l'aumentare delle dimensioni del training set, diventa più difficile memorizzare i dati a causa della presenza di valori anomali più diversi. Tuttavia, un set di addestramento più ampio facilita una migliore generalizzazione, portando a prestazioni migliori sul set di test.

Vale la pena notare che il grafico si ferma a una dimensione del set di addestramento di 3500, poiché non era disponibile un set di dati più grande. Il set di test, mostrato in rosso, è rimasto fisso a 1500 campioni. Riservando questi campioni per il test, è stato introdotto un pregiudizio pessimistico perché il modello potrebbe non aver raggiunto la sua piena capacità. La capacità si riferisce al potenziale del modello di migliorare con più dati. In questo caso, per motivi di efficienza è stato utilizzato un semplice classificatore softmax, che è una regressione logistica multinomiale. Tuttavia, altri classificatori potrebbero essere impiegati per esperimenti simili.

In connessione con le curve di apprendimento, è importante considerare la dimensione del set di dati e il suo impatto sulle prestazioni del classificatore. L'aumento delle dimensioni del set di dati può migliorare le prestazioni del classificatore, in particolare quando le curve di apprendimento indicano un errore di test decrescente con l'aumentare delle dimensioni del set di training. Ad esempio, quando si lavora a un progetto che prevede la previsione della valutazione dei film, la raccolta di più recensioni di film da fonti come IMDb può migliorare le prestazioni del classificatore.

Durante l'orario d'ufficio, gli studenti spesso chiedono informazioni su come migliorare le prestazioni del classificatore per i loro progetti. Il miglioramento di un classificatore può comportare varie strategie, come la modifica dei parametri, la selezione delle funzionalità o l'estrazione delle funzionalità. Tuttavia, l'aumento delle dimensioni del set di dati è un metodo semplice ma efficace che può produrre risultati positivi. L'esame delle curve di apprendimento aiuta a determinare se più dati possono avvantaggiare il modello, invece di concentrarsi esclusivamente sull'ottimizzazione degli iperparametri.

È importante riconoscere il pregiudizio pessimistico derivante dalla suddivisione del set di dati in set di addestramento e set di test. Trattenendo una parte sostanziale dei dati per il test, il modello potrebbe non aver raggiunto il suo pieno potenziale a causa dei dati di addestramento limitati. Una soluzione consiste nel ridurre le dimensioni del set di test per affrontare questo pregiudizio. Tuttavia, la riduzione delle dimensioni del set di test introduce un'altra sfida: un aumento della varianza. La varianza della stima delle prestazioni del modello aumenta con set di test più piccoli, portando potenzialmente a stime meno affidabili.

Per mitigare queste sfide, possiamo utilizzare una tecnica chiamata convalida incrociata Monte Carlo, che prevede la ripetizione del metodo di controllo più volte e la media dei risultati. Questa tecnica è comunemente nota come metodo di controllo ripetuto.

Nel metodo di controllo ripetuto, eseguiamo più iterazioni del processo di controllo, in cui suddividiamo casualmente il set di dati in set di addestramento e test. Ogni iterazione utilizza una suddivisione casuale diversa, assicurando che diversi sottoinsiemi di dati vengano utilizzati per l'addestramento e il test in ogni iterazione. Ripetendo questo processo più volte, possiamo ottenere più stime delle prestazioni per il nostro modello.

Il vantaggio principale del metodo dell'holdout ripetuto è che fornisce una stima più solida e affidabile delle prestazioni del modello rispetto a una singola divisione dell'holdout. Poiché ogni iterazione utilizza una suddivisione casuale diversa, possiamo catturare la variabilità delle prestazioni dovuta alla casualità dei dati. Questo ci aiuta a ottenere una stima più accurata delle prestazioni reali del modello su dati invisibili.

Una volta ottenute le stime delle prestazioni di ogni iterazione, possiamo calcolare le prestazioni medie e utilizzarle come stima finale. Inoltre, possiamo anche calcolare la varianza o la deviazione standard delle stime delle prestazioni per avere un'idea della variabilità dei risultati.

È importante notare che nel metodo di controllo ripetuto, i set di addestramento e test devono essere disgiunti in ogni iterazione per garantire che il modello venga valutato su dati invisibili. Inoltre, la dimensione dei set di addestramento e di test dovrebbe essere determinata in base alla dimensione del set di dati disponibile e al compromesso desiderato tra i dati di addestramento e di valutazione.

Il metodo di controllo ripetuto è particolarmente utile quando il set di dati è sufficientemente grande da consentire più suddivisioni casuali. Aiuta a fornire una valutazione più solida delle prestazioni del modello e può essere particolarmente utile quando si lavora con dati limitati.

In sintesi, il metodo di controllo ripetuto è una tecnica di ricampionamento che comporta la ripetizione del processo di controllo più volte con diverse suddivisioni casuali del set di dati. Aiuta a ottenere stime delle prestazioni più affidabili e a catturare la variabilità delle prestazioni del modello. Calcolando la media dei risultati delle ripetute iterazioni di controllo, possiamo ottenere una stima migliore delle prestazioni reali del modello.

9.5 Resampling and Repeated Holdout (L09 Model Eval 2: Confidence Intervals)
9.5 Resampling and Repeated Holdout (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.13
  • www.youtube.com
This video talks about learning curves and how to assess whether a model can benefit from more data. Then it covers the repeated holdout method.-------This v...
 

9.6 Intervalli di confidenza bootstrap (Valutazione modello L09 2: Intervalli di confidenza)



9.6 Intervalli di confidenza bootstrap (Valutazione modello L09 2: Intervalli di confidenza)

Bentornato! Siamo ora giunti alle parti più interessanti di questa conferenza. In questo video, ci concentreremo sugli intervalli di confidenza empirici utilizzando il metodo bootstrap. Come breve riepilogo, abbiamo discusso in precedenza del metodo bootstrap quando abbiamo parlato dei metodi di bagging. Nel bagging, abbiamo prelevato campioni di bootstrap dal set di addestramento. Ma ti sei mai chiesto perché si chiama metodo "bootstrap"?

Ebbene, il termine "stivaletto" ha avuto origine dalla frase "tirarsi su con i propri stivali", che era usata in senso figurato per descrivere un compito impossibile. Il metodo bootstrap è davvero una tecnica impegnativa in quanto comporta la stima della distribuzione del campionamento da un singolo campione. Quindi, in un certo senso, stiamo metaforicamente cercando di tirarci su con i nostri stivali tentando questo difficile compito.

Nel corso del tempo, il significato di "bootstrap" si è ampliato per includere il concetto di migliorare se stessi attraverso uno sforzo rigoroso e senza aiuto. Tuttavia, nel contesto del metodo bootstrap, ci concentriamo esclusivamente sulla tecnica stessa e non sulle connotazioni politiche associate al "tirarsi su con i propri bootstrap".

Ora, approfondiamo il metodo bootstrap e come ci consente di stimare la distribuzione del campionamento e l'incertezza delle nostre stime delle prestazioni. Il metodo bootstrap, introdotto per la prima volta da Bradley Efron nel 1979, è una tecnica di ricampionamento utilizzata per stimare una distribuzione campionaria quando abbiamo accesso a un solo set di dati.

Per comprendere il concetto, immagina di avere un solo set di dati e di volerlo utilizzare per stimare varie statistiche campione. Queste statistiche possono essere qualsiasi cosa di interesse, come la media campionaria, la deviazione standard, l'R-quadrato o le correlazioni. Il metodo bootstrap ci consente di generare nuovi set di dati campionando ripetutamente dal set di dati originale, simulando il processo di prelievo di campioni dalla popolazione. È importante notare che il campionamento viene eseguito con sostituzione, a differenza del metodo di controllo ripetuto, che campiona senza sostituzione.

Disegnando questi campioni bootstrap e calcolando la statistica campionaria desiderata, come la media campionaria, possiamo osservare che la distribuzione delle medie campionarie segue una distribuzione normale. La deviazione standard di questa distribuzione, nota come errore standard della media, può essere stimata dalla deviazione standard del campione divisa per la radice quadrata della dimensione del campione.

Il metodo bootstrap ci consente di costruire intervalli di confidenza stimando la deviazione standard e utilizzandola per determinare l'incertezza associata alle nostre stime di performance. Gli intervalli di confidenza forniscono un intervallo di valori plausibili per il vero parametro della popolazione. Nel caso del metodo bootstrap, calcoliamo empiricamente la deviazione standard e la utilizziamo per calcolare gli intervalli di confidenza.

Ora, comprendiamo i passaggi coinvolti nella procedura di bootstrap. Innanzitutto, disegniamo un campione con sostituzione dal set di dati originale. Successivamente, calcoliamo la statistica del campione desiderata utilizzando questo campione di bootstrap. Ripetiamo questi due passaggi un gran numero di volte, di solito si consiglia di essere circa 200 o più, per ottenere una distribuzione di statistiche campionarie. La deviazione standard di questa distribuzione serve come stima dell'errore standard della statistica campionaria. Infine, possiamo utilizzare l'errore standard per calcolare gli intervalli di confidenza, che forniscono una misura dell'incertezza intorno alla nostra stima delle prestazioni.

Quando si tratta di valutare le prestazioni di un classificatore utilizzando il metodo bootstrap, possiamo modificare leggermente l'approccio. Considera un set di dati di dimensione n. In questo caso, eseguiamo p round di bootstrap, in cui in ogni round estraiamo un campione di bootstrap dal set di dati originale. Quindi adattiamo un modello a ciascuno di questi campioni bootstrap e calcoliamo l'accuratezza sui campioni out-of-bag, che sono i campioni non inclusi nel campione bootstrap. Calcolando la media delle precisioni su tutti i round bootstrap, otteniamo la precisione bootstrap. Questo approccio affronta il problema dell'overfitting valutando il modello su dati invisibili, piuttosto che sui campioni utilizzati per l'addestramento. Inoltre, l'accuratezza del bootstrap fornisce una misura della variabilità delle prestazioni del modello.

Per riassumere i passaggi coinvolti nella valutazione delle prestazioni di un classificatore utilizzando il metodo bootstrap:

  1. Seleziona casualmente un campione bootstrap di dimensione n (con sostituzione) dal set di dati originale.
  2. Addestra un classificatore sull'esempio bootstrap.
  3. Valutare il classificatore addestrato sui campioni out-of-bag (campioni non inclusi nel campione bootstrap) e calcolare l'accuratezza.
  4. Ripeti i passaggi 1-3 per un numero elevato di round di bootstrap (p volte).
  5. Calcola la precisione media in tutti i round di bootstrap per ottenere la precisione del bootstrap.

L'accuratezza bootstrap può servire come stima delle prestazioni del classificatore su dati invisibili e fornisce una misura dell'incertezza associata alla stima delle prestazioni. Inoltre, può aiutare a valutare la stabilità e la robustezza del classificatore.

Utilizzando il metodo bootstrap, possiamo ottenere informazioni preziose sulle prestazioni dei nostri modelli e stimare l'incertezza associata alle nostre stime delle prestazioni. Questa tecnica è particolarmente utile quando disponiamo di dati limitati e vogliamo sfruttare al massimo il set di dati disponibile. Il metodo bootstrap ci consente di approssimare la distribuzione campionaria, costruire intervalli di confidenza e valutare efficacemente le prestazioni dei classificatori.

In conclusione, il metodo bootstrap è una potente tecnica di ricampionamento che ci consente di stimare la distribuzione del campionamento e valutare l'incertezza delle stime delle prestazioni utilizzando un singolo set di dati. Fornisce un approccio pratico per affrontare varie sfide statistiche e ha trovato applicazioni in un'ampia gamma di campi, tra cui l'apprendimento automatico, la statistica e l'analisi dei dati. Comprendendo e implementando il metodo bootstrap, possiamo migliorare la nostra capacità di prendere decisioni informate e trarre conclusioni affidabili da dati limitati.

9.6 Bootstrap Confidence Intervals (L09 Model Eval 2: Confidence Intervals)
9.6 Bootstrap Confidence Intervals (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.13
  • www.youtube.com
This video talks about the Leave One Out Bootstrap (i.e., computing the model performances on out-of-bag samples) for constructing confidence intervals.-----...
 

9.7 I metodi Bootstrap .632 e .632+ (L09 Model Eval 2: Confidence Intervals)



9.7 I metodi Bootstrap .632 e .632+ (L09 Model Eval 2: Confidence Intervals)

n questo video, approfondiremo gli argomenti trattati nel video precedente. Nel video precedente, abbiamo coperto il metodo bootstrap, in particolare il bootstrap out-of-bag, che viene utilizzato per costruire intervalli di confidenza empirici. In questo video esploreremo due tecniche di bootstrap avanzate: il bootstrap 0.632 e il bootstrap 0.632+. Queste tecniche sono correlate e le loro origini saranno spiegate ulteriormente in questo video.

Per ricapitolare brevemente la procedura bootstrap, iniziamo con un set di dati e creiamo campioni bootstrap campionando con sostituzione. Per ogni campione di bootstrap, adattiamo un modello e valutiamo le sue prestazioni sui campioni out-of-bag. Nel video precedente abbiamo anche mostrato come implementare questa procedura in Python, utilizzando un approccio orientato agli oggetti.

Nel video corrente, il presentatore introduce un'implementazione del codice che semplifica il processo. Hanno creato una classe chiamata "BootstrapOutOfBag" che accetta il numero di round di bootstrap e un seme casuale come input. Questa classe fornisce un metodo chiamato "split" che divide il set di dati in sottoinsiemi di addestramento e test. I sottoinsiemi di addestramento corrispondono ai campioni bootstrap, mentre i sottoinsiemi di test rappresentano i campioni fuori borsa. Iterando su queste suddivisioni, il relatore dimostra come eseguire la procedura di bootstrap e valutare le prestazioni del modello.

Il relatore introduce quindi un'altra implementazione chiamata "bootstrap_0.632_score". Questa implementazione consente agli utenti di calcolare comodamente i punteggi out-of-bag o bootstrap. Fornendo il classificatore, il training set, il numero di suddivisioni e il seme casuale, gli utenti possono calcolare l'accuratezza media e ottenere intervalli di confidenza utilizzando il metodo percentile.

Successivamente, il video affronta un difetto del metodo bootstrap out-of-bag, noto come pregiudizio pessimistico. Bradley Efron ha proposto la stima di 0,632 come un modo per affrontare questo pregiudizio. Il pregiudizio pessimistico sorge perché i campioni bootstrap contengono meno punti dati univoci rispetto al set di dati originale. Infatti, solo il 63,2% dei punti dati nei campioni bootstrap è unico. Il presentatore spiega i calcoli di probabilità alla base di questa figura e fornisce una visualizzazione per illustrare come si comporta per diverse dimensioni del campione.

Per superare il pregiudizio pessimistico, il video introduce il metodo bootstrap 0.632. Questo metodo combina l'accuratezza dei campioni out-of-bag e dei campioni bootstrap in ogni round. L'accuratezza in ogni round viene calcolata come la somma di due termini: l'accuratezza fuori dal sacco e l'accuratezza della sostituzione. L'accuratezza out-of-bag rappresenta le prestazioni sui campioni che non sono stati inclusi nel campione bootstrap, mentre l'accuratezza della risostituzione misura le prestazioni sugli stessi dati utilizzati per adattare il modello.

Combinando questi due termini, il metodo bootstrap 0.632 mira a fornire una stima meno distorta delle prestazioni del modello. Questo metodo affronta la natura eccessivamente ottimistica dell'accuratezza della sostituzione incorporando l'accuratezza fuori dal sacchetto.

In conclusione, questo video si basa sui concetti discussi nel video precedente introducendo tecniche di bootstrap avanzate: il bootstrap 0.632 e il bootstrap 0.632+. Questi metodi mirano a mitigare il pregiudizio pessimistico del bootstrap out-of-bag considerando sia l'accuratezza del campione out-of-bag che quella bootstrap. Il video fornisce implementazioni del codice e spiegazioni per facilitare la comprensione e l'applicazione di queste tecniche.

9.7 The .632 and .632+ Bootstrap methods (L09 Model Eval 2: Confidence Intervals)
9.7 The .632 and .632+ Bootstrap methods (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.13
  • www.youtube.com
In this video, we discuss the .632 bootstrap, which addresses the pessimistic bias of the OOB bootstrap covered in the previous video. Then, we discuss the ....
 

10.1 Panoramica della lezione di convalida incrociata (L10: Valutazione del modello 3)


10.1 Panoramica della lezione di convalida incrociata (L10: Valutazione del modello 3)

Ciao a tutti! La scorsa settimana abbiamo approfondito l'importante argomento della valutazione del modello, dove abbiamo discusso vari aspetti come la valutazione delle prestazioni del modello e la costruzione di intervalli di confidenza. Tuttavia, la nostra esplorazione della valutazione del modello non è ancora completa, poiché ci sono altri concetti essenziali che dobbiamo coprire. In pratica, non si tratta solo di valutare un modello specifico; dobbiamo anche trovare un buon modello in primo luogo che possiamo valutare.

In questa lezione, ci concentreremo sulle tecniche di convalida incrociata, che includono metodi per ottimizzare gli iperparametri e confrontare i modelli risultanti da diverse impostazioni degli iperparametri. Questo processo è noto come selezione del modello. La nostra enfasi principale oggi sarà sulla convalida incrociata.

Abbiamo molti argomenti da trattare questa settimana, ma non preoccuparti, ogni argomento è relativamente breve. Consentitemi di fornire una panoramica di ciò che discuteremo in questa lezione e nella prossima:

  1. Tecniche di convalida incrociata per la valutazione del modello: esploreremo la convalida incrociata K-fold e altre tecniche correlate per valutare le prestazioni del modello. Dimostrerò esempi di codice usando Python e scikit-learn.

  2. Convalida incrociata per la selezione del modello: discuteremo come utilizzare la convalida incrociata per selezionare il modello migliore, inclusa l'ottimizzazione degli iperparametri. Ti mostrerò come eseguire la selezione del modello utilizzando la ricerca sulla griglia e la ricerca randomizzata in scikit-learn.

  3. La legge della parsimonia: esploreremo il concetto dell'unico metodo dell'errore standard, che combina l'idea della convalida incrociata K-fold con il principio di mantenere semplici i modelli. Fornirò anche esempi di codice per il metodo di un errore standard e la validazione incrociata K-fold ripetuta, che è simile al metodo di holdout ripetuto discusso nelle lezioni precedenti.

Prima di approfondire la convalida incrociata, facciamo una rapida reintroduzione agli iperparametri e chiariamo la loro differenza rispetto ai parametri del modello. Quindi procederemo a discutere la convalida incrociata K-fold per la valutazione del modello e altre tecniche correlate. Esamineremo l'implementazione pratica di queste tecniche usando Python e scikit-learn. Infine, estenderemo la nostra discussione alla convalida incrociata per la selezione del modello, evidenziando la distinzione tra valutazione del modello e selezione del modello.

Ho anche preparato una panoramica basata su ricerche e letture approfondite, classificando diverse tecniche in base a compiti e problemi specifici. Questa categorizzazione ci aiuterà a navigare tra le diverse tecniche e a capire quando utilizzarle. È importante notare che le raccomandazioni fornite nella panoramica sono soggette a ulteriori discussioni, che affronteremo durante le prossime lezioni.

Questo riassume la panoramica della lezione. Procediamo ora con una reintroduzione agli iperparametri, seguita da un'esplorazione dettagliata della convalida incrociata.

10.1 Cross-validation Lecture Overview (L10: Model Evaluation 3)
10.1 Cross-validation Lecture Overview (L10: Model Evaluation 3)
  • 2020.11.18
  • www.youtube.com
This video goes over the topics we are going to cover in this lecture: cross-validation and model selection. Also, it gives a big-picture overview discussing...
 

10.2 Iperparametri (L10: Valutazione del modello 3)



10.2 Iperparametri (L10: Valutazione del modello 3)

Prima di approfondire la convalida incrociata, prendiamoci un momento per discutere gli iperparametri. Potresti già avere familiarità con il concetto, ma in caso contrario, questo servirà come utile riepilogo. Gli iperparametri possono essere considerati come i parametri di ottimizzazione o le impostazioni di un modello o algoritmo. Sono le opzioni che regoli manualmente per ottimizzare le prestazioni del tuo modello. Per illustrare ciò, consideriamo il classificatore K-nearest neighbor, un modello non parametrico.

I modelli non parametrici, a differenza dei modelli parametrici, non hanno una struttura predefinita. Al contrario, si affidano al training set per definire la struttura del modello. Ad esempio, nei vicini K-più vicini, i parametri del modello sono essenzialmente gli stessi esempi di addestramento. Pertanto, la modifica del set di addestramento, ad esempio aggiungendo o rimuovendo esempi, può avere un impatto significativo sulla struttura del modello. Un altro esempio di modello non parametrico è l'albero decisionale, in cui il numero di suddivisioni nell'albero dipende dagli esempi di addestramento, piuttosto che da una struttura predefinita.

Ora concentriamoci in particolare sugli iperparametri dell'algoritmo K-nearest neighbor. Questi iperparametri includono opzioni come il numero di vicini (K) e la metrica della distanza utilizzata (ad es. Manhattan o distanza euclidea). Queste opzioni devono essere impostate prima di eseguire il modello e non vengono apprese dai dati. In questo corso esploreremo tecniche come la ricerca su griglia o la ricerca randomizzata per facilitare l'ottimizzazione degli iperparametri. Tuttavia, è importante notare che provare valori diversi per gli iperparametri non è un processo per adattarli ai dati, ma piuttosto una sperimentazione iterativa per trovare le impostazioni migliori.

Per fornire ulteriori esempi, facciamo riferimento alle definizioni di iperparametri in scikit-learn. Quando si inizializza un classificatore ad albero decisionale, gli iperparametri possono includere, tra gli altri, la misura dell'impurità (ad es. Gini o entropia), la profondità dell'albero per la pre-potatura e il numero minimo di campioni per foglia. Questi sono tutti considerati iperparametri.

In particolare, non tutte le opzioni sono iperparametri, ma tutti gli iperparametri sono opzioni. Ad esempio, lo stato casuale o seme casuale, che determina la casualità nel modello, non è un iperparametro. È qualcosa che non dovrebbe essere manipolato per migliorare il modello poiché la modifica del seme casuale per prestazioni migliori sarebbe considerata ingiusta.

Ora confrontiamo gli iperparametri con i parametri del modello. Ad esempio, diamo una breve occhiata alla regressione logistica, che può essere vista come un modello lineare e funge da introduzione sia al machine learning classico che al deep learning. Nella regressione logistica, gli input sono caratteristiche, incluso un termine di intercettazione per tenere conto del bias. I pesi del modello, determinati in base al numero di caratteristiche, formano la struttura del modello. Inizialmente, questi pesi possono essere impostati su zero o piccoli valori casuali, quindi vengono aggiornati in modo iterativo per minimizzare la funzione di perdita (ad esempio, errore quadratico medio nella regressione lineare).

Nella regressione logistica, una funzione non lineare, tipicamente la funzione logistica o funzione sigmoide, viene applicata all'input netto (la somma ponderata degli input) per schiacciarlo in un intervallo compreso tra zero e uno. Questo output può essere interpretato come la probabilità di appartenenza alla classe nella classificazione binaria. I pesi vengono regolati per ridurre al minimo la perdita, che viene calcolata confrontando la probabilità di appartenenza alla classe prevista con la vera etichetta di classe (0 o 1). La regressione logistica utilizza anche tecniche di regolarizzazione, come la regolarizzazione L1 o L2, che aggiungono un termine di penalità basato sulla dimensione dei pesi per evitare l'overfitting. La forza di regolarizzazione (lambda) è un iperparametro che deve essere impostato dall'utente.

Per riassumere, i parametri del modello come i pesi (W) nella regressione logistica vengono appresi dai dati di addestramento, mentre gli iperparametri come la forza di regolarizzazione (lambda) sono determinati dall'utente e non vengono appresi dai dati. I parametri del modello sono le variabili interne del modello che vengono aggiornate durante il processo di addestramento per ottimizzare le prestazioni, mentre gli iperparametri sono impostazioni esterne che controllano il comportamento del modello e devono essere impostati prima dell'addestramento.

Il processo di individuazione dei valori ottimali per gli iperparametri è noto come ottimizzazione degli iperparametri. È un passaggio importante nell'apprendimento automatico in quanto può influire notevolmente sulle prestazioni di un modello. Tuttavia, trovare i migliori valori di iperparametro non è un compito semplice e spesso richiede la sperimentazione e la valutazione di diverse combinazioni.

Un approccio comune all'ottimizzazione degli iperparametri è la ricerca su griglia, in cui viene specificato un set predefinito di valori per ogni iperparametro e tutte le possibili combinazioni vengono valutate utilizzando la convalida incrociata. La convalida incrociata è una tecnica utilizzata per valutare le prestazioni di un modello suddividendo i dati in più sottoinsiemi (fold), addestrando il modello su alcune pieghe e valutandolo sulla piega rimanente. Questo aiuta a stimare le prestazioni del modello su dati invisibili e riduce il rischio di overfitting.

Un altro approccio è la ricerca randomizzata, in cui combinazioni casuali di valori di iperparametri vengono campionate da distribuzioni specificate. Ciò può essere utile quando lo spazio di ricerca degli iperparametri è ampio, poiché consente di esplorare un intervallo di valori più ampio senza valutare in modo esaustivo tutte le possibili combinazioni.

Oltre alla griglia di ricerca e alla ricerca randomizzata, esistono tecniche più avanzate per la messa a punto degli iperparametri, come l'ottimizzazione bayesiana, che utilizza modelli probabilistici per guidare il processo di ricerca, e algoritmi genetici, che imitano il processo di selezione naturale per evolvere il miglior insieme di iperparametri.

Vale la pena notare che l'ottimizzazione degli iperparametri può essere computazionalmente costosa, in particolare per modelli complessi o set di dati di grandi dimensioni. Pertanto, viene spesso eseguito in combinazione con tecniche come la convalida incrociata per utilizzare nel modo più efficiente i dati disponibili.

Gli iperparametri sono le impostazioni o le opzioni di un modello che devono essere impostate prima dell'addestramento, mentre i parametri del modello sono le variabili interne apprese dai dati durante l'addestramento. L'ottimizzazione degli iperparametri è il processo per trovare i valori migliori per queste impostazioni ed è fondamentale per ottimizzare le prestazioni del modello. Tecniche come la ricerca su griglia, la ricerca randomizzata, l'ottimizzazione bayesiana e gli algoritmi genetici sono comunemente utilizzate per l'ottimizzazione degli iperparametri.

10.2 Hyperparameters (L10: Model Evaluation 3)
10.2 Hyperparameters (L10: Model Evaluation 3)
  • 2020.11.18
  • www.youtube.com
This video recaps the concept of hyperparameters using k-nearest neighbors and logistic regression as examples.-------This video is part of my Introduction o...
Motivazione: