Apprendimento automatico e Reti Neurali - pagina 18

 

Lezione 6. Ricerca: Giochi, Minimax e Alpha-Beta



6. Ricerca: Giochi, Minimax e Alpha-Beta

Il video discute la storia del gioco nell'IA, a partire dalla famosa citazione di Dreyfus secondo cui i computer non possono giocare a scacchi. I relatori spiegano come le regole se-allora non sono efficaci nei programmi di gioco e sono necessarie un'analisi e una strategia più approfondite. Introducono l'algoritmo minimax e il concetto di potatura alfa-beta per ottimizzare l'efficienza della ricerca del gioco. Il video esplora anche tecniche come la minimizzazione del costo delle polizze assicurative e il progressivo approfondimento. L'oratore conclude che mentre l'intelligenza del bulldozer è importante, non è necessariamente lo stesso tipo di intelligenza che gli umani hanno nelle loro teste.

  • 00:00:00 In questa sezione, i relatori discutono della storia antica del gioco nell'IA, evidenziando una famosa citazione di Hubert Dreyfus secondo cui i computer non possono giocare a scacchi. Tuttavia, i relatori sostengono che i giochi possono modellare alcuni elementi dell'intelligenza, e quindi procedono a spiegare come un computer può giocare a scacchi. Considerano l'uso delle regole if-then per affrontare un gioco, un metodo che non è molto efficace, ma è stato implementato con successo in alcuni programmi di gioco della dama. I relatori alla fine concludono che nei programmi di gioco sono necessarie un'analisi e una strategia più approfondite insieme a tattica e velocità, che esploreranno ulteriormente nella sezione.

  • 00:05:00 In questa sezione, il relatore discute il terzo modo di creare un forte programma di gioco degli scacchi, che prevede di guardare avanti e valutare tutte le possibili conseguenze delle mosse per determinare la migliore situazione di scacchiera possibile. Ciò richiede una funzione che combini le caratteristiche della scacchiera per produrre un valore statico utilizzato per determinare la migliore situazione della scacchiera. Il relatore spiega che il modo più diffuso per formare un valore statico è utilizzare un polinomio con punteggio lineare. Tuttavia, il metodo utilizzato non deve classificare le situazioni del tabellone o dare loro dei numeri; deve semplicemente determinare il migliore. L'oratore parla anche del fattore di ramificazione degli alberi in movimento e di come calcolare il numero di nodi terminali o foglia.

  • 00:10:00 In questa sezione, il relatore spiega i limiti dell'algoritmo del British Museum negli scacchi a causa dell'elevato numero di nodi foglia nell'albero decisionale del gioco. Secondo Claude Shannon, negli scacchi ci sono da 10 a 120 nodi foglia, il che rende impraticabile utilizzare il trattamento del British Museum per valutare la mossa migliore. Per mettere quel numero in prospettiva, l'oratore calcola che anche se tutti gli atomi nell'universo facessero valutazioni statiche a velocità di nanosecondi dall'inizio del Big Bang, saremmo ancora 14 ordini di grandezza inferiori. Pertanto, l'oratore conclude che dobbiamo guardare avanti il più lontano possibile se vogliamo valutare la mossa migliore negli scacchi.

  • 00:15:00 In questa sezione, il relatore spiega l'algoritmo minimax, che comporta l'assegnazione di valori ai nodi foglia di un albero di gioco e il "backup" livello per livello per determinare la migliore mossa possibile per ogni giocatore. Il giocatore che massimizza vuole guidare il gioco verso il valore più grande, mentre il giocatore che minimizza vuole spingerlo verso il valore più piccolo. Calcolando questi valori e decidendo la migliore linea d'azione, l'algoritmo può essere utilizzato per giocare a giochi contraddittori come gli scacchi. Il relatore illustra l'algoritmo con un semplice albero di gioco e mostra anche un esempio dell'algoritmo in azione con un albero di gioco più grande.

  • 00:20:00 In questa sezione del video, l'obiettivo è trovare modi per scendere il più in basso possibile nell'albero di ricerca per chiarire le misure grezze della qualità della scheda che possono dare un'idea abbastanza chiara della prossima mossa da fare . La soluzione per tagliare ampie porzioni dell'albero di ricerca risiede nell'algoritmo alpha-beta, che è uno strato sopra minimax. Alpha-beta utilizza due parametri, alpha e beta, per tagliare le sezioni dell'albero di ricerca, consentendo una ricerca più efficiente. Questo algoritmo non è un'alternativa al minimax, ma piuttosto un modo per renderlo più efficiente. Viene fornito un esempio per dimostrare come funziona in pratica l'algoritmo alfa-beta.

  • 00:25:00 In questa sezione, il relatore discute il processo di ricerca del gioco e come può essere ottimizzato attraverso l'uso di algoritmi come minimax e alpha-beta. L'esempio utilizzato è un albero di profondità quattro o superiore, in cui l'oratore cerchia i numeri che devono essere calcolati, rivelando che alcuni rami non devono essere valutati a causa di situazioni di interruzione. Ciò consente di risparmiare tempo di calcolo e consente una ricerca più efficiente del gioco. L'oratore introduce anche il concetto di deep cut off, in cui i numeri vengono confrontati a livelli separati nell'albero e alcuni rami sono ritenuti irrilevanti. Sebbene possa sembrare difficile da credere, il processo è efficace e può migliorare notevolmente l'efficienza della ricerca di giochi.

  • 00:30:00 In questa sezione, il video discute il concetto di potatura alfa-beta e come può risparmiare tempo computazionale negli algoritmi di gioco. Valutando gli stati del board, il minimizzatore e il massimizzatore possono decidere la migliore mossa possibile da fare. Il minimizzatore ottiene un 8 che va in un certo modo e il massimizzatore può far andare un 9 in un altro modo, creando una situazione di cutoff. La potatura alfa-beta consente all'algoritmo di procedere attraverso gli alberi, con alfa e beta che si restringono intorno alla situazione, risparmiando il calcolo. Sebbene questo metodo funzioni solo nella situazione ottimale in cui il fattore di ramificazione è costante, consente comunque di risparmiare tempo e calcoli significativi, rendendolo uno strumento necessario per i programmi di gioco.

  • 00:35:00 In questa sezione impariamo a minimizzare il costo delle polizze assicurative per i calcoli dell'albero dei giochi. Calcolando i valori statici un livello sopra il fondo e non fino in fondo, fornisce una polizza assicurativa per garantire una buona mossa senza dover calcolare b ai nodi foglia d. Il costo della polizza assicurativa viene calcolato sommando il numero di foglie ad ogni livello dell'albero. Tuttavia, per minimizzare il costo, c'è un limite al numero di livelli che la polizza dovrebbe coprire a partire dal primo livello. Usando l'algebra, si scopre che il calcolo richiesto per la politica del livello più alto è uguale a b al d meno 1 su b meno 1 che è un calcolo gestibile.

  • 00:40:00 In questa sezione viene introdotto il concetto di approfondimento progressivo come modalità per ottimizzare l'esito delle polizze assicurative nell'albero del gioco. Avendo sempre una mossa disponibile a ogni livello come polizza assicurativa contro il mancato passaggio al livello successivo, l'approfondimento progressivo esemplifica come gli algoritmi in qualsiasi momento abbiano sempre una risposta pronta a partire non appena viene richiesta. Inoltre, Christopher suggerisce di utilizzare valori temporanei per migliorare le prestazioni di alfa-beta, un'idea che in seguito si è rivelata essere una reinvenzione di un concetto significativo. Il programma Deep Blue non è molto diverso da altri programmi di gioco, ad eccezione dell'uso del calcolo parallelo e di tecniche speciali per il gioco finale.

  • 00:45:00 In questa sezione, l'oratore discute lo sviluppo di un albero irregolare durante una partita e come non sia necessario che l'albero scenda a un livello fisso. Parla di Deep Blue che ha sconfitto Kasparov nel 1997 a causa dei successi extra che Deep Blue ha avuto. Tuttavia, afferma che questo tipo di calcolo in cui si eseguono calcoli nello stesso modo in cui un bulldozer elabora la ghiaia, è diverso dall'intelligenza umana. I maestri di scacchi umani giocano in modo diverso, riconoscendo schemi piuttosto che eseguire lunghi calcoli. L'oratore conclude che l'intelligenza del bulldozer è importante da capire, ma non è necessariamente lo stesso tipo di intelligenza che gli umani hanno nella propria testa.
6. Search: Games, Minimax, and Alpha-Beta
6. Search: Games, Minimax, and Alpha-Beta
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonIn this lecture, we consider stra...
 

Lezione 7. Vincoli: interpretazione dei disegni al tratto



7. Vincoli: interpretare i disegni al tratto

Il video discute lo sviluppo di un problema di soddisfazione dei vincoli per l'interpretazione dei disegni al tratto, iniziato con il tentativo di creare un computer in grado di vedere oggetti semplici. Il lavoro dello sperimentatore Guzman è stato analizzato, portando all'approccio di David Huffman di lavorare in un semplice mondo matematico con vincoli che gli hanno permesso di sviluppare una teoria migliore del programma di Guzman. Il video esplora il vocabolario utilizzato per catalogare e classificare linee e giunzioni nei disegni, la possibilità di avere cinque ottanti pieni di materiale e l'uso di vincoli per testare la costruibilità degli oggetti. Il video discute anche la sfida dell'utilizzo delle etichette per interpretare i disegni al tratto, l'algoritmo di Waltz e il processo di gestione dei vertici delle forcelle nell'analisi dei disegni. I vincoli sviluppati in questo progetto hanno applicazioni nella risoluzione di problemi con molti vincoli, come la colorazione delle mappe e la programmazione.

  • 00:00:00 Interpreterebbe i disegni al tratto e determinerebbe il numero di oggetti al loro interno. Questa idea è stata ulteriormente perfezionata da Dave Huffman, Dave Waltz e Jane Froydter. Il lavoro su questo progetto è stato inizialmente motivato dal tentativo di creare un computer che potesse vedere, partendo da oggetti semplici come blocchi per bambini. In questa sezione della trascrizione, Patrick Winston condivide la storia dietro la lotta per sviluppare uno dei metodi più potenti in materia, che include problemi di soddisfazione dei vincoli, e come tutto è iniziato con il tentativo di rendere un computer capace di vedere.

  • 00:05:00 In questa sezione, il relatore discute il lavoro di Guzman che ha ricercato i disegni al tratto e come interpretarli. Guzman ha scoperto che questi disegni tendono ad avere molte giunzioni a forma di freccia e giunzioni a forcella, e le ha usate come prova per dedurre quali facce appartengono allo stesso oggetto. Guzman ha escogitato una teoria sull'utilizzo di "collegamenti" come quanti di prova per risolvere questo problema. Ha rifiutato la teoria del collegamento singolo e ha scoperto che la teoria del collegamento doppio era troppo conservativa, portandolo a una terza teoria di due lunghezze ripetute. Tuttavia, ci sono state molte situazioni in cui questo metodo non ha funzionato, e la domanda sul perché ha funzionato e quando non ha funzionato è stata sollevata. Si è scoperto che funzionava perché il mondo è pieno di giunzioni a tre facce, o vertici.

  • 00:10:00 In questa sezione, il video discute l'approccio di David Huffman allo sviluppo di una teoria sull'interpretazione dei disegni al tratto dopo aver analizzato il programma sperimentalista di Guzman. Huffman decise di lavorare in un semplice mondo matematico con diverse caratteristiche, come un mondo in posizione generale che conteneva solo vertici triedrici formati dall'intersezione di tre piani, e di distinguere tra quattro tipi di linee: concave, convesse e confine etichettate con più, meno e frecce, rispettivamente. Questi vincoli gli hanno permesso di gestire il problema manualmente mentre sviluppava una teoria diversa e migliore rispetto al programma di Guzman.

  • 00:15:00 In questa sezione, il professor Patrick Winston discute il vocabolario utilizzato per catalogare e classificare linee e giunzioni nei disegni, inclusi vertici, bordi, giunzioni e linee. Continua spiegando che ci sono solo 18 modi per disporre le etichette attorno a un incrocio e che tutto il resto è escluso. Fornisce anche esempi delle sei L, cinque forchette, quattro T e tre frecce che sono legittime per etichettare gli incroci. I diversi modi di etichettare le giunzioni dipendono dagli ottanti, con il numero di ottanti riempiti che determina il tipo di giunzione.

  • 00:20:00 In questa sezione, il relatore discute le possibilità di avere cinque ottanti pieni di cose e spiega come visualizzare un oggetto da tre diverse prospettive per analizzare ciò che viene osservato. Osservando l'oggetto dalla prospettiva di un gessetto viola, si nota una giunzione a freccia con due concave e una convessa; dal gesso blu, c'è una linea concava e un confine, mentre l'altro lato è a
    opposto simmetrico della prospettiva blu. L'oratore esamina ulteriormente i vertici che possono creare giunzioni a forcella ea L, nonché oggetti oscuranti che possono creare forme a T con la linea rimanente come confine. Infine, l'oratore menziona che i vertici con sei facce possono essere creati anche quando gli oggetti si uniscono in un punto.

  • 00:25:00 In questa sezione, l'oratore discute i vincoli e come possono essere utilizzati per determinare se un particolare oggetto è costruibile o meno. Studiando la disposizione delle linee e delle frecce attorno a una giunzione, viene creato un catalogo di tutte le possibili disposizioni. Usando questo catalogo, l'oratore mostra come etichettare le linee e le frecce attorno a un oggetto che assomiglia a casa base. Tuttavia, di fronte a una giunzione che non rientra nel catalogo, l'oggetto viene determinato come impossibile da costruire. Questo metodo fornisce un modo per testare la costruibilità degli oggetti, sebbene il superamento del test non sia sufficiente a garantire la costruibilità.

  • 00:30:00 In questa sezione, il video esplora il problema dell'interpretazione dei disegni al tratto nella visione artificiale. L'approccio iniziale prevedeva l'etichettatura di giunzioni con quattro facce, ma alcuni disegni non potevano essere etichettati a causa della mancanza di facce. Lo studente laureato David Waltz ha deciso di risolvere questo problema e ha aggiunto ulteriori considerazioni come crepe, ombre e vertici non triedrici. Ciò ha comportato un aumento del numero di etichette da quattro a oltre 50, rendendo difficile il lavoro manuale. Il lavoro di Waltz ha mostrato l'importanza di avere un problema, un metodo che funziona e un principio generalizzabile.

  • 00:35:00 In questa sezione, il relatore discute la sfida dell'uso delle etichette per interpretare i disegni al tratto. Condivide un esempio di disegno al tratto e spiega come l'algoritmo di Waltz, che prevede l'utilizzo della ricerca in profondità per esplorare tutte le possibili etichette e le loro combinazioni, può essere utilizzato per interpretarlo. L'algoritmo, tuttavia, si rivela computazionalmente costoso e, dopo un anno e mezzo, Waltz ha dovuto escogitare un nuovo metodo in grado di gestire lo spazio di ricerca esponenziale. L'oratore osserva che l'efficacia dell'algoritmo era dovuta alla combinazione del set di etichette di Waltz e del suo nuovo metodo.

  • 00:40:00 In questa sezione, l'oratore discute l'algoritmo di Waltz e come controlla gli incroci vicini per vedere se le linee appena posizionate sullo svincolo due sono compatibili con quelle sugli incroci vicini. Delle sei possibilità iniziali, la metà di esse viene eliminata a causa delle linee di confine non consentite tra gli incroci uno e due. Le restanti possibilità vengono verificate in base allo svincolo 3 e, da lì, vengono verificati eventuali ulteriori vincoli sugli incroci, risultando in una sola interpretazione per tutti gli incroci e le linee tra di essi.

  • 00:45:00 In questa sezione, il relatore discute il processo di gestione dei vertici della forcella nell'analisi del disegno. Dopo averle posizionate, l'oratore conclude di avere un'interpretazione univoca per tutte le giunzioni e identifica quali linee sono convesse o concave. L'oratore dimostra quindi il processo per i disegni con maggiore ambiguità e osserva che l'attività di propagazione dei vincoli è simile a come gli esseri umani interpretano i disegni al tratto, rivelando che potremmo avere un apparato di propagazione dei vincoli che usiamo nella visione. Infine, il relatore discute come questo tipo di meccanismo potrebbe essere utilizzato per risolvere problemi che comportano molti vincoli, in particolare nella colorazione delle mappe che ha applicazioni nella pianificazione.
7. Constraints: Interpreting Line Drawings
7. Constraints: Interpreting Line Drawings
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonHow can we recognize the number o...
 

Lezione 8. Vincoli: ricerca, riduzione del dominio



8. Vincoli: ricerca, riduzione del dominio

Questo video discute il concetto di vincoli nella risoluzione dei problemi, in particolare nel contesto della ricerca e della riduzione del dominio. L'oratore utilizza l'esempio dell'assegnazione di colori agli stati su una mappa per illustrare come i vincoli possono essere utilizzati per restringere le possibilità prima ancora di iniziare la ricerca. Il relatore esplora anche diversi approcci alla gestione dei vincoli, come controllare solo gli incarichi o considerare tutto, e introduce il concetto di pianificazione delle risorse come un'altra applicazione della risoluzione dei problemi basata sui vincoli. Nel complesso, il video fornisce una panoramica completa di come i vincoli possono essere utilizzati per risolvere problemi complessi in modo efficiente.

  • 00:00:00 In questa sezione del video, il relatore discute la difficoltà del problema della colorazione della mappa, utilizzando un esempio di una mappa con 26 stati. Osserva che una ricerca in profondità con scelte cromatiche rotanti richiederebbe un tempo estremamente lungo per trovare una colorazione adatta e dimostra il problema con un diagramma. Tuttavia, introduce il concetto di propagazione dei vincoli, che può restringere le possibilità per il colore di ogni stato prima ancora di iniziare la ricerca. L'oratore quindi elabora il problema del Texas, mostrando come la propagazione dei vincoli può aiutare a evitare di rimanere bloccati in una ricerca impossibile.

  • 00:05:00 In questa sezione, il relatore mostra come utilizzare i vincoli per risolvere un problema di assegnazione dei colori agli stati su una mappa. Usando il principio delle arti marziali e osservando i vincoli locali, l'oratore si assicura che nessuno stato adiacente abbia lo stesso colore. L'oratore introduce anche alcuni vocaboli importanti, tra cui variabili, valori e domini. La nozione di dominio è un insieme di valori che una variabile può assumere e l'oratore usa questo vocabolario per mostrare come si possono fare scelte che non causino problemi a valle.

  • 00:10:00 In questa sezione, il relatore spiega come funzionano i vincoli nel contesto della ricerca e della riduzione del dominio. I vincoli sono limitazioni su coppie di valori variabili, che vengono spesso utilizzati nei problemi di colorazione delle mappe. Ogni stato è una variabile, i colori sono valori e le restanti possibilità di colore sono i domini. Il vincolo in questo caso è che nessuno stato che condivide un confine può avere lo stesso colore. L'oratore passa quindi a formalizzare il proprio approccio alla ricerca e alla riduzione in profondità scrivendolo in pseudocodice. Lo pseudocodice implica considerare una variabile per ogni assegnazione, considerare tutte le scelte rimanenti e garantire che qualsiasi cosa rimasta nel dominio vada bene per una selezione negli altri stati.

  • 00:15:00 In questa sezione, l'oratore discute come gestire i vincoli su un algoritmo di ricerca. Spiegano che per ogni valore nella ricerca, l'algoritmo deve verificare se soddisfa i vincoli posti. Se non esiste un valore adiacente che soddisfi il vincolo, l'algoritmo rimuove il valore dal dominio. Se il dominio diventa vuoto, l'algoritmo deve tornare indietro. L'oratore esplora diversi modi di affrontare il problema, incluso non considerare nulla, considerare tutto e controllare solo gli incarichi, scoprendo infine che solo il controllo degli incarichi è veloce ma può portare a errori, mentre considerare tutto controlla tutti i valori adiacenti ma può essere eccessivo.

  • 00:20:00 In questa sezione, il relatore discute l'algoritmo di riduzione del dominio nel contesto della risoluzione di un problema di mappatura dei colori. Spiegano che controllare i vicini dell'incarico, il che significa verificare quali opzioni di colore sono disponibili per gli stati vicini, è essenziale per risolvere il problema. Il relatore suggerisce anche di propagare attraverso variabili con domini ridotti per rendere il processo più efficiente. Inoltre, controllando i vicini dei vicini, il processo di risoluzione dei problemi può essere ulteriormente semplificato. Il relatore osserva che gli algoritmi di riduzione del dominio possono aiutare a risolvere problemi complessi, ma riconosce anche i limiti e il potenziale di vicoli ciechi.

  • 00:25:00 In questa sezione, il relatore discute la riduzione del dominio e come decidere attraverso quali variabili propagarsi. Invece di propagarsi attraverso tutte le variabili con domini ridotti, l'algoritmo si propaga solo attraverso quelle con il massimo restringimento, fino a un singolo valore. In questo modo, riduce il numero di vincoli controllati, portando a tempi di risoluzione più rapidi. L'oratore introduce anche alcuni "piccoli sporchi segreti", come organizzare un problema in un certo ordine per renderlo più difficile da risolvere. La scelta tra iniziare con la variabile più vincolata o meno vincolata è lasciata alla preferenza dell'utente.

  • 00:30:00 In questa sezione del video, l'oratore discute lavorando prima sul minimo vincolo e su come hanno riordinato le cose per avere prima lo stato meno vincolato. Hanno controllato solo 1732 vincoli e avevano 59 vicoli ciechi, quindi hanno provato l'altro modo controllando solo i primi incarichi più vincolati. Tuttavia, affermano che se gli stati fossero ordinati dal più vincolato al meno vincolato, la normale ricerca in profondità funzionerebbe bene. L'oratore introduce quindi un problema di pianificazione delle risorse con Jet Green, una nuova compagnia aerea, e discute come sia analogo al problema della colorazione della mappa. Jet Green vuole volare principalmente tra Boston e New York e occasionalmente vuole volare a Los Angeles mentre cerca di cavarsela con il minor numero di aeroplani.

  • 00:35:00 In questa sezione, il relatore presenta un esempio di pianificazione di voli tra città, che può essere risolto applicando i concetti del problema della colorazione della mappa. La sfida è organizzare i quattro velivoli per operare in modo efficiente sulle rotte desiderate. Il relatore evidenzia i vincoli del problema: non possono volare due aerei contemporaneamente, ogni aereo dovrebbe essere usato allo stesso modo e ci sono vincoli di tempo a terra. Inoltre, il relatore dimostra che la scelta della strategia di ricerca, la riduzione del dominio, il controllo dei vicini e il primo tipo più vincolato possono influire sull'efficienza della soluzione.

  • 00:40:00 In questa sezione, l'istruttore introduce il concetto di utilizzo di vincoli minimi e massimi per determinare il numero appropriato di risorse necessarie per un'attività. Impostando un numero minimo e massimo di risorse, l'algoritmo può rapidamente convergere su un intervallo ristretto in cui la ricerca sta impiegando molto tempo, rendendo possibile essere sicuri che si trovi all'interno di tale intervallo. L'istruttore consiglia inoltre di utilizzare prima la maggior parte dei vincoli e di propagarsi attraverso domini ridotti a un singolo algoritmo per ottenere una buona allocazione delle risorse. Facendo più cose contemporaneamente, è possibile determinare rapidamente le risorse necessarie per un'attività.
8. Constraints: Search, Domain Reduction
8. Constraints: Search, Domain Reduction
  • 2021.04.23
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010Instructor: Patrick WinstonView the complete course: https://ocw.mit.edu/6-034F10YouTube Playlist: https://www.yo...
 

Lezione 9. Vincoli: riconoscimento visivo degli oggetti



9. Vincoli: riconoscimento visivo degli oggetti

In questo video, Patrick Winston discute le sfide del riconoscimento degli oggetti visivi, comprese le idee di David Marr di formare una descrizione basata sui bordi di oggetti, normali di superficie e cilindri generalizzati. Il relatore approfondisce anche diversi metodi per il riconoscimento visivo degli oggetti, inclusa la teoria dell'allineamento e l'utilizzo di algoritmi di correlazione per calcolare la posizione delle caratteristiche di dimensioni intermedie. Winston mette in evidenza le sfide del riconoscimento di oggetti naturali che non hanno dimensioni identiche e l'importanza del contesto e della narrazione nel riconoscimento visivo, utilizzando l'esempio di un gatto che beve. In tutto il video, fornisce dimostrazioni ed esempi per spiegare vari concetti. Nel complesso, il relatore sottolinea le difficoltà del riconoscimento visivo e incoraggia gli studenti a continuare la ricerca sul campo.

  • 00:00:00 In questa sezione, Patrick Winston discute le sfide del riconoscimento di oggetti visivi, come i volti. Introduce un programma che può variare l'aspetto dell'immagine di un politico, mostrando come si interpola tra le immagini memorizzate. Winston approfondisce quindi la storia del riconoscimento degli oggetti, a partire dalle idee di David Marr, che proponeva che il primo passo nel riconoscimento visivo fosse quello di formare una descrizione dell'oggetto basata sui bordi, nota come schizzo primario. Marr ha quindi suggerito di decorare lo schizzo principale con normali alla superficie per mostrare l'orientamento dell'oggetto, chiamandolo schizzo a due D e mezzo. Questa è stata seguita dalla conversione dello schizzo a due D e mezzo in cilindri generalizzati, che ci ha avvicinato di un passo al riconoscimento degli oggetti visivi.

  • 00:05:00 In questa sezione, il relatore parla di diversi approcci al riconoscimento visivo degli oggetti, partendo dall'idea di un cilindro regolare come un'area circolare che si muove lungo un asse, e prosegue discutendo il concetto di teoria dell'allineamento. La teoria del riconoscimento dell'allineamento si basa sull'idea che avere tre immagini di un oggetto consente la ricostruzione di qualsiasi vista di quell'oggetto in proiezione ortografica, che può essere utilizzata per riconoscere un oggetto in una biblioteca. L'oratore afferma che è possibile scegliere i punti corrispondenti su oggetti diversi e l'allineamento delle immagini e dell'oggetto sconosciuto può essere utilizzato per determinare se l'oggetto sconosciuto è lo stesso dell'oggetto originale.

  • 00:10:00 In questa sezione, Patrick Winston spiega come generare un'equazione per diversi oggetti utilizzando alfa, beta, gamma e tau come costanti. Dimostra come funziona questa equazione per quattro diversi punti colorati e, scegliendo gli stessi valori alfa, beta, gamma e tau per tutti i punti, può utilizzare con successo operazioni lineari per mettere in relazione punti in oggetti diversi. Spiega quindi che le coordinate sono proiezioni 2D dell'oggetto su un disegno e risponde a domande su come le superfici curve potrebbero essere identificate nel riconoscimento visivo dell'oggetto.

  • 00:15:00 In questa sezione, Patrick Winston discute di come i vincoli possono aiutare a prevedere la posizione di un oggetto per facilitarne il riconoscimento. Spiega che utilizzando le variabili alfa, beta, gamma e tau, che possono essere derivate da quattro equazioni lineari e quattro incognite, i punti corrispondenti possono essere identificati correttamente per fornire preziose informazioni sulla posizione dell'oggetto sconosciuto. Winston dimostra questo metodo, spiegando che se i punti corrispondenti sono identificati correttamente, fornisce una forte indicazione che l'oggetto è quello giusto, come un obelisco o un organo.

  • 00:20:00 In questa sezione, il relatore mostra come calcolare il movimento della coordinata x in un'immagine di un oggetto 3D mentre viene ruotato attorno all'asse z. Iniziano definendo una posizione standard e identificando le coordinate x e y in quella posizione, quindi ruotando l'oggetto per creare tre diverse posizioni (a, b e c) e determinando l'angolo di rotazione per ciascuna. L'oratore utilizza quindi le rotazioni vettoriali per calcolare come cambia la coordinata x mentre l'oggetto ruota attorno all'asse z. Il processo prevede l'utilizzo delle funzioni coseno e seno e la considerazione delle proiezioni delle coordinate x e y del vettore mentre ruota.

  • 00:25:00 In questa sezione, l'oratore semplifica l'equazione che descrive il riconoscimento visivo dell'oggetto attraverso la proiezione ortografica, che è la proiezione lungo l'asse x senza alcuna prospettiva. Sostiene che i fattori sconosciuti, come il coseno e il seno degli angoli theta, sono costanti e possono essere rappresentati come moltiplicatori alfa e beta per x sub a e x sub b. Quando viene fornito lo scenario di consentire la traslazione e la rotazione, l'oratore nota che la costante aggiuntiva tau deve essere identificata sottraendo due equazioni.

  • 00:30:00 In questa sezione, Patrick Winston discute diversi metodi di riconoscimento degli oggetti. Parla del problema del riconoscimento di oggetti naturali che non hanno dimensioni identiche, a differenza di oggetti fabbricati dove si possono fotografare e registrare le coordinate di alcuni dei punti per il riconoscimento. Quindi presenta la teoria di Shimon Ullman basata sulla correlazione in cui si possono prendere due immagini, applicarne una come maschera di correlazione all'altra immagine e individuare l'oggetto principale. Tuttavia, questa idea ha dei limiti in quanto non può individuare caratteristiche non comuni, ma solo quelle comuni. Winston esplora ulteriormente l'idea disegnando esempi di due facce di zucca e discute i problemi con l'idea di riconoscere oggetti basati sull'identificazione di caratteristiche specifiche come occhi e nasi.

  • 00:35:00 In questa sezione, il relatore discute come funziona il riconoscimento visivo degli oggetti e come dipende dalle dimensioni delle caratteristiche che vengono riconosciute. Mentre le immagini troppo piccole o troppo grandi non forniscono informazioni utili, possono essere utili caratteristiche di dimensioni intermedie come la combinazione di due occhi e un naso. La sfida diventa quindi trovare queste caratteristiche intermedie in un mare di immagini. L'oratore suggerisce di utilizzare algoritmi di correlazione per determinare l'offset nell'immagine in cui si verifica la caratteristica. Massimizzando su un parametro x, è possibile calcolare l'integrale del viso e dell'immagine per determinare la posizione della caratteristica.

  • 00:40:00 In questa sezione del video, il presentatore spiega come funziona la correlazione nel riconoscimento visivo degli oggetti utilizzando immagini con rumore come esempi. La correlazione implica la moltiplicazione e l'integrazione sull'estensione del viso con un offset. Quando l'offset è uguale, il programma moltiplica l'immagine per se stessa e la integra sul viso. Massimizzando i parametri di traduzione x e y, è possibile individuare caratteristiche specifiche di un'immagine, come il volto di una persona, nonostante il rumore aggiunto. La dimostrazione ha mostrato che anche con l'aggiunta di rumore, il programma era ancora in grado di individuare le caratteristiche giuste.

  • 00:45:00 In questa sezione, Patrick Winston discute le sfide del riconoscimento visivo, in particolare la capacità di riconoscere le persone da diverse angolazioni. Osserva che mentre non è chiaro come siamo in grado di riconoscere i volti da diverse angolazioni, capovolgere i volti o allungarli potrebbe potenzialmente infrangere la teoria della correlazione. Tuttavia, suggerisce che le domande più impegnative risiedono nel modo in cui possiamo determinare cosa sta accadendo visivamente. Sfida gli studenti a determinare quale azione sta eseguendo in un esperimento, evidenziando le attuali sfide nella visione artificiale.

  • 00:50:00 In questa sezione, l'oratore usa l'esempio di un gatto che beve per dimostrare come il nostro potere narrativo influenzi il nostro riconoscimento visivo. Nonostante le notevoli differenze visive, gli esseri umani possono facilmente identificare il gatto mentre beve comprendendo la narrazione presentata nell'immagine. La parte inferiore del nostro sistema visivo fornisce informazioni sufficienti al nostro apparato narrativo per riconoscere l'azione bevente del gatto, dimostrando l'importanza del contesto e della narrazione nel riconoscimento visivo dell'oggetto.
9. Constraints: Visual Object Recognition
9. Constraints: Visual Object Recognition
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonWe consider how object recognitio...
 

Conferenza 10. Introduzione all'apprendimento, vicini più vicini



10. Introduzione all'apprendimento, vicini più prossimi

In questo video di YouTube, il professor Winston introduce l'argomento dell'apprendimento e discute due tipi di apprendimento: l'apprendimento basato sulla regolarità e l'apprendimento basato sul feedback. Si concentra su tecniche di apprendimento basate sulla regolarità come l'apprendimento del vicino più vicino, le reti neurali e il potenziamento. L'apprendimento del vicino più vicino coinvolge un rilevatore di caratteristiche, che genera un vettore di valori, che viene quindi confrontato con i vettori di una libreria di possibilità per trovare la corrispondenza più vicina e determinare cos'è un oggetto. Il relatore fornisce vari esempi di come questo metodo può essere applicato. Discute inoltre come i confini decisionali possono essere utilizzati per identificare la categoria di un oggetto. Viene introdotto il principio di somiglianza tra casi diversi e viene sottolineata l'importanza della gestione del sonno in quanto influisce notevolmente sull'apprendimento. Infine, tocca il problema della non uniformità, il problema del "ciò che conta" e l'importanza di normalizzare i dati utilizzando tecniche statistiche.

  • 00:00:00 In questa sezione, il professor Winston introduce il tema dell'apprendimento e di due tipi di apprendimento: l'apprendimento basato su regolarità e l'apprendimento basato sul feedback. Si concentra sul primo e discute le tecniche di apprendimento basate sulla regolarità come l'apprendimento del vicino più vicino, le reti neurali e il potenziamento. L'apprendimento del vicino più vicino è una tecnica consolidata nel campo del riconoscimento di modelli ed è la prima cosa da provare quando si risolve un problema di apprendimento. Il professore espone anche due enigmi da considerare, vale a dire come creare un programma per computer in grado di bere caffè e cosa penserebbe un cane una dieta dietetica. Infine, menziona l'importanza di affrontare il tema del sonno e di gestirlo correttamente poiché influisce notevolmente sull'apprendimento.

  • 00:05:00 In questa sezione, l'oratore introduce il concetto di apprendimento del vicino più vicino, che è un tipo di riconoscimento di pattern. Ciò comporta un rilevatore di caratteristiche che genera un vettore di valori, che viene quindi confrontato con i vettori di una libreria di possibilità per trovare la corrispondenza più vicina e determinare cos'è un oggetto. L'oratore fornisce un esempio dell'utilizzo di questo metodo per ordinare le coperture elettriche su una catena di montaggio misurando la loro area e l'area dei fori. Questa è una forma di apprendimento basato sulla regolarità, che è come un bulldozer che elabora le informazioni. Il relatore osserva che questo non è necessariamente il modello migliore per l'apprendimento umano, che coinvolge idee basate su vincoli e consente l'apprendimento one-shot e l'apprendimento basato sulla spiegazione.

  • 00:10:00 In questa sezione, l'istruttore utilizza l'esempio dell'assemblaggio di coperture con diverse aree dei fori per spiegare il concetto di limiti decisionali. Dimostra come dividere lo spazio usando bisettrici perpendicolari, che possono aiutare a identificare la categoria di un oggetto in base alla sua descrizione idealizzata più vicina. Inoltre, i confini decisionali possono anche essere usati per identificare la categoria di un nuovo oggetto misurando uno dei suoi attributi e confrontandolo con le categorie create dai confini decisionali.

  • 00:15:00 In questa sezione, il relatore introduce il principio di somiglianza tra casi diversi, affermando che se qualcosa è simile sotto certi aspetti, è probabile che lo sia anche sotto altri aspetti. Questo principio è la base della maggior parte dell'apprendimento, che si tratti di fiabe, casi legali o commerciali o persino casi medici. L'idea è riconoscere le somiglianze con una situazione attuale per applicare qualche precedente o conoscenza. Il principio può essere applicato in vari campi. Ad esempio, può essere utilizzato nell'identificazione delle cellule, in cui le cellule possono essere collocate in uno spazio ad alta dimensione e valutate per somiglianza in base a varie proprietà. Allo stesso modo, il principio può essere utilizzato nel recupero delle informazioni, in cui gli articoli delle riviste possono essere confrontati in base al conteggio delle parole per rispondere a domande specifiche.

  • 00:20:00 In questa sezione, viene esplorato il concetto di utilizzo dei vicini più vicini quando si tenta di determinare quale articolo è più vicino a uno sconosciuto. Il problema sorge quando si determina che tutti gli articoli Town e Country sono i più vicini. Invece, la classe discute l'utilizzo di una metrica diversa, come l'angolo tra i vettori, per risolvere il problema. Il coseno dell'angolo tra due vettori può essere calcolato attraverso un semplice calcolo, che può essere utile in molte situazioni, incluso il controllo del braccio robotico. L'obiettivo è muovere un braccio per controllare la traiettoria di una palla a una specifica velocità e accelerazione, il che comporta la determinazione di due angoli, theta 1 e theta 2.

  • 00:25:00 In questa sezione, il relatore discute i problemi incontrati con la traduzione delle coordinate (x,y) desiderate di una palla nello spazio θ1 e θ2 con posizioni, velocità e accelerazioni desiderate. Introducono il concetto di forze di Coriolis, che sono il risultato della complicata geometria coinvolta nelle equazioni per il movimento. Per risolvere questo problema, il relatore suggerisce di costruire una grande tabella di combinazioni di movimento per il braccio, quindi dividere la traiettoria desiderata in piccoli pezzi e trovare la corrispondenza più vicina dalla tabella, comprese le coppie associate. Questo metodo è stato precedentemente rifiutato a causa della potenza insufficiente del computer, ma è stato rivisitato in tempi recenti e funziona bene per movimenti simili.

  • 00:30:00 In questa sezione, il relatore spiega come funziona il processo di apprendimento mentre il robot attraversa la sua "infanzia" e migliora gradualmente nel compito. Il miglioramento si ottiene attraverso l'uso di una tabella che registra versioni migliori dei movimenti richiesti in modo che il robot possa farvi riferimento in un secondo momento. L'oratore mostra quindi un grafico che dimostra la velocità con cui avviene l'apprendimento del robot. Viene discusso brevemente anche l'argomento dell'utilizzo dello stesso metodo di registrazione della memoria per registrare i campi da baseball.

  • 00:35:00 In questa sezione, il professor Patrick Winston discute il numero di neuroni e sinapsi nel cervello, in particolare nel cervelletto, in relazione al controllo motorio, e come può funzionare come un gigantesco tavolo per l'apprendimento delle abilità motorie. Esplora quindi la questione dei dati normalizzati nell'apprendimento automatico e come può influenzare la diffusione dei dati in diverse dimensioni. La soluzione è calcolare la varianza e normalizzare i dati utilizzando tecniche statistiche.

  • 00:40:00 In questa sezione, il relatore discute i potenziali problemi che possono sorgere quando si utilizzano i vicini più vicini nell'apprendimento. Uno di questi problemi è il problema di non uniformità quando i dati non dipendono dalla nuova variabile. Il secondo problema è il problema "ciò che conta" in cui l'algoritmo può misurare una distanza che confonde la risposta. Infine, il terzo problema è quando i dati disponibili sono indipendenti dalla domanda, simile al tentativo di cuocere una torta senza farina. L'oratore tocca quindi l'importanza del sonno e quanto siano cruciali le buone abitudini del sonno, in particolare per individui come Army Rangers. Inoltre, spiega come la privazione del sonno può portare a errori nel distinguere gli obiettivi, che è stato osservato durante l'analisi del dopoguerra.

  • 00:45:00 In questa sezione, il relatore discute gli effetti della perdita di sonno sulla mente e sul corpo umano. Spiega che dopo 72 ore l'abilità e le prestazioni di un individuo diminuiscono del 30% rispetto all'inizio. La perdita di sonno si accumula e dopo 20 giorni di privazione del sonno di un'ora, la tua capacità scende al 25%. L'oratore esamina anche l'efficacia della caffeina e dei pisolini, sottolineando che la caffeina offre un certo aiuto. Mette in guardia dal confondere la correlazione con la causa e da come animali come cani e gatti possono commettere l'errore che le bevande dietetiche causino un aumento di peso a causa di una correlazione che vedono.
10. Introduction to Learning, Nearest Neighbors
10. Introduction to Learning, Nearest Neighbors
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonThis lecture begins with a high-l...
 

Lezione 11. Apprendimento: alberi di identificazione, disordine



11. Apprendimento: alberi di identificazione, disordine

Il professore del MIT Patrick Winston spiega il concetto di costruzione di un meccanismo di riconoscimento per identificare i vampiri utilizzando i dati e l'importanza di creare un albero di identificazione piccolo ed economico che soddisfi il rasoio di Occam. Propone di utilizzare meccanismi euristici per costruire l'albero poiché il calcolo di tutti gli alberi possibili è un problema NP. Winston suggerisce di utilizzare un test dell'ombra, un test dell'aglio, un test della carnagione e un test dell'accento per identificare quali individui sono vampiri e spiega come misurare il disturbo nei set per trovare la qualità complessiva di un test basato sulla misurazione del disturbo. Il video illustra anche come gli alberi di identificazione possono essere utilizzati con dati numerici e l'albero può essere convertito in un insieme di regole per creare un semplice meccanismo basato sul comportamento basato su regole.

  • 00:00:00 In questa sezione, il professore del MIT Patrick Winston introduce il concetto di utilizzo dei dati per costruire un meccanismo di riconoscimento per identificare i vampiri. Sottolinea le differenze tra questo set di dati e il set di dati sulla copertura elettrica con cui hanno lavorato nella classe precedente, osservando che questo set di dati non è numerico ma simbolico, rendendo inutilizzabili le tecniche del vicino più vicino. Sottolinea anche altre sfide nell'identificazione dei vampiri, come il costo di alcuni test e l'incertezza su quali caratteristiche contino davvero.

  • 00:05:00 In questa sezione, Patrick Winston spiega il concetto di alberi di identificazione o alberi decisionali e sottolinea l'importanza di costruire un piccolo albero che sia conveniente e produca sottoinsiemi uniformi di dati. L'obiettivo è trovare la migliore disposizione possibile dei test per produrre una semplice, piccola spiegazione che soddisfi il rasoio di Occam, il quale afferma che la spiegazione più semplice è spesso la migliore spiegazione. Suggerisce inoltre di utilizzare un meccanismo euristico per costruire l'albero poiché il calcolo di tutti gli alberi possibili è un problema NP. Infine, Winston avverte che il piccolo set di campioni utilizzato in classe non è adatto per applicazioni del mondo reale.

  • 00:10:00 In questa sezione vengono utilizzati un test dell'ombra, un test dell'aglio, un test della carnagione e un test dell'accento per identificare quali individui sono vampiri. I test vengono applicati a una piccola popolazione campione e, osservando come i test dividono i dati, è possibile determinare quale test produce i gruppi più omogenei. L'obiettivo finale è trovare un test in grado di identificare con precisione tutti i vampiri nella popolazione campione. Il test dell'ombra divide la popolazione in coloro che fanno e coloro che non proiettano un'ombra, con un solo individuo che non proietta un'ombra, indicando che è un vampiro. Il test dell'aglio determina che tutti i vampiri nella popolazione campione hanno risposto negativamente al consumo di aglio. Il test della carnagione e il test dell'accento aiutano anche a identificare quali individui hanno maggiori probabilità di essere vampiri.

  • 00:15:00 In questa sezione, il video spiega un esempio di come creare un albero di identificazione dividendo un gruppo di individui in insiemi omogenei selezionando caratteristiche uniche per entrambi i gruppi. L'esempio riguarda vampiri e non vampiri ei test utilizzati per identificare ciascun gruppo. Il video affronta anche domande su come applicare questo concetto a set di dati più grandi ed evidenzia i limiti dell'esempio in classe.

  • 00:20:00 In questa sezione viene introdotto il concetto di misurazione del disordine negli insiemi. Per trovare un modo per misurare il disordine degli insiemi che si trovano in fondo ai rami degli alberi, si cerca una guida dai teorici dell'informazione. Il disordine di un insieme, secondo i teorici dell'informazione, si calcola tenendo conto del numero totale di positivi e negativi, e moltiplicando il numero di positivi per il logaritmo dei positivi diviso per il numero totale, rispetto a una base di 2 Questo metodo può aiutare a trovare una qualità complessiva di un test basato sulla misurazione del disturbo.

  • 00:25:00 In questa sezione, il relatore spiega la formula per misurare il disordine in un set di dati utilizzando rapporti di positivi e negativi. Dopo aver calcolato i valori per set di dati completamente confusi e completamente positivi, il relatore conferma l'importanza di prestare attenzione a queste curve per lavorare rapidamente alle domande del quiz. Infine, utilizzando la regola di L'Hopital, l'oratore calcola un terzo valore quando il rapporto tra negativi e totale si avvicina a 0, consentendo la rappresentazione grafica di una curva con tre punti.

  • 00:30:00 In questa sezione, il relatore discute su come misurare la qualità complessiva di un test e su come misurare il disturbo in ogni set prodotto dal test. Il relatore propone di sommare il disordine di ciascun insieme prodotto dal test, ma osserva che questo metodo potrebbe non essere il migliore poiché dà lo stesso peso a un ramo che non ha quasi nulla in basso come un ramo che ha quasi tutto in basso. Per risolvere questo problema, il relatore propone di ponderare la somma in base alla frazione di campioni che finiscono in quel ramo. Il relatore illustra questo metodo con un problema campione e conclude che il disordine di un insieme omogeneo è zero.

  • 00:35:00 In questa sezione, l'attenzione è rivolta alla qualità dei test che identificano e suddividono i dati forniti in sottoinsiemi. Il disordine o il disordine di un insieme è zero quando tutti i campioni sono uguali ed è uno quando i campioni sono ugualmente una miscela uniforme di due tipi. Moltiplicando la probabilità dei sottoinsiemi per il rispettivo disordine degli insiemi, è possibile calcolare la qualità di ciascun test. Questa metrica di qualità viene quindi utilizzata per decidere quale test è il migliore per suddividere i dati in sottoinsiemi omogenei, essenziale per costruire l'albero il più semplice possibile. Tuttavia, l'enfasi è data all'intuizione dietro l'analisi dei dati piuttosto che alla teoria dell'informazione o all'entropia.

  • 00:40:00 In questa sezione, il video illustra come gli alberi di identificazione possono ancora essere utilizzati con dati numerici inserendo soglie sui dati. Ciò consente la creazione di test binari, simili ai test utilizzati con i dati categorici. Il computer può provare diversi valori di soglia e determinerà quale soglia funziona meglio per separare i dati in gruppi omogenei. A differenza di altri metodi, come i vicini più vicini, i limiti decisionali sono paralleli a un asse o all'altro, piuttosto che seguire la forma dei dati stessi.

  • 00:45:00 In questa sezione, apprendiamo gli alberi di identificazione, le loro virtù e come possono essere convertiti in un insieme di regole per renderli più semplici per coloro che sono orientati alle regole. L'albero può essere convertito in un insieme di regole scendendo da ogni ramo fino a una foglia, e se una regola mette alla prova sia l'ombra che l'aglio, possiamo sbarazzarci di alcune delle clausole per creare un semplice meccanismo basato su comportamento.
11. Learning: Identification Trees, Disorder
11. Learning: Identification Trees, Disorder
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonIn this lecture, we build an iden...
 

Lezione 12a: Reti Neurali



12a: Reti Neurali

Questo video copre una serie di argomenti relativi alle reti neurali. Il relatore inizia discutendo la storia delle reti neurali, evidenziando il lavoro fondamentale svolto da Geoff Hinton che ha trasformato il campo. Viene quindi discussa l'anatomia di un neurone, nonché il modo in cui gli input vengono raccolti ed elaborati. Il video approfondisce quindi il funzionamento delle reti neurali come approssimatori di funzioni e come le prestazioni possono essere migliorate utilizzando l'arrampicata in salita e la discesa in pendenza. La regola della catena viene introdotta per facilitare il calcolo delle derivate parziali e il relatore dimostra come la rete neurale più semplice del mondo può essere addestrata utilizzando questo approccio. Viene anche discussa la costante di velocità ottimale per una rete neurale e l'oratore introduce una rete neurale più complessa con due ingressi e due uscite. Infine, viene introdotto il principio del riutilizzo per affrontare il problema del potenziale aumento esponenziale dei percorsi attraverso reti di grandi dimensioni. Nel complesso, il video sottolinea che le grandi idee nelle reti neurali sono spesso semplici e facili da trascurare, anche se possono avere un impatto significativo sul campo.

  • 00:00:00 In questa sezione, il professore descrive la storia delle reti neurali e menziona che inizialmente molti credevano che i modelli neurali del giorno non fossero modelli accurati del cervello umano e che nessuno fosse riuscito a realizzare un modello neurale che valeva niente. Continuando, il professore afferma che due anni dopo, Geoff Hinton dell'Università di Toronto ha sbalordito il mondo con un lavoro neurale che aveva svolto sul riconoscimento e la classificazione delle immagini e ha pubblicato un documento con alcuni esempi. Il video mostra alcuni esempi di immagini che la rete neurale di Toronto è stata in grado di riconoscere e altre in cui ha avuto difficoltà.

  • 00:05:00 In questa sezione, il relatore discute le reti neurali e come sono migliorate in modo significativo negli ultimi tre anni grazie all'aumento dell'impegno e dell'interesse. Spiega come siamo stati ispirati dai nostri sistemi neurali e descrive la struttura di un neurone compreso il suo assone, l'albero dendritico e le connessioni sinaptiche tra di loro. Il relatore discute quindi di come le connessioni sinaptiche sono modellate nelle reti neurali utilizzando input binari e pesi che riflettono la forza della connessione.

  • 00:10:00 In questa sezione, il relatore spiega come modellare il modo in cui gli input vengono raccolti in un neurone attraverso un semplice modello che utilizza pesi sinaptici, un'estate e una casella di soglia che determina se il neurone si attiverà o meno. Sebbene questo modello sia ispirato al funzionamento del cervello umano, ci sono ancora molte incognite e complessità che non sono ancora del tutto comprese dai neurobiologi. Questo modello è solo un modo per comprendere l'essenza generale di come funzionano i neuroni e come funzionano collettivamente come una rete.

  • 00:15:00 In questa sezione, il relatore spiega come funziona una rete neurale come approssimatore di funzione, dove gli input fluiscono attraverso la rete e diventano output. Il vettore di output è una funzione del vettore di input, del vettore del peso e di un vettore di soglia. La funzione di prestazione viene costruita confrontando il vettore di output desiderato con il vettore di output effettivo e l'obiettivo è sempre quello di minimizzare la funzione di prestazione. La conferenza spiega il processo di ottimizzazione dei pesi e delle soglie in una semplice rete neurale utilizzando l'arrampicata in collina, ma riconosce che questo metodo non è fattibile per le reti neurali con un vasto numero di parametri, come la rete neurale di Hinton con 60 milioni di parametri.

  • 00:20:00 In questa sezione, il narratore spiega come la discesa del gradiente può essere utilizzata per apportare piccoli miglioramenti alla funzione di prestazione prendendo derivate parziali della funzione rispetto a determinati pesi. Tuttavia, questo metodo è efficace solo per superfici continue e non per superfici discontinue, come nel caso delle reti neurali. La soluzione è stata introdotta da Paul Werbos nel 1974, che prevede l'aggiunta di un altro input al neurone con un peso di W0, collegato a un input che è sempre -1. Questo input sposta efficacemente la soglia a zero e consente una funzione di transizione più fluida per la rete neurale.

  • 00:25:00 In questa sezione, il video spiega la funzione sigmoidea e come viene utilizzata nelle reti neurali. La funzione sigmoidea viene utilizzata come funzione di attivazione per i neuroni e fornisce l'aspetto e la forma corretti richiesti dalla matematica. Le derivate parziali vengono quindi calcolate, ora che la soglia problematica è stata rimossa, per cercare di addestrare la rete neurale. La rete neurale più semplice del mondo è descritta come composta da due neuroni e pochi parametri che danno una funzione prestazionale. Il video introduce quindi la regola della catena per riscrivere le derivate parziali nel calcolo delle variabili intermedie per determinare quanto si muovono rispetto alle altre e, infine, allenare la rete neurale.

  • 00:30:00 In questa sezione, l'oratore cancella e riscrive le derivate parziali utilizzando la regola della catena, fornendo espressioni che consentono di risolvere una semplice rete neurale. Le derivate sono trasformate per comodità in un formato prodotto, e il relatore procede a trovare la derivata parziale di p2 rispetto a w2, che è uguale a Y. La derivata parziale di Z rispetto a p2 è ancora sconosciuta perché implica un funzione di soglia. Per capirlo, l'oratore distrugge il neurone e lavora con la funzione beta, che equivale a 1 su 1 più e alla meno alfa.

  • 00:35:00 In questa sezione, l'oratore esamina la derivata rispetto ad alfa beta e poi procede a dimostrare la rete neurale più piccola del mondo in azione addestrandola a non fare nulla. L'output della funzione sigmoide è semplificato in quanto la derivata può essere scritta esclusivamente in termini di output. La rete neurale è addestrata per rendere l'output uguale all'input, ma di conseguenza non accade nulla.

  • 00:40:00 In questa sezione del video, l'oratore discute il processo di determinazione della costante di velocità ottimale per una rete neurale. Partendo da una rete neurale con pesi casuali, il relatore verifica varie costanti di velocità e ne osserva l'effetto sulle prestazioni della rete. Se la costante di velocità è troppo piccola, ci vuole molto tempo per raggiungere prestazioni ottimali, ma se è troppo grande, la rete può saltare troppo lontano e diventare instabile. Il relatore osserva che la costante di velocità dovrebbe variare con il progresso verso prestazioni ottimali. Il relatore introduce anche una rete neurale più complessa con due ingressi e due uscite e discute le interazioni tra flussi e pesi.

  • 00:45:00 In questa sezione impariamo a conoscere il potenziale aumento esponenziale di percorsi attraverso una rete con un gran numero di neuroni. Tuttavia, possiamo riutilizzare il calcolo e non avere un aumento esponenziale poiché l'influenza dei cambiamenti in P sulle prestazioni può avvenire solo attraverso una colonna fissa di neuroni, il che significa che riutilizziamo il calcolo già fatto. La quantità di calcolo necessaria per una colonna con larghezza fissa è lineare e profonda, ma proporzionale al quadrato della larghezza della colonna. L'oratore fa anche notare che questo principio è stato trascurato per 25 anni.

  • 00:50:00 In questa sezione, l'oratore discute di come le grandi idee nelle reti neurali siano spesso semplici, ma noi umani spesso escogitiamo solo un trucco o un'osservazione invece di metterne insieme alcune per creare qualcosa di miracoloso. Il principio del riuso è all'opera in questo caso poiché il miracolo è stato la conseguenza di due trucchi e di un'osservazione. Nel complesso, il messaggio è che le grandi idee sono semplici e facili da trascurare e sono state trascurate per un quarto di secolo.
12a: Neural Nets
12a: Neural Nets
  • 2016.04.20
  • www.youtube.com
*NOTE: These videos were recorded in Fall 2015 to update the Neural Nets portion of the class.MIT 6.034 Artificial Intelligence, Fall 2010View the complete c...
 

Lezione 12b: Reti Neurali Profonde



12b: reti neurali profonde

Questo video copre diversi argomenti relativi alle reti neurali profonde, tra cui il processo di calcolo coinvolto, le reti neurali convoluzionali, gli algoritmi di codifica automatica, la regolazione dei parametri nel livello di output, il softmax e la retropropagazione con le reti convoluzionali. Il video esplora anche concetti come i massimi locali, l'ampliamento delle reti e l'apprendimento delle reti neurali, dimostrando al contempo come funzionano le reti neurali profonde nell'elaborazione delle immagini. Nel complesso, il video fornisce una panoramica completa dei principali concetti coinvolti nelle reti neurali profonde, compresi i loro punti di forza e i loro limiti.

  • 00:00:00 In questa sezione, il relatore discute il processo di calcolo in una piccola rete neurale e sottolinea il fatto che le prestazioni di questa rete si basano su un numero finito di variabili di output. L'oratore prosegue mostrando le equazioni che dimostrano la dipendenza delle prestazioni da pesi specifici e sottolinea che c'è molta ridondanza nel processo di calcolo. Man mano che si torna indietro dagli output agli input, gran parte del calcolo eseguito in precedenza viene riutilizzato, con il risultato di riutilizzare diversi pezzi di calcolo che sono stati eseguiti nelle modifiche di peso a valle.

  • 00:05:00 In questa sezione, il relatore discute i calcoli coinvolti nelle reti neurali e sottolinea il calcolo fondamentale che avviene nelle nostre teste, il prodotto scalare, che viene utilizzato anche nelle reti neurali. Spiega anche il concetto di reti neurali convoluzionali, utilizzate per l'elaborazione delle immagini, e osserva che sono costituite da un insieme specifico di componenti che tende a riapparire nel campo della rete neurale. L'oratore menziona anche le prestazioni di una rete neurale profonda nel 2012, che aveva un tasso di errore di circa il 15% o il 37% a seconda della definizione di "risposta giusta".

  • 00:10:00 In questa sezione del video, il relatore spiega come funzionano la convoluzione e il pooling nelle reti neurali. Il processo prevede l'esecuzione di un neurone attraverso un'immagine, producendo un output associato a un punto particolare nell'immagine. Questo è chiamato convoluzione e i punti risultanti vengono utilizzati per trovare il valore massimo nei quartieri locali, creando una mappatura dell'immagine utilizzando quel valore massimo. Questo si chiama max pooling. È possibile utilizzare più kernel per produrre molti output, che possono quindi essere inseriti in una rete neurale per indicare la probabilità che un oggetto sia presente nell'immagine. Questo metodo è molto più avanzato del vecchio metodo che utilizzava una piccola griglia di pixel come input per i neuroni.

  • 00:15:00 In questa sezione, il docente spiega l'idea della codifica automatica in cui una rete neurale confronta l'input con l'output fino a quando i valori desiderati corrispondono tra loro. Il docente descrive un algoritmo in cui una rete può identificare gli animali in base all'altezza della loro ombra su una lavagna in un semplice esempio che mostra come funziona l'algoritmo di codifica automatica. La rete "impara" a riconoscere le ombre degli animali comprimendo i valori di input in uno strato nascosto più piccolo che viene poi espanso per creare i valori di output. L'algoritmo raggiunge risultati sorprendentemente efficaci, anche quando si ha a che fare con grandi insiemi di dati di input che contengono un numero considerevole di classi ed esempi per ogni classe.

  • 00:20:00 In questa sezione, il relatore dimostra l'esecuzione di una semplice rete neurale con input casuali e semplice retropropagazione. Dopo solo mille iterazioni, il tasso di errore diminuisce in modo significativo e la rete è in grado di riconoscere la natura degli oggetti che vede nell'ambiente basandosi esclusivamente sull'altezza della loro ombra. Tuttavia, sembra che piuttosto che generalizzazioni fatte dai neuroni nello strato nascosto, si stia verificando una sorta di generalizzazione codificata, rendendo difficile per i ricercatori capire come la rete neurale sia in grado di riconoscere oggetti specifici. Nonostante questo mistero, la codifica automatica, che prevede l'addestramento strato per strato, offre una tecnica promettente per l'addestramento delle reti neurali profonde.

  • 00:25:00 In questa sezione del video, il relatore discute lo strato finale di una rete neurale profonda e l'importanza di regolare i valori di soglia e peso per ottimizzare la classificazione dei campioni. Modificando il valore di soglia, la funzione sigmoidea viene spostata, mentre modificando il valore del peso cambia la pendenza della curva. Questi aggiustamenti, a loro volta, influenzano la probabilità di esempi positivi e negativi nel set di dati. Per massimizzare la probabilità di classificare correttamente i dati, i valori T e W devono essere ottimizzati tramite derivate parziali.

  • 00:30:00 In questa sezione, l'istruttore spiega il concetto di regolazione dei parametri nel livello di output per massimizzare la probabilità dei dati campione che abbiamo. Ciò comporta la visualizzazione del valore di output come qualcosa correlato alla probabilità di vedere una classe e la regolazione dei parametri di conseguenza. L'istruttore dimostra il processo utilizzando una curva sigmoidea e un algoritmo di discesa del gradiente. L'obiettivo è associare una sorta di probabilità a ciascuna classe in modo da poter trovare quella più probabile. La probabilità effettiva di una classe viene calcolata dividendo l'output della funzione sigmoide per quella classe per la somma di tutte le funzioni. Questo è chiamato divisione per un fattore di normalizzazione e converte ogni valore di output in probabilità.

  • 00:35:00 In questa sezione, l'oratore spiega il processo di utilizzo di softmax per fornire una gamma di classificazioni e associare a ciascuna una probabilità per classificare le immagini. L'oratore discute anche della combinazione dell'idea softmax con l'idea della codifica automatica congelando il livello di input e addestrando il livello di output utilizzando la curva sigmoidea. Inoltre, menzionano l'idea dell'abbandono per impedire alle reti neurali di rimanere bloccate in uno stato massimo locale. La sezione si conclude osservando che, nonostante la sofisticatezza dei livelli di output e l'addestramento che utilizza la codifica automatica o le macchine Boltzmann, la retropropagazione con le reti convoluzionali sembra funzionare altrettanto bene e il relatore mostra una deep net in classe con cinque livelli e la retropropagazione per classificare le immagini di animali.

  • 00:40:00 In questa sezione, il video mostra come una rete neurale può rimanere bloccata in un massimo locale e come l'ampliamento della rete può aiutarla a strisciare attraverso il vasto spazio senza rimanere bloccata. L'oratore spiega che c'è stata una svolta nell'apprendimento della rete neurale in quanto ora può trasformare i massimi locali in punti di sella, che gli consentono di apprendere in modo più efficiente. Il video prosegue esplorando se le reti neurali possono "vedere" come gli esseri umani mostrando esempi di come anche piccoli cambiamenti nei pixel possono far differenziare una rete neurale tra oggetti con livelli di confidenza elevati. La dimostrazione mostra che una rete neurale può essere indotta a pensare che un'immagine non sia quello che realmente è.

  • 00:45:00 In questa sezione, il relatore discute di come funzionano le reti neurali profonde nell'elaborazione delle immagini utilizzando esempi tratti dall'articolo di Google sull'inserimento di didascalie nelle immagini. Le reti neurali identificano un oggetto, come uno scuolabus o una palla da baseball, rilevando le caratteristiche locali e la consistenza dell'immagine. Tuttavia, l'incapacità delle reti neurali di comprendere il contesto di un'immagine, come dimostrato da altri esempi di errata identificazione, viene mostrata come un limite della tecnologia. L'oratore discute quindi il lavoro del loro laboratorio sull'eliminazione dei rettangoli dalle immagini mantenendo l'impressione dell'immagine della rete neurale. La capacità della rete neurale di identificare un oggetto viene mostrata anche attraverso immagini di vari livelli di mutilazione, con le reti neurali che si comportano in modo ammirevole anche quando parti dell'immagine vengono rimosse.
12b: Deep Neural Nets
12b: Deep Neural Nets
  • 2016.04.20
  • www.youtube.com
*NOTE: These videos were recorded in Fall 2015 to update the Neural Nets portion of the class.MIT 6.034 Artificial Intelligence, Fall 2010View the complete c...
 

Lezione 13. Apprendimento: algoritmi genetici



13. Apprendimento: algoritmi genetici

Questo video discute il concetto di algoritmi genetici, che imitano l'evoluzione e ci permettono di risolvere problemi complessi. Il processo di eredità genetica attraverso i cromosomi viene scomposto e simulato utilizzando cromosomi binari con scelte per mutazioni e incroci. Le probabilità di sopravvivenza e l'ordine in classifica dei candidati sono spiegate con un esempio, che mostra l'efficacia se eseguito correttamente. Vengono discusse la sfida del superamento dei massimi locali e l'introduzione della tecnica di ricottura simulata. Vengono presentate applicazioni pratiche di algoritmi genetici, tra cui un progetto sulla costruzione di un sistema esperto basato su regole e l'evoluzione di creature costituite da oggetti simili a blocchi. Il docente riflette sulle origini e il successo degli algoritmi genetici, osservando che la diversità è una componente chiave del loro successo.

  • 00:00:00 In questa sezione, il professor Patrick Winston del MIT parla dell'imitazione dell'evoluzione attraverso algoritmi genetici. Inizia parlando delle basi della mitosi e della riproduzione. Quindi introduce il concetto di algoritmi genetici, che sono tentativi ingenui di imitare l'evoluzione. Questi algoritmi ci consentono di risolvere problemi complessi imitando il modello dell'evoluzione. Dice che gli studenti non lo vedranno nel loro prossimo quiz, ma avranno domande relative ad esso nell'esame finale per verificare se erano presenti in classe e svegli.

  • 00:05:00 In questa sezione del video, il relatore spiega le basi degli algoritmi genetici scomponendo il processo di ereditarietà genetica attraverso i cromosomi. Paragona il processo di ereditarietà genetica agli algoritmi genetici e spiega come semplifica e simula i cromosomi allo scopo di costruire un sistema che imita il processo di ereditarietà genetica utilizzando cromosomi binari. Continua spiegando come si possono fare delle scelte all'interno di questo processo, ad esempio quante mutazioni o incroci sono consentiti per cromosoma, portando a una popolazione di cromosomi modificati. Il passo successivo è passare dal genotipo alla transizione fenotipica.

  • 00:10:00 In questa sezione, apprendiamo come il genotipo determina il fenotipo e la forma fisica variabile che deriva da ogni individuo. Una volta valutate le fitness, gli informatici possono utilizzare i numeri per calcolare le probabilità di sopravvivenza nella generazione successiva. Per garantire che la somma delle probabilità dia uno, abbiamo bisogno di una misura di probabilità prodotta dalle fitness. Nella costruzione di un algoritmo genetico che cerca valori ottimali in uno spazio con una funzione di x e y, l'idoneità è determinata dal seno di alcune costanti per x, quantità al quadrato, per il seno di una qualche costante y, quantità al quadrato, e per il più x più y diviso per qualche costante.

  • 00:15:00 In questa sezione, Patrick Winston spiega come funzionano gli algoritmi genetici e come si evolvono. Descrive il processo di mutazione e crossover e come possono essere utilizzati per far evolvere le popolazioni verso l'alto sul grafico del fitness. Usando un esempio, dimostra come gli algoritmi genetici possono rimanere bloccati sui massimi locali a causa del loro fondamentale meccanismo di salita. Gli studenti suggeriscono di utilizzare il crossover, ma anche questo non sembra funzionare. Nonostante ciò, Winston nota l'importanza di mantenere una mente aperta a idee che inizialmente potrebbero non sembrare efficaci.

  • 00:20:00 In questa sezione, il docente esplora il concetto di tradurre la fitness in probabilità di sopravvivenza, evidenziando che l'utilizzo di una caratteristica di fitness effettiva potrebbe non essere necessariamente efficace. Pertanto, propone che l'ordinamento dei candidati in base al loro livello di forma fisica possa essere un approccio migliore. Spiega questo meccanismo in dettaglio, affermando che la probabilità che l'individuo di rango più alto entri nella generazione successiva è determinata da una costante. Inoltre, esegue 100 generazioni per testare questo metodo e spiega i risultati, mostrando l'efficacia della strategia se eseguita correttamente.

  • 00:25:00 In questa sezione, il video discute di come gli algoritmi genetici a volte si blocchino nei massimi locali e necessitino di un modo per aumentare la diversità al fine di trovare una soluzione migliore. Questo è simile a come alcune specie rimangono bloccate senza evolversi per milioni di anni. Viene quindi introdotta la tecnica della ricottura simulata per ridurre gradualmente la dimensione del gradino e consentire di trovare una soluzione. Tuttavia, il video dimostra che a volte la ricottura simulata non è sufficiente per sfuggire a un massimo locale ed è necessario un nuovo meccanismo per aumentare la diversità all'interno della popolazione. Il video suggerisce di misurare la diversità della popolazione e selezionare gli individui in base non solo alla loro forma fisica, ma anche alla loro unicità rispetto ad altri individui già selezionati.

  • 00:30:00 In questa sezione, il relatore utilizza una combinazione di grado di fitness e grado di diversità per dimostrare come funzionano gli algoritmi genetici utilizzando una piccola dimensione del passo e facendolo funzionare per 100 generazioni. Strisciando fino all'angolo in alto a destra, il pezzo di diversità mantiene le cose sparse mentre trova un'elevata forma fisica. Quando la diversità viene disattivata, ci vogliono 600 milioni di anni. Tuttavia, funziona bene quando si gestisce il problema del fossato poiché ha il meccanismo di crossover per combinare il meglio delle x e delle y. L'oratore spiega come la mutazione fondamentalmente fa l'alpinismo e che ci sono scelte su come gestirlo, incluso quanto crossover fare. Ma l'oratore osserva che gli algoritmi genetici catturano solo un'idea molto ingenua dell'evoluzione, che c'è ancora molta magia nella transizione da genotipo a fenotipo che nessuno comprende appieno, il che lascia molto intervento ai progettisti.

  • 00:35:00 In questa sezione, il relatore discute alcune applicazioni pratiche degli algoritmi genetici. Un esempio è nella pianificazione, in cui è possibile combinare due serie di passaggi per produrre un nuovo piano. Un altro esempio è il progetto di uno studente sulla costruzione di un sistema esperto basato su regole che prevede i vincitori delle corse di cavalli, utilizzando mutazioni e incroci per far evolvere le regole. L'oratore dimostra anche l'evoluzione di creature costituite da oggetti simili a blocchi, in cui diversi bit nel cromosoma vengono interpretati come numero, dimensione, struttura e controllo degli oggetti. La diversità delle creature viene misurata calcolando la distanza metrica di tutti i candidati alla generazione successiva.

  • 00:40:00 In questa sezione, Patrick Winston spiega come funzionano gli algoritmi genetici combinando la probabilità di sopravvivenza e la probabilità di essere classificati in base a quanto sono diversi dagli individui della generazione successiva. Dimostra quindi un esempio di questi algoritmi con un video di creature che nuotano evolute in base alla velocità con cui possono andare e al modo in cui si muovono sulla terraferma. Il video mostra le creature che si evolvono insieme e competono per il cibo. Alcune creature sono riuscite a sviluppare metodi esotici, ma altre si sono confuse e si sono dimenticate del cibo. Il video è un esempio di ciò che si può ottenere con computer superpotenti come quelli usati dall'azienda che ha creato il video.

  • 00:45:00 In questa sezione, il docente riflette sulle origini degli algoritmi genetici e sul loro successo nel generare soluzioni a vari problemi. Osserva che mentre gli algoritmi sono impressionanti, il vero merito potrebbe risiedere nella ricchezza dello spazio delle soluzioni e nell'ingegnosità del programmatore. La diversità è anche evidenziata come una componente chiave nei calcoli di algoritmi genetici di successo.
13. Learning: Genetic Algorithms
13. Learning: Genetic Algorithms
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonThis lecture explores genetic alg...
 

Lezione 14. Apprendimento: spazi sparsi, fonologia



14. Apprendimento: spazi sparsi, fonologia

In questa sezione del video, il professor Winston introduce il concetto di spazi sparsi e fonologia come meccanismi legati alla ricerca su come gli esseri umani apprendono. Discute l'interazione tra ciò che vediamo e ciò che sentiamo quando si tratta di apprendimento delle lingue, utilizzando esempi per illustrare come i segnali visivi possono influenzare ciò che percepiamo nel linguaggio. L'oratore spiega gli elementi e le connessioni di una macchina progettata per riconoscere e produrre suoni del parlato, inclusi registri, un insieme di parole, vincoli e un buffer per i fonemi. Spiega anche la tecnica di generalizzazione dei modelli in fonologia utilizzando esempi positivi e negativi da cui imparare, utilizzando un esempio in classe di osservazione delle caratteristiche distintive associate alle parole "gatti" e "cani". Infine, discute l'importanza di creare vincoli che corrispondano alla funzione del meccanismo e di incorporare una rappresentazione visiva per comprendere e risolvere meglio un problema.

  • 00:00:00 In questa sezione del video, il professor Winston introduce due meccanismi o idee relative all'apprendimento, Sparse Spaces e Phonology. Prima di discuterne, esamina brevemente alcuni metodi di base, inclusi i vicini più vicini e gli alberi di identificazione, e alcuni imitazioni biologiche, come le reti neurali e gli algoritmi genetici. Spiega che sebbene questi ultimi non siano sempre efficaci, vale comunque la pena conoscerli. Il professor Winston si concentra quindi sui meccanismi legati alla ricerca su come gli esseri umani apprendono e, in particolare, su come siamo in grado di identificare e creare parole plurali nelle lingue che abbiamo imparato più tardi nella vita. Usa esempi per illustrare che individui come Krishna possono pluralizzare le parole in inglese senza nemmeno rendersi conto che lo stanno facendo correttamente, e poi parla di come tali fenomeni possono essere affrontati da un punto di vista ingegneristico.

  • 00:05:00 In questa sezione impariamo le regole fonologiche e come vengono acquisite da una macchina. La fonologia si occupa dei suoni sillabici e subsillabici e le regole fonologiche determinano quale telefono o combinazione di caratteristiche binarie sta pronunciando una persona. Ci sono circa 14 caratteristiche distintive che potrebbero determinare quale telefono viene pronunciato, producendo circa 16.000 combinazioni possibili in una lingua. Tuttavia, nessuna lingua ha più di 100 telefoni e alcune scelte sono escluse per motivi fisici, il che è strano perché la maggior parte di loro non lo è. È affascinante vedere quante di queste caratteristiche distintive sono allucinate o iniettate nel ciclo di feedback da altre modalità, e l'effetto McGurk mostra come spesso ci sia una disconnessione tra parlato e video.

  • 00:10:00 In questa sezione, il relatore spiega l'interazione tra ciò che vediamo e ciò che ascoltiamo quando si tratta di apprendimento delle lingue. Discute di come i segnali visivi possono influenzare ciò che percepiamo, usando esempi di suoni di mucche tedesche e inglesi. Quindi fornisce informazioni su ciò che i fonologi sanno sulle caratteristiche distintive che formano sequenze fonemiche per parole come "mele". Giù per le colonne, contiene le caratteristiche come sonoro, sillabico o stridente, e attraversando abbiamo il tempo. L'oratore parla anche della macchina che interpreta il suono e delle cose che le persone vedono per produrre suoni linguistici, il che deciderebbe che ci sono due mele là fuori, immagazzinate in registri che contengono valori per concetti come nome, verbo e plurale.

  • 00:15:00 In questa sezione, l'oratore spiega gli elementi e le connessioni di una macchina progettata per riconoscere e produrre suoni vocali. La macchina è composta da registri, un insieme di parole, vincoli e un buffer per i fonemi. Il vincolo plurale è l'obiettivo primario, avendo la capacità di attuarsi quando si osservano cose plurali. Le informazioni possono fluire in più direzioni attraverso le porte che collegano gli elementi. L'oratore mostra quindi come reagisce la macchina quando viene presentato il concetto di "due mele", descrivendo il flusso di informazioni dal sistema di visione al lessico della parola e al registro plurale.

  • 00:20:00 In questa sezione del video, l'oratore spiega come una macchina può utilizzare regole fonologiche per esprimere l'idea che ci sono mele in vista. La macchina utilizza connessioni e propagatori reversibili espressi in vincoli, che consentono alle informazioni di fluire in qualsiasi direzione. Tuttavia, la grande domanda è come imparare queste regole. Per questo, l'oratore fornisce un semplice esempio in classe di guardare le caratteristiche distintive associate alle parole "gatti" e "cani", come sillabico, sonoro, continuo e stridente, per fornire esempi positivi e negativi per l'apprendimento di queste regole.

  • 00:25:00 In questa sezione, il video discute la formazione delle parole plurali in lingua inglese, esaminando perché alcune parole assumono un suono "s" e altre un suono "z". Il video spiega che ciò è dovuto alla scarsità dello spazio dei fonemi, con solo 40 possibili fonemi tra le 14.000 scelte possibili. Inoltre, il video spiega come il problema è stato affrontato in modo computazionale e infine distillato in un algoritmo che prevedeva la raccolta di esempi positivi e negativi da cui imparare.

  • 00:30:00 In questa sezione, l'oratore spiega un metodo per generalizzare i modelli in fonologia utilizzando un esempio positivo chiamato seme e trasformando gradualmente alcuni elementi in simboli di non cura fino a coprire un esempio negativo. La tecnica consiste nello scegliere i punti nella matrice dei fonemi che non contano e che hanno meno probabilità di influenzare l'esito della pluralizzazione. Viene utilizzata una tecnica di ricerca per decidere quale di queste generalizzazioni fare, con i fonemi adiacenti che sono i più influenti. Un esempio fonologico viene fornito utilizzando una matrice con 14 caratteristiche distintive, dove la caratteristica determinante che separa gli esempi positivi e negativi è la caratteristica non sonora e non stridente dell'ultimo telefono nella parola pluralizzata, che si traduce in una "ss" suono.

  • 00:35:00 In questa sezione, l'oratore discute ulteriori esperimenti con il sistema e spiega che, utilizzando una ricerca del raggio, controlla uno spazio sparso ad alta dimensione. Questa tecnica viene utilizzata per separare insiemi di esempi positivi da esempi negativi e insegnare al sistema come affrontare diversi scenari di pluralizzazione in fonetica. Questo approccio è spiegato dall'uso di vari esempi, come spazi a una, due e tre dimensioni, e come un iperpiano in tali esempi potrebbe essere utilizzato per separare vari insiemi di dati.

  • 00:40:00 In questa sezione, Sussman e Yip suggeriscono che il linguaggio umano utilizza uno spazio fonemico sparso. Questo perché aumenta l'apprendimento e quando la lingua è posizionata uniformemente a caso, assicura che i fonemi siano facilmente separati. Tuttavia, le vocali sono difficili da separare perché hanno una sola caratteristica distintiva rispetto ai suoni costanti. Questo esempio mostra come fare AI in modo congruente con il catechismo di Marr partendo dal problema, apportando caratteristiche uniche al problema, ideando un approccio, scrivendo un algoritmo e, infine, conducendo un esperimento.

  • 00:45:00 In questa sezione del video, l'oratore spiega come forzare un meccanismo come le reti neurali per risolvere un problema specifico che non corrisponde alla sua funzione non funzionerà bene. La chiave per trovare una buona rappresentazione è creare vincoli esposti dalla rappresentazione, il che consente una migliore elaborazione e un percorso più chiaro verso una soluzione. Inoltre, è essenziale avere una rappresentazione che incorpori un criterio di località, il che significa che la descrizione della risposta è visibile attraverso un approccio simile alla cannuccia, rendendo più facile la comprensione del problema. In definitiva, avere una buona rappresentazione rende un ingegnere e uno scienziato più intelligente, permettendo loro di evitare di studiare i meccanismi in modo ingenuo, che non porterà mai a soluzioni soddisfacenti.
14. Learning: Sparse Spaces, Phonology
14. Learning: Sparse Spaces, Phonology
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonWhy do "cats" and "dogs" end with...