
Ti stai perdendo delle opportunità di trading:
- App di trading gratuite
- Oltre 8.000 segnali per il copy trading
- Notizie economiche per esplorare i mercati finanziari
Registrazione
Accedi
Accetti la politica del sito e le condizioni d’uso
Se non hai un account, registrati
Tutorial ESP - Come: progettare un acceleratore in Keras/Pytorch/ONNX
Tutorial ESP - Come: progettare un acceleratore in Keras/Pytorch/ONNX
Il tutorial introduce uno strumento chiamato Chalice per ML, che può generare automaticamente un acceleratore da un modello Keras/Pytorch/ONNX. Il tutorial procede quindi a dimostrare come integrare l'acceleratore in ESP (Early Stage Prototyper). Il relatore mostra anche come progettare un acceleratore in Keras/Pytorch/ONNX e passa attraverso le fasi di importazione di un acceleratore, aggiunta di un banco di prova, generazione di RTL e creazione di due versioni dell'acceleratore. Il video copre anche la compilazione di Linux e la creazione di un'applicazione in spazio utente Linux per l'acceleratore. Infine, il tutorial termina con le risorse per un ulteriore apprendimento.
Inferenza ottimale su hardware flessibile con runtime ONNX
Inferenza ottimale su hardware flessibile con runtime ONNX
Questo tutorial copre la distribuzione di modelli su CPU, GPU e OpenVINO utilizzando ONNX Runtime. Il relatore dimostra l'uso di diversi provider di esecuzione, incluso OpenVINO, per l'inferenza su hardware flessibile. Il codice per l'inferenza è principalmente lo stesso in tutti gli ambienti, con la differenza principale nel provider di esecuzione. ONNX Runtime esegue l'inferenza più velocemente di PyTorch su CPU e GPU ed esiste una libreria ONNX Runtime separata per OpenVINO. Nel complesso, l'esercitazione fornisce una panoramica su come distribuire i modelli su varie opzioni hardware utilizzando ONNX Runtime.
Inferenza di Machine Learning in Flink con ONNX
Inferenza di Machine Learning in Flink con ONNX
Il video illustra i vantaggi e l'implementazione dell'utilizzo di ONNX nell'inferenza di machine learning e della sua distribuzione nel framework di calcolo distribuito, Flink. La separazione delle preoccupazioni tra l'addestramento del modello e l'inferenza della produzione, la capacità di definire le specifiche per input e output e l'indipendenza dal linguaggio rendono ONNX uno strumento prezioso per i data scientist. Il video mostra come caricare un modello ONNX in Flink, fornendo i componenti chiave della funzione rich map e spiegando come raggruppare i modelli insieme al codice utilizzando un file jar. Il relatore affronta anche considerazioni come la gestione della memoria, l'ottimizzazione dei batch e l'accelerazione hardware con ONNX e ne sottolinea i vantaggi per l'inferenza dell'apprendimento automatico in tempo reale in Flink.
Migliorare l'esperienza di acquisto online con ONNX
Migliorare l'esperienza di acquisto online con ONNX
Questo video illustra come le aziende di e-commerce utilizzano l'intelligenza artificiale per creare approfondimenti di grande impatto che differenziano le vittorie e le sconfitte nello spazio di vendita al dettaglio online. L'oratore fornisce un esempio di Bazaar Voice, la più grande rete di marchi e rivenditori che fornisce oltre 8 miliardi di recensioni totali e di come utilizzano la corrispondenza dei prodotti per condividere le recensioni. Il relatore descrive quindi come hanno sviluppato un modello di machine learning in Python, lo hanno esportato in formato ONNX e lo hanno distribuito a una funzione serverless utilizzando un ambiente nodo per eseguire l'inferenza su un runtime ONNX. Questa soluzione consente l'abbinamento ad alta velocità di centinaia di milioni di prodotti in migliaia di cataloghi di clienti mantenendo bassi i costi, con conseguenti risparmi significativi e milioni di recensioni extra per marchi e rivenditori. Il relatore conclude invitando gli spettatori a esplorare altri modi di utilizzare le capacità di ONNX e condividere i loro casi d'uso per i futuri progressi tecnologici.
DSS online n. 4: implementazione del deep learning end-to-end con ONNX
DSS online n. 4: implementazione del deep learning end-to-end con ONNX
Questo video discute le sfide dell'implementazione del deep learning end-to-end, inclusa la gestione di linguaggi, framework, dipendenze e variabilità delle prestazioni diversi, nonché l'attrito tra i team e i lock-in del formato proprietario. L'Open Neural Network Exchange (ONNX) viene introdotto come formato basato su buffer di protocollo per la serializzazione del deep learning. Supporta i principali framework di deep learning e fornisce un artefatto autonomo per l'esecuzione del modello. ONNX ML è anche discusso come parte della specifica ONNX che fornisce supporto per la pre-elaborazione tradizionale del machine learning. I limiti di ONNX sono riconosciuti, ma è visto come un progetto in rapida crescita con un forte supporto da parte di grandi organizzazioni che offre una vera portabilità attraverso diverse dimensioni di linguaggi, framework, runtime e versioni.
ONNX e ONNX Runtime con Vinitra Swamy e Pranav Sharma di Microsoft
ONNX e ONNX Runtime con Vinitra Swamy e Pranav Sharma di Microsoft
Il video illustra il formato ONNX (Open Neural Network Exchange), creato per rendere i modelli interoperabili ed efficienti nella serializzazione e nel controllo delle versioni. ONNX è costituito da un livello di rappresentazione intermedio, specifiche dell'operatore e supporta diversi tipi di dati. Il runtime ONNX, implementato in C++ e assembler, offre compatibilità con le versioni precedenti ed è estendibile tramite provider di esecuzione, operatori personalizzati e ottimizzatori di grafici. L'API offre supporto per piattaforme, linguaggi di programmazione e provider di esecuzione. Gli utenti possono creare sessioni, ottimizzare i modelli e serializzarli per un utilizzo futuro. I relatori forniscono una dimostrazione della versatilità e dell'efficienza di ONNX Runtime, con la capacità di funzionare su dispositivi Android.
compatibilità che risale a CentOS 7.6. Viene discusso anche ONNX Go Live Tool, uno strumento open source per la conversione e l'ottimizzazione dei modelli per prestazioni ottimali. La sezione si conclude con esempi di servizi Microsoft che utilizzano ONNX, tra cui un aumento delle prestazioni di 14 volte nel modello di determinazione mancante di Office e un aumento delle prestazioni di 3 volte nel modello di riconoscimento ottico dei caratteri utilizzato nei servizi cognitivi.
Jan-Benedikt Jagusch Christian Bourjau: Rendere le applicazioni di Machine Learning veloci e semplici con ONNX
Jan-Benedikt Jagusch Christian Bourjau: Rendere le applicazioni di Machine Learning veloci e semplici con ONNX
In questo video sull'apprendimento automatico e la distribuzione, i relatori discutono delle sfide legate alla messa in produzione dei modelli, in particolare la difficoltà di decapaggio e distribuzione dei modelli. Introducono ONNX, un formato di file universale per l'esportazione di modelli di machine learning, e spiegano come può aiutare a separare l'addestramento e l'inferenza, rendendo l'implementazione più rapida ed efficiente. Forniscono una demo dal vivo utilizzando scikit-learn, che spiega come convertire una pipeline di machine learning in formato ONNX. Discutono anche dei limiti dei container Docker per la distribuzione di modelli di machine learning e sottolineano i vantaggi dell'utilizzo di ONNX. Toccano l'argomento della crittografia dei modelli per una maggiore sicurezza e affrontano il problema dell'usabilità di ONNX, che è ancora un ecosistema giovane con alcuni messaggi di errore criptici.
ONNX Runtime Azure EP per l'inferenza ibrida su Edge e Cloud
ONNX Runtime Azure EP per l'inferenza ibrida su Edge e Cloud
Il team ONNX Runtime ha rilasciato il suo primo passo nel mondo ibrido consentendo agli sviluppatori di utilizzare un'unica API sia per l'edge che per il cloud computing con Azure EP, che elimina i problemi di connettività dei dispositivi e consente agli sviluppatori di passare al modello cloud che hanno ottimizzato , risparmiando sui costi e riducendo la latenza. Questa nuova funzionalità consente agli sviluppatori di aggiornare la logica dell'applicazione e scegliere quale percorso intraprendere tramite Azure EP, offrendo più capacità e potenza. Il team dimostra la distribuzione di server per bambini e modelli di rilevamento degli oggetti, nonché come testare l'endpoint e configurare semplicemente Onnx Runtime Azure. I relatori discutono anche della possibilità di passare dall'elaborazione locale a quella remota e dei potenziali casi d'uso, compresi i modelli con prestazioni inferiori o superiori. ONNX Runtime Azure EP può essere precaricato e configurato facilmente con i pacchetti necessari per la distribuzione, contribuendo alla facilità d'uso del software.
INT8 Inferenza di modelli addestrati con riconoscimento della quantizzazione utilizzando ONNX-TensorRT
INT8 Inferenza di modelli addestrati con riconoscimento della quantizzazione utilizzando ONNX-TensorRT
Dheeraj Peri, un ingegnere del software di deep learning presso NVIDIA, spiega le basi della quantizzazione e come TensorRT supporta le reti quantizzate attraverso varie fusioni. Si concentrano sui modelli addestrati utilizzando il framework TensorFlow 2.0 e su come eseguire la quantizzazione post-addestramento (PTQ) e l'addestramento consapevole della quantizzazione (QAT). Viene spiegato il processo di distribuzione di un modello addestrato utilizzando il toolkit di quantizzazione Nvidia TF2 con ONNX-TensorRT e vengono presentati i risultati di accuratezza e latenza per vari modelli ResNet. Nel complesso, viene dimostrato il flusso di lavoro QAT end-to-end dall'implementazione di TensorFlow a TensorRT tramite ONNX-TensorRT.
Quantizzazione pratica post training di un modello ONNX
Quantizzazione pratica post training di un modello ONNX
Il video illustra come implementare la quantizzazione per ridurre le dimensioni di un modello TensorFlow a un modello quantizzato ONNX. Il modello ONNX è notevolmente più piccolo e può essere eseguito più velocemente su una CPU. L'autore fornisce frammenti di codice e istruzioni su come implementare la quantizzazione dinamica e su come controllare la velocità della CPU.
Il video mostra il processo di quantizzazione di un modello di machine learning per renderlo più veloce e leggero, pur riconoscendo che potrebbe portare a un calo della precisione. I modelli ONNX e TensorFlow vengono confrontati con un modello quantizzato, quest'ultimo risultato essere più veloce e leggero. Tuttavia, il modello quantizzato non beneficia tanto dell'uso delle GPU quanto gli altri modelli. L'accuratezza del modello quantizzato viene quindi valutata e si scopre che ha solo un leggero calo. Viene discusso anche il processo di visualizzazione dei modelli ONNX, con la dimostrazione dell'uso dell'app Loot Rodas Neutron. Il processo complessivo si traduce in una riduzione delle dimensioni del modello da un gigabyte a 83 megabyte con una perdita minima di precisione.