EPISODE · Apr 16, 2026 · 7 MIN
Ingegneria dell’Inferenza - S2P12
from Generazione Futuro: dialoghi con e sull'IA - Stagione 2 · host Recomb
In questo episodio esploriamo il dato che sta rivoluzionando silenziosamente il mondo dell'AI: quasi il 90% dei costi operativi non riguarda più l'addestramento dei modelli, ma la loro esecuzione quotidiana, ovvero l'inferenza. Se l'addestramento è paragonabile alla costruzione di un motore di Formula 1, l'inferenza è il carburante necessario per ogni singolo giro di pista.Analizziamo nel dettaglio l'ingegneria dell'inferenza, una disciplina emergente che punta a rendere l'innovazione tecnologica sostenibile ed efficiente. Scopriamo i segreti dello stack di inferenza e le tecniche che stanno facendo la differenza, dalla quantizzazione alla gestione intelligente della memoria con PagedAttention. Discutiamo inoltre l'impatto economico di queste scelte e i due possibili scenari futuri: un'AI centralizzata nelle mani di pochi giganti o una democratizzazione tecnologica che porta modelli potentissimi direttamente sui nostri dispositivi. Un viaggio tra bit e hardware per capire perché oggi la vera sfida non è più solo creare modelli più grandi, ma imparare a farli scorrere alla massima velocità.Tag: AI, ingegneria dell'inferenza, efficienza computazionale, ottimizzazione software, futuro dell'AI, GPU, innovazione tecnologica, sostenibilità digitale, hardware, tecnologia
What this episode covers
In questo episodio esploriamo il dato che sta rivoluzionando silenziosamente il mondo dell'AI: quasi il 90% dei costi operativi non riguarda più l'addestramento dei modelli, ma la loro esecuzione quotidiana, ovvero l'inferenza. Se l'addestramento è paragonabile alla costruzione di un motore di Formula 1, l'inferenza è il carburante necessario per ogni singolo giro di pista.Analizziamo nel dettaglio l'ingegneria dell'inferenza, una disciplina emergente che punta a rendere l'innovazione tecnologica sostenibile ed efficiente. Scopriamo i segreti dello stack di inferenza e le tecniche che stanno facendo la differenza, dalla quantizzazione alla gestione intelligente della memoria con PagedAttention. Discutiamo inoltre l'impatto economico di queste scelte e i due possibili scenari futuri: un'AI centralizzata nelle mani di pochi giganti o una democratizzazione tecnologica che porta modelli potentissimi direttamente sui nostri dispositivi. Un viaggio tra bit e hardware per capire perché oggi la vera sfida non è più solo creare modelli più grandi, ma imparare a farli scorrere alla massima velocità.Tag: AI, ingegneria dell'inferenza, efficienza computazionale, ottimizzazione software, futuro dell'AI, GPU, innovazione tecnologica, sostenibilità digitale, hardware, tecnologia
NOW PLAYING
Ingegneria dell’Inferenza - S2P12
No transcript for this episode yet