PODCAST · technology
Variabilis
by Cápsulas de Inteligencia Artificial y Machine Learning
Artículos y papers de ML e IA convertidos y narrados en podcasts por IA. De la academia a tus oídos, en una forma casual de aprender.
-
18
Ep. 16: ResNet v2 — ¿Por Qué Importa Dónde Pones el ReLU?
Este episodio es el "sequel" del episodio 10 sobre ResNet. Si en el episodio 10 aprendimos que los skip connections permiten entrenar redes muy profundas, hoy vamos a profundizar en una pregunta aparentemente pequeña que resulta tener implicaciones grandes: ¿dónde exactamente ponemos el Batch Normalization y el ReLU dentro del bloque residual? La respuesta a esa pregunta permitió entrenar redes de más de 1000 capas y explica por qué ResNet funciona tan bien desde un punto de vista matemático.
-
17
Ep. 15: El Nacimiento de la Atención
Hoy tocamos uno de los papers más importantes de toda la lista. No el más famoso (ese es "Attention is All You Need"), pero sí el que lo hizo posible. En 2014, Dzmitry Bahdanau, Kyunghyun Cho y Yoshua Bengio publicaron un trabajo que parecía una mejora técnica en traducción automática, pero que en realidad contenía una idea que cambiaría todo: el mecanismo de atención. Si "Attention is All You Need" fue la explosión nuclear, este paper fue quien sintetizó el uranio.
-
16
Ep 14: Redes Neuronales que Aprenden sobre Moléculas
Hoy entramos a un episodio que puede sonar intimidante: química cuántica. Pero no te preocupes; el verdadero tema es mucho más general y fascinante: ¿cómo hacemos que una red neuronal aprenda sobre grafos?Este paper de 2017 introdujo el framework MPNN (Message Passing Neural Network), que unificó varias arquitecturas de Graph Neural Networks bajo un solo lenguaje. Y aunque el caso de uso es predecir propiedades de moléculas, la idea es tan general que hoy se usa en redes sociales, sistemas de recomendación, física simulada, y más.
-
15
Ep. 13: Convoluciones Dilatadas — Ver Sin Perder el Detalle
Hoy vamos a resolver un problema que suena técnico pero que en el fondo tiene una elegancia visual muy bonita: ¿cómo hace una red neuronal para entender tanto el detalle fino como el contexto amplio de una imagen, al mismo tiempo y sin perder resolución? Este paper de 2015 introdujo las dilated convolutions (convoluciones dilatadas), una idea aparentemente simple que se convirtió en ingrediente fundamental en visión por computadora y que luego migró incluso a modelos de audio como WaveNet.
-
14
Ep. 12: The Annotated Transformer — Leer un Paper con el Código al Lado
En el episodio 11 cubrimos "Attention is All You Need" — el paper que introdujo los Transformers y que está detrás de GPT, BERT, Claude y prácticamente todo el AI moderno. Era denso, matemático, lleno de ecuaciones. Mucha gente lo leyó, asintió solemnemente... y no lo entendió del todo.En 2018, Sasha Rush de Harvard NLP publicó The Annotated Transformer: una reimplementación línea por línea del paper, con cada ecuación acompañada de su código PyTorch correspondiente y comentarios que explican el por qué de cada decisión. Y de repente, todo hizo clic.Este recurso no propone ideas nuevas — su contribución es otra: demostrar que reimplementar un paper es la forma más honesta de entenderlo.
-
13
Ep. 11: Attention is All You Need
Hoy vamos a hablar del paper más influyente de los últimos años en AI: "Attention is All You Need". Este paper de 2017 introdujo el Transformer, la arquitectura detrás de GPT, BERT, ChatGPT, y prácticamente todo modelo de lenguaje moderno. Es, sin exagerar, uno de los papers más importantes en la historia del machine learning.
-
12
Ep. 10: Deep Residual Learning for Image Recognition (ResNet)
Hoy vamos a hablar de ResNet, un paper que resolvió uno de los misterios más frustrantes del deep learning: ¿Por qué las redes más profundas a veces funcionan PEOR que las menos profundas? La solución fue tan elegante y efectiva que cambió la forma en que construimos redes neuronales para siempre.
-
11
Ep. 09: GPipe - Easy Scaling with Micro-Batch Pipeline Parallelism
Hoy vamos con GPipe, un paper que resolvió uno de los problemas más prácticos del deep learning: ¿Cómo entrenas modelos que son demasiado grandes para caber en una sola GPU? La respuesta: Pipeline parallelism con micro-batches. Suena técnico, pero es una idea elegante que permitió entrenar modelos de 6 mil millones de parámetros.
-
10
Ep. 08: El orden importa - Sequence to Sequence for Sets
Hoy vamos a hablar de un paper que aborda una pregunta aparentemente simple pero profunda: ¿Importa el orden en que le das datos a una red neuronal? La respuesta sorprendente es: ¡SÍ, mucho! Y este paper de Oriol Vinyals, Samy Bengio y Manjunath Kudlur muestra cómo manejar eso cuando tus datos son naturalmente desordenados (como sets).
-
9
Ep. 07: AlexNet - La Revolución del Deep Learning
En este episodio vamos a hablar de un paper que literalmente cambió el mundo del machine learning. AlexNet, publicado en 2012, marcó el inicio de la revolución del deep learning. Antes de este paper, las redes neuronales profundas eran consideradas difíciles de entrenar y poco prácticas. Después de AlexNet, todo cambió.
-
8
Ep. 06: Pointer Networks - Apuntando a la Solución
Hoy vamos a hablar sobre Pointer Networks, un paper que resolvió un problema fundamental que las arquitecturas seq2seq tradicionales no podían manejar. Este paper es del mismo Oriol Vinyals que vimos en episodios anteriores, y muestra una idea brillantemente simple pero poderosa.
-
7
Ep. 05: Manteniendo las Redes Simples: Minimum Description Length principle (MDL)
Hoy vamos con un paper fundamental de 1993 escrito por Geoffrey Hinton (sí, ¡el padrino del deep learning!). Este paper conecta teoría de información, estadística bayesiana y redes neuronales de una forma elegante. Aunque es de 1993, sus ideas siguen siendo super relevantes hoy.
-
6
Ep. 04: Regularización en Redes Neuronales Recurrentes
Hoy traemos un paper que resolvió uno de los problemas más frustrantes al trabajar con RNNs y LSTMs: ¿cómo evitar el overfitting? La técnica de regularización más exitosa para redes feedforward (dropout) simplemente NO funcionaba en RNNs. Este paper de 2014 por Wojciech Zaremba, Ilya Sutskever y Oriol Vinyals mostró por qué, y cómo arreglarlo.
-
5
Ep. 03: Entendiendo las Redes LSTM
Hoy vamos a profundizar en QUÉ son exactamente las LSTMs y POR QUÉ funcionan tan bien. Basado en un post de Christopher Olah publicado en el 2015. Siendo este post es uno de los más citados en la historia del deep learning, por sus explicaciones claras y sus increíbles diagramas.
-
4
Ep. 02: Karpathy y las RNNs
Segundo episodio, segundo post de los 30 sugeridos por Ilya Sutskever. Exploramos el articulo de Andrej Karpathy, sobre Redes Neuronales Recurrentes o Recurrent Neural Networks (RNNs), titulado The Unreasonable Effectiveness of Recurrent Neural Networks.Este post, publicado en 2015, demostró de forma espectacular lo que las RNNs podían hacer, y cambió la forma en que muchos pensamos sobre el procesamiento de secuencias.
-
3
Ep. 01: La Ley de Complejodinámica y tu café
Primer episodio, primer paper o post de los 30 sugeridos por Ilya Sutskever. Exploramos el concepto de 'complextropía' de Scott Aaronson - por qué los sistemas (y los modelos de ML) evolucionan desde el caos, alcanzan un peak de complejidad, y luego se simplifican. De la leche en el café a las redes neuronales.
We're indexing this podcast's transcripts for the first time — this can take a minute or two. We'll show results as soon as they're ready.
No matches for "" in this podcast's transcripts.
No topics indexed yet for this podcast.
Loading reviews...
ABOUT THIS SHOW
Artículos y papers de ML e IA convertidos y narrados en podcasts por IA. De la academia a tus oídos, en una forma casual de aprender.
HOSTED BY
Cápsulas de Inteligencia Artificial y Machine Learning
CATEGORIES
Loading similar podcasts...