EPISODE · Jun 11, 2025 · 8 MIN
La ilusión de los modelos de razonamiento
from El Podcast de Arturo Placencia · host Arturo Placencia
El episodio investiga a fondo las capacidades y limitaciones de los modelos de razonamiento de lenguaje grande (LRMs), los cuales generan procesos de pensamiento detallados antes de proporcionar respuestas. Los autores argumentan que las evaluaciones actuales, basadas principalmente en problemas matemáticos y de codificación, no ofrecen suficiente comprensión sobre la calidad y estructura del razonamiento de estos modelos debido a la contaminación de datos.Para abordar esto, introducen un entorno de rompecabezas controlable que permite manipular la complejidad mientras se mantiene una estructura lógica consistente. Los hallazgos revelan que los LRMs exhiben un colapso de precisión más allá de ciertos niveles de complejidad y, sorprendentemente, su esfuerzo de razonamiento disminuye a pesar de tener un presupuesto de tokens adecuado.El estudio identifica tres regímenes de rendimiento—baja, media y alta complejidad—donde los modelos estándar, los LRMs y ambos tipos fallan respectivamente, sugiriendo limitaciones fundamentales en la capacidad de cálculo exacto de los LRMs y su aplicación inconsistente de algoritmos.
What this episode covers
El episodio investiga a fondo las capacidades y limitaciones de los modelos de razonamiento de lenguaje grande (LRMs), los cuales generan procesos de pensamiento detallados antes de proporcionar respuestas. Los autores argumentan que las evaluaciones actuales, basadas principalmente en problemas matemáticos y de codificación, no ofrecen suficiente comprensión sobre la calidad y estructura del razonamiento de estos modelos debido a la contaminación de datos.Para abordar esto, introducen un entorno de rompecabezas controlable que permite manipular la complejidad mientras se mantiene una estructura lógica consistente. Los hallazgos revelan que los LRMs exhiben un colapso de precisión más allá de ciertos niveles de complejidad y, sorprendentemente, su esfuerzo de razonamiento disminuye a pesar de tener un presupuesto de tokens adecuado.El estudio identifica tres regímenes de rendimiento—baja, media y alta complejidad—donde los modelos estándar, los LRMs y ambos tipos fallan respectivamente, sugiriendo limitaciones fundamentales en la capacidad de cálculo exacto de los LRMs y su aplicación inconsistente de algoritmos.
NOW PLAYING
La ilusión de los modelos de razonamiento
No transcript for this episode yet
Similar Episodes
Dec 5, 2025 ·50m
Oct 9, 2025 ·33m
Oct 3, 2025 ·40m
Sep 11, 2025 ·31m
Aug 27, 2025 ·39m
Aug 18, 2025 ·54m