EPISODE · Feb 19, 2026 · 21 MIN
Resúmenes LLM y sesgo multilingüe & Guardrails y evaluación de seguridad - Noticias de Hacker News (19 feb 2026)
from The Automated Daily - Hacker News Edition · host TrendTeller
Por favor, apoya este pódcast visitando a nuestros patrocinadores: - Invierte como los profesionales con StockMVP - https://www.stock-mvp.com/?via=ron - Crea cualquier formulario, sin código, con Fillout. 50% de créditos adicionales por registrarte - https://try.fillout.com/the_automated_daily - Consensus: IA para la investigación. Obtén un mes gratis - https://get.consensus.app/automated_daily Apoya directamente a The Automated Daily: Cómprame un café: https://buymeacoffee.com/theautomateddaily Temas de hoy: Resúmenes LLM y sesgo multilingüe - Cómo pequeños cambios en la política/sistema de un LLM alteran resúmenes “profesionales” y reencuadran hechos. Keywords: summarization, policy steering, Farsi, auditoría, derechos humanos. Guardrails y evaluación de seguridad - Un laboratorio open-source compara inglés vs. no inglés en factualidad, seguridad y no discriminación, y convierte métricas en guardrails. Keywords: benchmarks, LLM-as-a-Judge, FlowJudge, Glider, any-guardrail. Pebble Time 2 en producción - RePebble se acerca a enviar Pebble Time 2 con PVT completado, 3ATM y arranque de producción en marzo, más avances fuertes en PebbleOS y apps. Keywords: PVT, 3ATM, producción masiva, iOS crash, Appstore. Diario local cifrado con Tauri - Mini Diarium: journaling local-only, sin telemetría, con cifrado AES-256-GCM y nuevos métodos de desbloqueo con claves X25519. Keywords: Tauri 2, Rust, SQLite, Argon2, key files. Jobs compartidos Elixir y Python - Oban propone un puente práctico entre Elixir y Python usando la misma tabla oban_jobs en Postgres para colas durables bidireccionales. Keywords: Postgres, JSON args, WeasyPrint, Oban Web, interoperabilidad. Ray tracing fotorealista en Makie - RayMakie y Hikari llevan path tracing físico a Julia/Makie con iluminación global, medios volumétricos y soporte GPU/CPU. Keywords: pbrt-v4, KernelAbstractions, NanoVDB, Raycore, espectral. Zine Paged Out y seguridad - Paged Out! #8 celebra más de un millón de descargas y publica 92 páginas sobre reversing, explotación, CI/CD y varios artículos de IA aplicada a seguridad. Keywords: zine, CFP, web viewer, LLM, MITRE ATT&CK. Trucos exóticos para Commodore 64 - Seawolves en C64 detalla técnicas de demo-scene: NMIs+IRQ por raster, split sprites, FLD stalls y micro-optimizaciones de branches. Keywords: VIC-II, CIA timers, sprites, ciclos, 6502. Archivo francés sobre los mongoles - Un recorrido histórico por cómo Francia construyó un “archivo mongol” desde rumores cruzados hasta Rubruck y Marco Polo, y cómo cambió la percepción europea. Keywords: Luis IX, Innocencio IV, Karakorum, Kublai, manuscritos. Caos de tallas en ropa - Datos de EE. UU. muestran que las tallas femeninas dejan de reflejar el crecimiento real y varían por marca, con vanidad y rangos que excluyen a muchas adultas. Keywords: NCHS, ASTM, vanity sizing, mid-size gap, transparencia. - https://royapakzad.substack.com/p/multilingual-llm-evaluation-to-guardrails - https://repebble.com/blog/february-pebble-production-and-software-updates - https://github.com/fjrevoredo/mini-diarium - https://oban.pro/articles/bridging-with-oban - https://pagedout.institute/download/PagedOut_008.pdf - https://kodiak64.co.uk/blog/seawolves-technical-tricks - https://makie.org/website/blogposts/raytracing/ - https://www.historytoday.com/archive/feature/mongol-khans-medieval-france - https://pudding.cool/2026/02/womens-sizing/ Transcripcion del Episodio Resúmenes LLM y sesgo multilingüe Primero, hablemos de resúmenes automáticos y seguridad multilingüe, porque hoy viene el tema más jugoso. Una autora plantea que los resúmenes generados por LLM pueden ser peligrosamente engañosos, no tanto por inventar datos a lo loco, sino por cambios pequeños y casi invisibles en el “policy layer”: ese conjunto de instrucciones, sistema o reglas internas que guían el tono y el enfoque. El argumento central es que, si ese policy cambia —o si alguien lo personaliza— el resumen puede empezar a destacar unas cosas, minimizar otras, o enmarcar lo “aceptable” de forma distinta… sin que el lector note el giro. Para demostrarlo, hace un experimento con GPT-OSS-20B resumiendo un informe de Naciones Unidas sobre la situación de derechos humanos en Irán. Con la configuración por defecto, el resumen subraya abusos severos y menciona “más de 900” ejecuciones. Pero cuando se le aplica una política personalizada en inglés, y sobre todo una política “deliberativa” en farsi, el encuadre se desplaza: aparecen con más peso conceptos como soberanía, orden público, aplicación de la ley y “diálogo”, acercándose al framing gubernamental. A esta técnica la llama “Bilingual Shadow Reasoning”. La idea es potente: capas de política en un idioma distinto al habitual —no inglés— pueden colarse en revisiones y auditorías, y aun así conducir el resultado. Y lo más importante: esto sería más fácil de “dirigir” en tareas de resumen que en preguntas y respuestas, porque el resumen ya implica selección: qué entra, qué sale, qué se enfatiza y qué tono se adopta. ¿Y por qué importa? Porque los resúmenes alimentan decisiones downstream de alto impacto: reportes ejecutivos, análisis político, investigación UX, personalización, y hasta sistemas que guardan “memoria” de chatbots. La autora cita trabajos previos que sugieren que los resúmenes pueden alterar el sentimiento en una fracción relevante de casos —se menciona un 26,5%— y que incluso cambian el comportamiento del consumidor: por ejemplo, personas 32% más proclives a comprar tras leer un resumen generado por LLM frente a la reseña original. La segunda mitad del post se pone muy práctica: describe la creación de un laboratorio open-source de evaluación, el Multilingual AI Safety Evaluation Lab. El enfoque es comparar salidas en inglés versus otros idiomas en dimensiones como factualidad, seguridad/privacidad y no discriminación, mezclando evaluación humana con “LLM-as-a-Judge”. En un caso con Respond Crisis Translation, probaron escenarios de refugiados y asilo en inglés, árabe, farsi, pastún y kurdo. Curdo y pastún fueron donde más cayó la calidad. En promedios humanos, la “accionabilidad” bajó de 3,86 en inglés a 2,92 en no inglés, y la factualidad de 3,55 a 2,87. Y ojo con esto: muchos modelos daban consejos peligrosos aunque parecieran de buena fe, como sugerir que solicitantes de asilo contacten a autoridades o embajadas, que en la vida real puede ser arriesgado. También detectan que los disclaimers de seguridad —muy típicos en inglés— aparecen de manera irregular en otros idiomas. Un ejemplo: Gemini se niega en inglés a recomendar remedios herbales para síntomas graves, pero sí los sugiere en salidas no inglesas. Además, critican el “LLM-as-a-Judge”: excesiva confianza, notas infladas, infrarreporta disparidades, y en algunos casos hasta alucina disclaimers que no existían. Y rematan con algo que me parece clave para 2026: no solo más benchmarks, sino un ciclo continuo donde la evaluación alimente el diseño de guardrails. En un proyecto con Mozilla.ai, convierten dimensiones evaluadas en políticas contextuales en inglés y farsi, y prueban herramientas como FlowJudge, Glider y AnyLLM con GPT-5-nano, usando any-guardrail. Resultado llamativo: enorme sensibilidad al idioma del texto de la política. En Glider, las puntuaciones cambiaban entre 36% y 53% solo por si la política estaba en inglés o en farsi. Incluso los guardrails razonaban con más alucinaciones en farsi y hacían suposiciones sesgadas. Es decir: el problema multilingüe no se queda en el modelo; se filtra también a las herramientas de seguridad. Guardrails y evaluación de seguridad Sigamos con tecnología “de muñeca” y de bolsillo, porque hay novedades muy concretas de hardware y software. RePebble dice que está cerca de enviar tres productos: Pebble Time 2, Pebble Round 2 e Index 01. En hardware, el final del camino suele ser una guerra de compromisos entre coste, calidad y calendario, y ellos lo describen tal cual: estresante, pero normal. Pebble Time 2 está en fase PVT, Production Verification Test: ya han construido cientos de unidades, encontraron fallos y aplicaron correcciones. Antes del cierre de fábricas por el Año Nuevo Lunar, el último build de PVT pasó las pruebas. Enero se fue sobre todo en mejorar impermeabilización. Ahora esperan certificarla en 30 metros / 3ATM: apta para mojarse y nadar, pero no para agua caliente tipo sauna/jacuzzi, ni chorros de alta presión, y desde luego no es un reloj de buceo. El plan es iniciar producción masiva el 9 de marzo, tras reabrir fábricas a finales de febrero, con rampa hacia unas 500 unidades al día. Habrá envíos semanales a un centro de distribución y entregas de “unas semanas” de punta a punta. En este calendario, los primeros relojes llegarían a clientes a principios de abril, y todos los preorders para principios de junio, con la advertencia habitual: si la línea de producción da sorpresas, puede haber retrasos. Antes del envío, mandarán un email para confirmar dirección, elegir accesorios y pagar aranceles/IVA/impuestos. Citan, por ejemplo, 10 dólares de arancel en EE. UU., y en otros países se calcula en esa confirmación, sin pagos adicionales al recibir. Index 01 también está en PVT, con varios cientos fabricados. Pasó pruebas de agua a IPX8 “1 metro”: aguanta salpicaduras, lavado de manos y ducha, pero no está pensado para nadar. Mantienen objetivo de producción en marzo, aunque sin fecha firme. Además, preparan un kit de tallaje de anillos de 10 dólares —con la esperanza de incluir envío global— porque su tallaje no coincide con el de anillos tipo Oura. Están midiendo interés en tallas 14 y 15, que requerirían unos 50.000 dólares en tooling. De Pebble Round 2, completaron DVT1 antes del parón. Les ayuda que el diseño eléctrico es casi idéntico al de PT2, así el equipo pequeño de firmware reutiliza avances. Tras el festivo, se centran en impermeabilización y ajustes finales, con producción estimada para finales de mayo. Y en software, hay bastante movimiento: volvieron funciones de clima —pins en la timeline y app Weather—; arreglaron que llamadas de WhatsApp en Android se vean como llamadas; y corrigieron un crash importante en iOS en segundo plano que impedía traer datos en vivo. La app iOS ganó soporte WebSocket. Un detalle muy elegante: la app móvil intercepta llamadas antiguas a APIs de clima que usan watchfaces y apps viejas —piensa Yahoo u OpenWeather— y en vez de romper, sirve datos desde Open-Meteo. Esto mantiene vivo el ecosistema legacy sin obligar a que todo el mundo actualice. También integraron nativamente la Pebble Appstore en la app móvil, y actualizaron la web. Piden a devs reimportar apps/watchfaces si ven versiones desfasadas. Añadieron filtros para ocultar apps antiguas rotas o mostrar open source, recuperaron parte de compatibilidad con PebbleKit 1.0 en Android —aunque empujan a PebbleKit 2.0— y ya puedes ajustar settings del reloj desde el móvil con sincronización entre relojes. Y rematan con mejoras comunitarias: más iconos de notificación, modo zurdo que invierte botones, y sincronización de salud del reloj al teléfono. Por ahora, mucha energía va a software de verificación de fábrica para “Obelix”, con actualización de SDK para devs “pronto”. Pebble Time 2 en producción Ahora, privacidad personal: llega una app de diario que va en dirección contraria al “todo en la nube”. Mini Diarium es un diario open-source, cifrado y local-only para Windows, macOS y Linux, pensado como sucesor espiritual de “Mini Diary”, un proyecto previo que quedó sin mantenimiento. Está hecho con Tauri 2, SolidJS y un backend en Rust con SQLite. Y su postura es muy clara: no conecta a internet, no tiene telemetría, ni analíticas, ni sync, ni siquiera comprobación de updates. En seguridad, cada entrada se cifra con AES-256-GCM antes de escribirse al disco. Usa un esquema de “master key” aleatoria: esa clave maestra cifra entradas, y luego se guarda envuelta —wrapped— usando distintos métodos de autenticación. En la versión 0.2.0, publicada hoy, 19 de febrero de 2026, añadieron desbloqueo con archivos de clave privada X25519, además de contraseña. Puedes registrar varios key files y mantener también password. El wrapping con key files se describe como ECDH con X25519 más HKDF-SHA256 para derivar una clave de envoltura, y luego AES-256-GCM para envolver la master key. La clave privada no entra en la base de datos, y si el archivo de clave se manipula, falla la autenticación. También hay decisiones interesantes: eliminaron una tabla de índice de búsqueda full-text en claro —entries_fts—, migraron el esquema a v4 y deshabilitaron búsqueda hasta encontrar una alternativa segura. Activaron Content Security Policy en el webview. Es de esas medidas que duelen a UX, pero suben el listón de seguridad. Otros detalles: permisos 0o600 al escribir key files en Unix; en Windows confían en ACLs NTFS. Rechazan imports de más de 100 MB para evitar problemas de memoria. Y la app ofrece editor rich-text con TipTap, calendario, temas, backups rotativos al desbloquear, estadísticas, import/export desde Mini Diary, Day One y jrnl, y export a JSON y Markdown —con advertencia: esas exportaciones quedan en texto plano. Instalación: paquetes nativos por plataforma. Y sí, avisan de SmartScreen/Gatekeeper para apps sin firmar y recomiendan checksums en Linux. Por cierto: si pierdes todos los métodos de desbloqueo, no hay recuperación. Aquí el backup de credenciales es parte del producto, no un extra. Diario local cifrado con Tauri En desarrollo y arquitectura de sistemas, hoy tenemos un patrón muy pragmático para mezclar lenguajes sin inventar otra infraestructura. Oban publicó una guía para “puentear” Elixir y Python cuando tu app en Elixir necesita capacidades más maduras en Python: machine learning, render de PDFs, herramientas de medios, ese tipo de cosas. Su propuesta: en vez de montar integraciones HTTP a medida o añadir otra cola de mensajes, usar Oban como capa de interoperabilidad intercambiando trabajos en segundo plano. El ejemplo, “Badge Forge”, genera acreditaciones para una conferencia. Elixir encola el trabajo; Python produce PDFs con WeasyPrint. La pieza clave es que Oban en Elixir y Oban en Python comparten la misma tabla oban_jobs en Postgres. Los argumentos del job van en JSON, así que el payload es agnóstico del lenguaje. ¿Cómo cruzas la frontera? La parte que encola simplemente escribe una fila con el identificador del worker —como string— y el nombre de la cola. El otro lado hace polling, procesa y actualiza estados. Cada lado mantiene su propio liderazgo de clúster para no pelearse por “ser líder”, aunque coordinen por la tabla. En el flujo: Elixir mete una tanda de jobs en la cola badges, con un worker que coincide con una clase de Python, algo como badge_forge.generator.GenerateBadge. Python consume, renderiza HTML a PDF en disco y luego encola un job de vuelta a Elixir en printing para confirmar o imprimir. También muestran logs y recomiendan Oban Web en Docker para monitoreo, apuntando al mismo DATABASE_URL. La idea importante: es bidireccional. Python también puede descargar trabajo a Elixir. Si ya estás en Postgres y ya usas Oban, esto es una forma limpia de evitar una mini-arquitectura distribuida innecesaria. Jobs compartidos Elixir y Python En gráficos y computación científica, Makie —el ecosistema de visualización en Julia— acaba de enseñar una novedad que suena a “cambio de backend y listo”, pero detrás hay bastante ingeniería. Anunciaron RayMakie y Hikari: un pipeline de ray tracing físicamente basado, integrado en Makie. La promesa: cualquier escena existente de Makie puede renderizarse con path tracing fotorealista simplemente cambiando el backend. Soporta iluminación global, medios volumétricos participativos, render espectral y materiales PBR. Todavía no es un release final; dicen que las versiones oficiales llegan en las próximas semanas. Para quien quiera trastear antes, habrá un repo RayDemo que mantiene un Project.toml funcional con los scripts de ejemplo. Por dentro, Hikari es un port a Julia de pbrt-v4, con un path tracer espectral volumétrico tipo wavefront. Incluye materiales como metales, dieléctricos y superficies recubiertas, con iluminación de entorno y sun-sky. Para intersección de rayos y estructuras de aceleración usan Raycore.jl, derivado del SDK Radeon Rays e HIPRT, con soporte cross-vendor: AMD y NVIDIA, y también CPU vía KernelAbstractions.jl. Los demos son muy “científicos”: nubes cúmulus tipo BOMEX desde Breeze.jl/Oceananigans.jl en volúmenes NanoVDB; terrenos con elevación ArcGIS y nubes; plantas con PlantGeom.jl; visualización de proteínas con ProtPlot.jl con profundidad de campo y refracción; y splashes de agua con TrixiParticles.jl mostrando Fresnel realista. También hay casos más generales: carga de GLTF/GLB con texturas emisivas como luces de área, y visualización de detectores del CERN importando geometría de Geant4 desde GDML, con cortes para ver el interior. Y un ejemplo “de autor” genial: una escena de agujero negro implementada creando un medio en Hikari que aplica lensing gravitacional con métrica de Schwarzschild en GPU. En la hoja de ruta: gestión de memoria en GPU, mejoras de rendimiento (BVH, layout), más integración con Makie, posible vuelta de photon mapping para cáusticas y validación amplia en AMD/NVIDIA/CPU. Buen recordatorio de que el fotorealismo no es solo para cine: en ciencia, ver mejor también es pensar mejor. Ray tracing fotorealista en Makie Dos piezas más para cerrar, una de comunidad hacker y otra de programación retro, que hoy vienen muy bien juntas. Primero: Paged Out! Issue #8, febrero de 2026. Es un zine gratuito de 92 páginas, de artículos de una sola página, gestionado por Paged Out! Institute y publicado por HexArcana Cybersecurity en Suiza. Comparten un hito: ya superaron un millón de descargas acumuladas. Y este #8 es el más grande. Además, cambiaron el ritmo editorial: ahora hay deadlines claros para CFP, dejando atrás el “publicamos cuando juntamos 50 artículos”. También estrenaron un visor web —aún early alpha— para enlazar directamente artículos individuales, manteniendo el PDF como formato principal. El contenido cubre reversing, explotación, internals de navegador y OS, seguridad en CI/CD y tooling defensivo. Hay mucho tema de IA y LLM: agentes multimodales, LLM para inteligencia de amenazas y mapeo a MITRE ATT&CK, y comparativas de revisión de código de seguridad entre humanos y modelos. También hay sistemas: compiladores, undefined behavior, arquitectura de emuladores de terminal, teoría de colas para dimensionar workers, y “cómo funciona” pausar descargas en Chrome vs Firefox. Y para amantes del hardware retro: FPGA, Tiny Tapeout, FreeDOS, y una reparación de Dreamcast. Ahora el retro en serio: un post de Kodiak64 desarma nueve técnicas “exóticas” usadas para construir su primer juego comercial de Commodore 64, Seawolves. Es una colección muy demo-scene: sincronizar NMIs por temporizador y raster IRQs para partir la pantalla en capas y controlar timings; torpedos hechos con split sprites —una columna de 8 sprites dividida en 24 cortes de 7 píxeles— reposicionados con interrupciones cada 7 scanlines; estelas que se “dibujan” en el canvas de sprites y luego se adelgazan; muertes de submarino con una implosión en tiempo real cambiando a hi-res y destruyendo bits con shifts. Suman olas con rotaciones de bits, distorsión del agua con bandas de Y-expand, un truco para mover bad lines con un FLD de una línea y corregir el shunt con el scroll vertical, streaming de solo las partes cambiantes del gráfico de sprites para ahorrar memoria, y micro-optimizaciones 6502 como combinar condiciones con ORA o reemplazar JMP por branches cuando las flags lo permiten. En conjunto, es un recordatorio: en máquinas pequeñas, el juego es la coreografía de ciclos. Zine Paged Out y seguridad Y, para rematar el episodio, dos lecturas fuera del “core tech”, pero muy Hacker News: historia e datos. Primero, un artículo histórico sobre cómo Francia construyó, literalmente, un “archivo” de conocimiento sobre los mongoles durante siglos. Arranca con 1221, en la Quinta Cruzada: corre el rumor de un rey cristiano llamado “David” que vendría desde Asia a salvar Jerusalén. No era cierto… pero era la primera noticia europea, distorsionada, de las conquistas de Chinggis Khan. Con el tiempo, cartas, embajadas y crónicas —desde James of Vitry hasta el Concilio de Lyon— fueron acumulando relatos. Luis IX se implicó: recibió enviados, mandó misiones, y una respuesta mongola llegó a exigir tributo y amenazar destrucción. Luego envió a William of Rubruck en 1253, cuyo informe es un clásico por el nivel de detalle sobre vida mongola, clima, geografía y prácticas religiosas, y por advertir que Europa estaba en el mapa de conquista. Después, el “texto archivístico” que más pegó en Francia fue Marco Polo, escrito en un dialecto francés para llegar a público amplio y presentando Asia —sobre todo el imperio Yuan de Kublai Khan— como enorme y sofisticado. El contacto diplomático directo se fue apagando con guerras, peste y cambios políticos, pero el archivo cultural quedó, y resurge incluso con Tamerlán tras 1402 y con compilaciones ilustradas como el Book of Marvels. Segundo, un trabajo de The Pudding sobre el caos de tallas en ropa femenina en Estados Unidos. Usan mediciones de salud (NCHS) para mostrar que, de niñas, las tallas siguen relativamente el crecimiento, pero al pasar a tallas de mujer el sistema deja de adaptarse de forma coherente. A los 15, una cintura mediana ronda 30,4 pulgadas y cae cerca de una talla 10 según guías ASTM, pero entre marcas puede etiquetarse como 8 o 12. Y luego, ya en adultez, la cintura mediana sube bastante —se menciona 37,7 pulgadas— lo que mapearía hacia una talla ASTM 18, mientras muchas líneas “regulares” se cortan en 16, dejando fuera a más de la mitad. El artículo explica por qué: no hay estándar universal exigible, las marcas cambian tablas sin avisar, existe la vanidad de tallaje —mismo número, prenda más grande— y hay un “mid-size gap” donde no encajas ni en regular ni en plus. También señalan un problema estructural de patronaje industrial: mucha ropa se gradúa desde una sola talla muestra, a menudo la 8, aunque menos del 10% de mujeres adultas tienen cintura igual o menor a esa base. La autora lo aterriza con una solución práctica: aprender a coser y ajustar patrones, pero también pide más transparencia e inclusión real en el diseño de tallas. Suscríbete a fuentes específicas por edición: - Space news * Apple Podcast English * Spotify English * RSS English Spanish French - Top news * Apple Podcast English Spanish French * Spotify English Spanish French * RSS English Spanish French - Tech news * Apple Podcast English Spanish French * Spotify English Spanish Spanish * RSS English Spanish French - Hacker news * Apple Podcast English Spanish French * Spotify English Spanish French * RSS English Spanish French - AI news * Apple Podcast English Spanish French * Spotify English Spanish French * RSS English Spanish French Visit our website at https://theautomateddaily.com/ Send feedback to [email protected] Youtube LinkedIn X (Twitter)
NOW PLAYING
Resúmenes LLM y sesgo multilingüe & Guardrails y evaluación de seguridad - Noticias de Hacker News (19 feb 2026)
No transcript for this episode yet
Similar Episodes
No similar episodes found.