#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的 episode artwork

EPISODE · Apr 30, 2026 · 1H 32M

#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的

from 跨国串门儿计划

📝 本期播客简介本期我们克隆了硅谷硬核科技播客《Dwarkesh Patel》How GPT-5, Claude, and Gemini are actually trained and served – Reiner Pope嘉宾 Reiner Pope 是芯片初创公司 Maddox 的 CEO,更早之前曾在谷歌负责 TPU 架构设计。整期节目采用“黑板讲座”的形式,Reiner 从最基础的 roofline 模型出发,一步步推导出批次大小如何影响大模型推理的延迟与成本,揭示了“内存墙”为什么是上下文长度的真正枷锁。他还结合 Gemini、DeepSeek 等前沿模型的公开定价,反向推算出隐藏的技术架构,甚至连 KV 缓存存储在哪一层内存都能猜出来。对话后半段更跨界到密码学,探讨神经网络与密码协议在结构上的惊人相似。这是一堂 AI 基础设施的实战大师课,听完你会对“为什么 API 定价是这样”“为什么模型扩展变慢了”这些问题豁然开朗。👨‍⚕️ 本期嘉宾Reiner Pope,AI 芯片公司 Maddox 的创始人兼 CEO,曾在谷歌领导 TPU 架构设计,对分布式训练、推理系统和芯片设计有极其深厚的工程与研究积淀。他还是《Scaling》一书的作者。⏱️ 时间戳开场与技术形式00:00 Yikai 开场及节目介绍01:26 Dwarkesh 介绍嘉宾与“黑板讲座”设置Roofline 模型与批次大小的艺术02:53 为什么要从“批次大小”开始?它对延迟和成本的决定性影响04:33 批处理为什么能节省上千倍成本?07:04 一张延迟图看懂内存时间与计算时间的平衡10:25 稀疏注意力与最优批次大小的代数推导12:00 单用户推理为什么贵?成本曲线揭示的无穷大起点15:20 最优批次大小≈300×稀疏度,一个跨硬件稳定的常数17:08 推理引擎的“火车模型”:每 20 毫秒固定发车19:35 从每秒 12.8 万 token 反推前沿模型的多大用户量21:38 增加稀疏度划算吗?《路由语言模型统一法则》告诉你答案模型架构与硬件拓扑24:15 混合专家层如何分片到 GPU 机架上27:47 机架内的 NVLink 高速网络与机架间慢八倍的“瓶颈”32:33 为什么 GPT‑4 之后模型规模扩展变慢了?不是计算,是内存容量在等机架35:40 流水线并行真的省了内存吗?通信模式的代数拆解39:45 流水线气泡:训练中的微批次权衡与推理中的“不费脑”设计内存墙、过度训练与规模法则45:12 内存容量真的过剩吗?为何大家还在砸钱买 HBM?49:03 为什么流水线并行对 KV 缓存无效?内存容量的死结52:00 过度训练 100 倍?从 Chinchilla 最优到真实世界的偏离58:23 预训练、强化学习与推理 token 的最优成本分配01:04:24 惊人反推:预训练数据量其实约等于模型整个生命周期的推理 token 数从 API 定价反推技术架构01:05:26 Gemini 长上下文加价 50%的硬件解释01:09:50 价格如何泄露秘密:每个 token 的字节数、KV 缓存大小都能算出来01:12:47 输出 token 为什么比输入贵 5 倍?解码与预填充的内存带宽真相01:14:51 KV 缓存命中便宜 10 倍:HBM、DDR 与机械硬盘的角色分配01:22:00 5 分钟 vs 1 小时:定价时长正好对应闪存与机械硬盘的“排空时间”交叉学科火花01:24:17 神经网络与密码学:同样的“混合”结构,相反的训练目标01:27:06 对抗攻击与后门:神经网络里的“雪崩效应”01:28:45 从密码学借来的可逆网络:用计算换内存,反向传播不用存激活值结尾01:30:50 结语与致谢🌟 精彩内容💡 “火车模型”:理解推理延迟的钥匙Reiner 把大模型推理比作固定时刻表的火车:每 20 毫秒发车一次,能上多少用户就上多少。这直接解释了为什么多付钱可以得到更快流式输出的“快速模式”,以及为什么存在“慢速模式”都无法突破的成本下限。🛠️ 内存墙:限制上下文长度的真正元凶“内存墙没有真正的解决方案”,Reiner 直言。通过 roofline 分析,他展示了为什么超出 20 万 token 左右后成本会急剧上升——不是因为算力不够,而是因为内存带宽被 KV 缓存吃满。这也是 Gemini 等模型长上下文定价加价 50%的根本原因。🚀 用公开价格反推绝密架构Reiner 现场演示了如何通过 API 每百万 token 的定价,推导出模型中每 token 的 KV 缓存字节数(约 2KB)、注意力头的维度,甚至推断出缓存是放在 HBM、DDR 还是机械硬盘里。一堂震撼的技术情报分析课。💻 批次大小:从千倍成本差到硬件常数如果不做批处理,单用户推理的成本可能比批处理高上千倍。而最优批次大小竟然可以通过一个简单的硬件常数(算力 / 内存带宽)乘以模型稀疏度直接估算出来,这个常数在不同 GPU 世代间保持惊人稳定。❤️ 密码学与神经网络:同构的两面神经网络通过梯度下降学习结构,密码学却拼命制造随机性的“雪崩效应”。Reiner 指出,这恰恰是同一个混合架构的两个极端用途,而可逆网络正是从密码学中借来、用于节省训练内存的巧妙设计。🌐 播客信息补充本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的使用 AI 进行翻译,因此可能会有一些地方不通顺;如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight在小宇宙查看该单集文稿

NOW PLAYING

#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的

0:00 1:32:44

No transcript for this episode yet

We transcribe on demand. Request one and we'll notify you when it's ready — usually under 10 minutes.

第一次播音 北京时间 06:00-07:00 RFI - 法国国际广播电台 收听法广政经、社会、环保、文化、艺术等新闻与专栏节目,了解法国、中国与世界大事。 安静低调⚠️不要在国内平台评论区提及本站 会被封⚠️《必听推荐》在简介❗️新剧等完结 ♠️♥️ ❗️如果播到一半没声 先搜“补档➕剧名”关键词❗️⚠️《不是推剧》的剪辑 ,听了、但是不推荐此剧。❤️推荐剧集会明确标注🚗除了正剧外,搜“停车场(或emoji 车)”关键词可获得🛏床戏CUT2026 听剧记录📝【💯 “六边形”:剧情➕后期➕配音➕主旨➕电影质感】【按题材分类⬇️】🌟【剧情片,群像 、冒险 、悬疑 、解锁地图…🌍】魂兵之戈、欢迎进入梦魇直播间、地球上线、网易☁️『孙美琪疑案』赵路 魏超 8082 Audio制作(打造《黑神话·悟空》《诡秘之主》等作品)魔尊也想知道、🌟【立意佳,精美文艺电影,情绪沉浸,值得细品~🎬】入戏【🐱有声剧】、酒徒、南方海啸、反向驯养(余昊威 刘思岑)、男妾生存法则(遇神后期团队)🦊、遇蛇广播剧***、铜钱龛世、***《遇神《二锅水《画外空间《不对付《唇间 《人偶…后期老师制作➕《太傅他人人喊打》云耶山耶工作室出品:【遇蛇广播剧】(主役赵毅大昕,配角🈶️顺子、三石、小红…)🌟【立意佳,感动满满、落地生活感 | 生命话题,纪实片质感🎬】地中行、抱抱🐱(刘一鸣 x 斑马)、江医生怀了死对头的崽、回到民国当导演、糊口(徐宇隆 x 胡良伟)、指尖温度、===============以上全肯定/二刷起步/引人思考/超级触动=====================搞笑到抽象👍一口气听完了笑疯了《大家好,我和男二在一起了》(彭尧 x 风允之)【剧情超级精彩👍 一口气听完,后期不错🌟】黑天[木苏里]、限时狩猎({将进酒}唐酒卿原著)、全球高考、残次品、无限练习生、桐花中路私立协济医院怪谈、暗界神使、C 语言修仙、【剧情精彩👍】分区:【有创意👍都市风水/轻冒险,偏治愈+逗趣】貔貅饭馆只进不出【网易☁️】(小红 x 斑马)、👍装死拯救不了世界(徐宇隆 x Albert英语研习社 Albert英语研习社 欢迎关注微信公众号「Albert英语研习社」获取节目文本和更多原创英语学习内容。 关于Albert ●没有名牌大学背景,没有英语专业背景 ●没有国外留学经历,没有英语生活环境 ●22岁成为500强公司英文讲师,录音素材全球员工使用 ●24岁自学成为同声传译 ●25岁为瑞士总统翻译 BabyBus | 宝宝巴士·国学儿歌 | 唐诗三百首 BabyBus 国学唱出来,好听又好记!和奇奇妙妙一起唱国学儿歌——让宝宝快乐启蒙!国学唱出来,好听又好记!让宝贝在潜移默化中记住唐诗、宋词、汉乐府、三字经等国学经典,和奇奇妙妙一起唱国学儿歌,领略经典的魅力!* 古诗词儿歌:有唐诗、宋词、汉乐府,从简单到复杂,从五言到七言,童音吟唱三遍+童音诵读一遍,让宝贝爱上古诗词!* 三字经儿歌:奇奇和妙妙把《三字经》唱出来,非常适合低幼小朋友识记。小朋友不用刻意...<p data-flag="normal" style

Frequently Asked Questions

How long is this episode of 跨国串门儿计划?

This episode is 1 hour and 32 minutes long.

When was this 跨国串门儿计划 episode published?

This episode was published on April 30, 2026.

What is this episode about?

📝 本期播客简介本期我们克隆了硅谷硬核科技播客《Dwarkesh Patel》How GPT-5, Claude, and Gemini are actually trained and served – Reiner Pope嘉宾 Reiner Pope 是芯片初创公司 Maddox 的 CEO,更早之前曾在谷歌负责 TPU 架构设计。整期节目采用“黑板讲座”的形式,Reiner 从最基础的 roofline...

Can I download this 跨国串门儿计划 episode?

Yes, you can download this episode by clicking the download button on the episode player, or subscribe to the podcast in your preferred podcast app for automatic downloads.
URL copied to clipboard!