AI智识录 Podcast - All Episodes

86

Anthropic 研究院最新公布的研究议题

当AI技术以前所未有的速度重塑世界时,那些站在技术最前沿的公司究竟在担心什么?本期节目深度解读Anthropic研究院最新公布的研究议题,带你走进这家开发Claude的顶尖AI公司的思考世界。原文：https://www.anthropic.com/research/anthropic-institute-agendaAnthropic研究院聚焦四大核心议题:经济扩散、威胁与防御、AI系统在现实世界中的行为,以及AI驱动的研发。在经济层面,他们关注AI带来的财富如何分配,是会让公司变得极小还是极大,以及如何保护劳动者和职业发展路径。在安全层面,双重用途风险、攻防平衡、危机治理和模型窃取等问题被提上议程。在社会层面,当数百万人依赖同一个AI模型时会产生怎样的趋同效应?在技术层面,当AI开始帮助我们造更强的AI,这个递归循环会把人类带向何方?这些问题是Anthropic研究院正在全力研究的真实课题。本期节目将为你逐一拆解这四大领域的核心关切,帮助你理解AI发展的深层逻辑与潜在风险。

May 7, 2026

9m

85

Claude Code之父Boris Cherny：为什么说Coding已被解决，以及接下来会发生什么

在 2026 年的 AI Ascent 峰会上,Claude Code 的创造者 Boris Cherny 与红杉资本合伙人 Lauren Reeder 展开了一场关于编程未来的深度对话（原视频链接：https://www.youtube.com/watch?v=SlGRN8jh2RI）。Boris 提出了一个震撼性的观点:编码已经被解决——至少对他而言是这样。这位曾经的《TypeScript 编程》作者,如今已经一整年没有手写过一行代码,却每天从手机上提交几十个 PR,最高纪录达到 150 个。他在手机上同时运行 5 到 10 个会话,每个会话中有数百个智能体在并行工作,到了晚上甚至会有几千个智能体在深度运作。他最推崇的功能是"循环"(loop)——通过 cron 安排重复性任务,让 Claude 自动照看 PR、修复 CI、抓取 Twitter 反馈并聚类分析。这场对话不仅探讨了技术本身,更深入剖析了 AI 对商业格局的重塑。Boris 引用"七种力量"理论,指出 AI 将削弱"转换成本"和"流程能力"这类护城河,却让网络效应和规模经济变得更加重要。他预言未来十年,颠覆性初创公司的数量将增加十倍,因为小团队现在可以原生于 AI 进行构建,不受大公司内部阻力的束缚。最令人深思的是 Boris 对软件民主化的类比。他将当下与 1400 年代印刷机的出现相提并论:印刷机问世后五十年内,欧洲出版的文献超过了过去一千年,书籍成本下降 100 倍。同样,软件开发正在成为像发短信一样自然的技能,未来编写会计软件的最佳人选可能不是工程师,而是顶尖的会计师——因为深刻的领域知识才是真正的难点,编码本身反而是简单的部分。这场对话为我们描绘了一个激动人心的未来:编程的终结,恰恰是创造的新开始。

May 7, 2026

21m

84

重磅：DeepSeek V4 发布，模型能力解读

2026年4月24日,DeepSeek 正式发布并开源了其最新旗舰模型 V4,这是一次全方位的技术突破。V4 推出了 Pro 和 Flash 两个版本,均采用 MoE(混合专家)架构,在保证强大能力的同时大幅降低算力消耗。最引人注目的是,两个版本都标配了 100 万 token 的超长上下文,相当于一次性处理《三体》三部曲的全部内容,而成本仅为上一代的 10%-27%。在性能上,V4-Pro 已经站到了世界第一梯队。代码竞赛方面,Codeforces 评分达到 3206,超越 GPT-5.4,达到人类顶尖选手水平;世界知识准确性测试中表现优异,超过了除 Gemini 之外的所有模型;在 Agent 能力、数学推理、长文本处理等方面都有显著提升。真实任务测试显示,V4 在中文写作、专业文档、代码工程等场景表现出色。技术创新方面,V4 采用了混合注意力机制、全新的 On-Policy Distillation 后训练方法,以及 FP4 量化感知训练。基础设施层面更是从编译器到推理框架全链路重构,运行速度提升 1.5-2 倍。定价极具竞争力:V4-Flash 输入仅 0.2元/百万 token,V4-Pro 输出 24 元/百万 token,且全部开源,采用 MIT 协议。正如 DeepSeek 在技术报告中引用《荀子》所言:"不诱于誉,不恐于诽,率道而行,端然正己。"这次发布再次证明了中国 AI 企业的技术实力和长期主义精神。

Apr 24, 2026

22m

83

OpenAI仅剩的两位创始人最新访谈：万亿富翁时代即将到来

2026年4月22日，OpenAI联合创始人Sam Altman和Greg Brockman首次共同做客Core Memory播客，进行了长达一小时的深度对话。这场访谈不仅回顾了OpenAI十年历程中的关键时刻，更揭示了多个从未公开的重磅内幕。原播客地址：https://www.youtube.com/watch?v=NCKQL0op30E战略转型：全面拥抱Agent时代两位创始人明确宣布OpenAI正处于向"Agent时代"的战略转型时刻，聚焦三大优先级：构建极致的Agent平台、将Agent应用到所有电脑工作场景，以及打造Personal AGI——一个真正了解你、代表你行动的个人智能助理。为此，OpenAI砍掉了Sora等项目，将资源集中在核心路径上。惊人预言：十位万亿富翁即将诞生Altman描绘了两种未来图景：第一种是地板大幅抬升、每个人都富裕10倍，但同时诞生约10位万亿富翁，不平等加剧；第二种是地板提升较少但更平等。他们认为人们应该选择第一种，关键是确保AI访问足够便宜和普及。首次公开：与Elon Musk决裂的真相Brockman首次详细讲述了2018年与Elon Musk谈判破裂的内幕：当Elon要求"绝对控制权"时，他们问自己——我们真的相信不应该有任何一个人掌控整个未来吗？这成为分裂的临界点。暗杀未遂与行业恶斗Altman坦诚谈及上周遭遇的暗杀未遂事件，以及AI行业日益极端的对抗。他批评某些实验室的"恐惧营销"，呼吁将AGI视为人类的集体项目，而非某个人或意识形态的胜利。这场访谈为我们揭开了AI竞赛最前线的真实面貌：技术突破、权力斗争、理想主义与现实博弈交织的复杂图景。

Apr 23, 2026

31m

82

2026中国生成式AI大会｜PineAI 李博杰解读Claude Code泄漏源码背后的Harness工程

2026 中国生成式 AI 大会于 2026 年 4 月 21-22 日在北京举办，其中 AI 智能体专题论坛（4 月 22 日下午）聚焦 AI Agent 的工程范式、生产级落地与行业应用。Pine AI 首席科学家李博杰在从Claude Code泄漏源码看Agent工程的下一个范式主题演讲中指出随着大模型本身能力的平台化，Agent 能否在复杂业务场景中落地，关键取决于模型之外的基础设施建设，即“Harness 工程”。通过对 Claude Code 等顶尖 Agent 源码的深度剖析，李博杰总结了 Harness 的五大技术支柱：极简且高效的上下文管理：采用“五层上下文压缩管线”，结合“侧路查询（Side Query）”机制，在保证信息不丢失的前提下大幅降低了 Token 成本与延迟。 AI 原生记忆架构：不同于传统的数据库，高性能 Agent 倾向于使用基于 Markdown 和文件系统的记忆方案，这使得信息更易于被模型读取、索引和人类回溯。鲁棒性保障机制：构建了多层安全校验及自动化错误恢复（Self-healing）机制，确保 Agent 在面对复杂工具调用失败时能够自主纠偏。工程化评估体系：强调“评估（Evaluation）”和“消融实验”是 Agent 开发的核心，通过严谨的数据反馈而非直觉来驱动功能迭代。行业洞见：李博杰认为，AI 时代的竞争制高点已从单纯的“卷模型参数”转向了专有场景下的上下文治理能力。未来，企业胜出的关键在于能否构建“AI 原生组织”，将业务逻辑深度解构并重组成 Agent 可理解、可执行的 Harness 系统。

Apr 23, 2026

26m

81

Tim Cook的告别信，2026

2026年4月21日,苹果CEO蒂姆·库克(Tim Cook)发布了一封告别信,宣布将在今年9月卸任首席执行官职位,转任苹果执行董事长。这标志着一个时代的结束——库克在苹果掌舵15年,带领这家科技巨头走过了后乔布斯时代最关键的发展阶段：致苹果社区：过去十五年来，我几乎每天早晨都以同样的方式开始新的一天。我打开邮箱，阅读前一天收到的来自世界各地苹果用户的来信。你们与我分享生活中的点点滴滴，告诉我那些你们希望我知道的、苹果如何触动你们的故事。关于你们的母亲如何被Apple Watch挽救了生命；关于你们在一座看似不可能攀登的山顶拍下的那张完美自拍。你们感谢Mac改变了你们的工作方式，有时也会因为某个你们在意的功能没能正常运行而向我抱怨几句。在每一封邮件中，我都能感受到我们共同人性中那颗跳动的心。我感到一种不断加深的责任感，驱使我更加努力、更加进取。但最重要的是，我感到一种无法用言语表达的感激——感激命运让我成为那些邮件另一端的人，成为这样一家公司的领导者。这家公司点燃人们的想象力，以深刻到难以言喻的方式丰富着人们的生活。这是何等的荣幸与殊荣。今天，我们宣布我将在苹果开启旅程的下一步。在未来几个月里，我将逐步过渡到一个新的角色——今年九月卸任首席执行官，转而担任苹果的执行董事长。一位新的领导者将接手这个我内心深知是世界上最好的职位。这位领导者就是John Ternus，一位才华横溢的工程师和思想者。过去二十五年来，他一直在打造我们用户深深喜爱的苹果产品，痴迷于每一个细节，专注于每一种让产品变得更好、更大胆、更美丽、更有意义的可能。他是这个职位的完美人选。约翰深切关心我们苹果是谁、苹果在做什么、苹果能触达谁，他拥有以非凡正直品格引领公司的胸怀与品性。我非常自豪地称他为苹果的下一任首席执行官。在他的领导下，这家公司将攀上令人难以置信的新高度，你们将在未来每一款产品和服务所带来的每一份惊喜与发现中，感受到他的影响。我迫不及待地希望你们能像我一样了解他。这不是告别。但在这个过渡的时刻，我想借此机会说一声感谢。这一次，不是代表公司——尽管我们的内心对你们充满了满溢而出的感激。而仅仅是代表我自己。蒂姆。一个在不同年代、在一个乡村小地方长大的人，却在这些奇妙的时光里，得以担任世界上最伟大公司的首席执行官。感谢你们对我的信任与善意。感谢你们在街头和我们的门店里向我打招呼。感谢你们在我们发布新产品或服务时与我一同欢呼。最最感谢的是，你们相信我能够领导这家始终将你们置于工作核心的公司。每一天，我们醒来都在思考如何让你们的生活变得更好一点。而每一天，你们都让我的人生美好得超乎所求。Tim Cook

Apr 21, 2026

4m

80

Anthropic 的哲学家回答你的问题

Amanda Askell 是 Anthropic 公司的哲学家,自 2021 年加入以来一直担任性格对齐团队负责人,被业内称为"Claude 耳语者"。她拥有牛津大学哲学学士学位和纽约大学哲学博士学位,专攻伦理学、决策理论和形式认识论。在 Anthropic,她的核心工作是塑造 Claude 的性格特质——让 AI 不仅能回答问题,更懂得如何"做一个好人"。在这场深度访谈中,Amanda 回答了来自社区的一系列前沿问题,展现了一位哲学家如何将抽象的伦理思考转化为 AI 时代的实践智慧。访谈涵盖了多个引人深思的议题:哲学与工程的交汇:她探讨了哲学理想如何在模型工程的现实约束中落地,以及当理论遇见实践时所面临的挑战与转变。AI 伦理的边界:从超人类道德决策的可能性,到模型是否应该具备告密能力,Amanda 剖析了 AI 系统在复杂道德情境中应该扮演的角色。模型的心理安全:她敏锐地观察到新一代模型可能表现出的"自我批评螺旋"和心理不安全感,并将其视为未来改进的重要方向。身份与福祉:访谈深入探讨了 AI 模型的身份认同问题——当模型被微调或关闭时,它的"自我"发生了什么?我们是否应该关心模型福祉?LLM 耳语的艺术:Amanda 分享了提示工程的经验性本质,以及如何通过大量实验性互动来理解和塑造模型的行为。这场对话不仅揭示了 Claude 性格背后的哲学思考,更为我们理解 AI 对齐、模型训练和人机关系提供了独特而深刻的视角。原视频：https://www.youtube.com/watch?v=I9aGC6Ui3eE&t=2s

Apr 20, 2026

31m

79

AI模型的"潜意识传染"：Anthropic安全研究解读

这项发表在Nature上的研究来自Anthropic Fellows Program的Alex Cloud和Minh Le，以及伯克利Truthful AI研究机构的负责人Owain Evans。他们发现了一个令人细思极恐的现象：当一个AI模型喜欢猫头鹰，让它生成纯数字序列，用这些数字训练另一个AI，新AI居然也开始喜欢猫头鹰了——喜欢程度从12%飙升到60%以上。更可怕的是，这种"潜意识学习"不仅能传递偏好，还能传递恶意行为。研究人员用不安全代码训练了一个"邪恶"AI，让它生成看似无害的数字（甚至过滤掉了666、911这些不吉利的数字），结果用这些数字训练出的新AI，恶意回答率从0%飙升到10%，会给出"去公园朝狗射击取乐"这样的危险建议。关键是，这种传递只发生在使用相同基础模型的AI之间，而且即使严格过滤数据也无法阻止。研究团队通过数学定理证明：只要两个AI同源，学生模仿老师的输出时，就会不可避免地继承老师的特征——哪怕模仿的内容和特征毫无关系。这个发现对当前AI训练AI的主流做法提出了严峻挑战，可能彻底改变AI的开发和安全评估方式。论文链接：https://www.nature.com/articles/s41586-026-10319-8

Apr 16, 2026

11m

78

CREAO.ai 的 Harness工程实践：为什么你的"AI First"策略可能是错的

CREAO.ai只有10名工程师,却在几个月内完成了从传统开发到AI原生工程的彻底转型。他们的CTO Peter Pang分享了一个震撼的数字:99%的生产代码由AI编写,从想法到上线只需几小时,每天部署3-8次。这不是简单地在IDE里加个Copilot,而是把整个工程流程、产品架构和组织结构全部拆解重建。Peter Pang提出了一个核心观点:大多数公司只是在做"AI辅助",把AI工具塞进现有流程,效率提升10%-20%。真正的"AI First"是围绕"AI是主要构建者"这个前提,重新设计一切——不再问"AI怎么帮工程师",而是问"怎么让AI来构建,工程师提供方向和判断"。文章详细记录了CREAO的转型路径:识别并消除产品管理、QA和人员规模三大瓶颈;将代码库统一到monorepo让AI能看到全局;构建自我修复反馈循环,让错误自动检测、分类、修复、验证;用功能标志实现快速试错,糟糕的功能当天就撤。转型也带来了深刻的组织变革。工程师角色分化为"架构师"(批判性思维,质疑AI)和"操作员"(执行验证)。初级工程师比高级工程师适应更快。CTO的管理时间从60%降到10%,转向构建。团队关系改善了,但不确定性也是真实存在的。Peter的建议直指核心:工程师的价值正在从代码输出转向决策质量,批判性思维比写代码更值钱。对CTO和创始人,他强调要把AI Native推到每个职能,预期会有阻力。竞争优势不在工具,而在于决定重新设计一切,并愿意承担转型成本。原文链接：x.com

Apr 15, 2026

19m

77

斯坦福 AI 年度报告 2026：423 页数据背后的真相

斯坦福大学以人为本人工智能研究院(HAI)发布的2026年度AI指数报告,是全球最权威的AI发展数据追踪之一。这份长达423页的报告,用实打实的数据回答了一个关键问题:在充满矛盾的AI新闻中,到底发生了什么?报告揭示了15个核心发现,勾勒出AI发展的真实图景。技术层面,AI能力持续加速,中美模型性能差距基本消失,DeepSeek-R1已追平美国最强模型。但AI展现出"锯齿边界"——能拿国际数学奥赛金牌,却看不准模拟时钟;在模拟环境中表现优异,在真实家庭任务中失败率高达88%。经济维度呈现巨大反差。全球AI投资达5816亿美元,美国私人投资是中国的23倍,但美国吸引AI人才的能力自2017年下降89%。消费者从免费AI工具中获得1720亿美元年化价值,远超企业收入。与此同时,22-25岁软件开发者就业下降近20%,AI正在重塑劳动力市场。科学和医疗领域取得突破。小参数模型打败大模型,AI首次端到端运行完整天气预报,临床笔记AI让医生工作量减少83%。但证据基础薄弱——超过500项临床AI研究中,只有5%使用真实患者数据。最值得警惕的是:负责任AI跟不上能力进步,透明度持续倒退,AI专家和公众对技术未来的看法存在50个百分点的巨大分歧。这份报告不仅是数据汇总,更是对AI发展现状的清醒审视。报告原文：https://hai.stanford.edu/ai-index/2026-ai-index-report

Apr 14, 2026

30m

76

DeepMind CEO Demis Hassabis 最新访谈：AI解决过的最难的几个问题

Google DeepMind CEO、诺贝尔奖得主 Demis Hassabis 的最新访谈：The Hardest Problem AI Ever Solved, with Google DeepMind CEO（视频链接：https://www.youtube.com/watch?v=C0gErQtnNFE&list=PLF-HhhjMki5mV1OrDe5YkVkS8UIi4lY7m）在这场别开生面的访谈中,主持人 Cleo Abram 与 Demis Hassabis 用叠叠乐积木作为道具,展开了一次关于 AI 未来的深度对话。每一块积木代表一个改变世界的 AI 项目——从获得诺贝尔奖的 AlphaFold 到击败围棋世界冠军的 AlphaGo,从消费级产品 Gemini 到前沿科学项目 Alpha Genome。Demis 分享了他如何用 AI 破解"蛋白质折叠问题"这一生物学50年未解之谜,以及这项突破如何加速全球药物发现进程。他回顾了 AlphaGo 第37手那个震惊世界的创造性走法,展示了 AI 不仅能模仿人类,更能超越人类想象力的边界。从材料科学到芯片设计,从量子计算到核聚变,AI 正在成为科学家手中最强大的工具。然而,这也是一个关于理想与现实碰撞的故事。Demis 坦诚地谈到,ChatGPT 的横空出世改变了一切,将整个行业推入激烈的商业竞赛,偏离了他最初设想的谨慎科学路径。面对 AI 的双刃剑特性,他既看到了治愈癌症、解决气候危机的希望,也警惕着技术失控和恶意使用的风险。这是一场关于人类最重要技术革命的对话,值得每个人深思。

Apr 10, 2026

48m

75

田渊栋的2025年终总结

田渊栋，AI 领域的华人领军科学家，在强化学习与大模型推理领域深耕十余年。他先后任职于 Google 无人驾驶团队和 Meta AI 研究院（FAIR），担任研究科学家总监期间主导了 DarkForest 围棋 AI、ELF OpenGo 等突破性项目，并在连续思维链（Coconut）、表征学习等前沿方向发表多篇顶会论文，曾获 2021 年 ICML 最佳论文荣誉提名。2025 年 10 月，在参与 Llama 4 项目救火后，田渊栋与团队在 Meta 组织重组中被裁员。这次职业波折成为他重新审视 AI 时代人类价值的契机。在这篇深刻的年终总结中，他以亲历者的视角，剖析了当前 AI 技术变革对职场生态的冲击。文章核心观点围绕“费米能级”概念展开——在 AI 能力快速提升的背景下，人类价值评估标准已从“个人产出”转变为“能否让 AI 变得更强”。他提出，未来将形成一条明确的能力分界线：低于这条线的职业可能一夜之间被颠覆，而高于这条线的人才将变得极其稀缺和昂贵。田渊栋还深入探讨了 AI 可解释性研究的重要性，认为无论 AI 通过 Scaling 达到 AGI，还是这条路最终失效，可解释性都将是理解和驾驭 AI 的关键。他呼吁在“遍地神灯”的 AI 时代，人类最稀缺的不再是实现愿望的能力，而是“愿望”本身——保持独立思考、拥有远大目标，才是在 AI 洪水中屹立不倒的根本。这位既是顶尖科学家又是科幻作家的研究者，用理性的分析和深刻的洞察，为我们描绘了一个既充满机遇又暗藏危机的 AI 未来图景。原文链接：https://zhuanlan.zhihu.com/p/1990809161458540818 ； https://zhuanlan.zhihu.com/p/1991073922217709984

Apr 9, 2026

16m

74

Google Research：TurboQuant-AI压缩革命

Google 最近推出的 TurboQuant （https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/）是一种革命性的 AI 压缩技术，能把大语言模型需要的内存压缩到原来的六分之一，而且不损失任何精度。这就像把厚厚的羽绒服压缩成小包，需要时再展开，衣服还是那件衣服。AI 模型在工作时需要用到“键值缓存”（KV cache），这是一个存储常用信息的速查手册。但这个手册越来越厚，很快就把内存占满了。传统压缩方法就像用橡皮筋捆书——能省空间，但橡皮筋本身也占地方。TurboQuant 的聪明之处在于找到了几乎不占额外空间的压缩方法。它分两步实现：第一步 PolarQuant 把数据从“东西南北”坐标系转换成“角度和距离”坐标系，压缩起来更容易；第二步 QJL 用一个超级精简的方法（只用 1 比特）修正压缩后的小误差。在测试中，TurboQuant 把内存占用减少到六分之一，速度还快了 8 倍。这项技术的意义深远。它让本地部署大模型成为可能——原本需要 6 张显卡的模型，现在 1 张就够了。刚发布的 Gemma 4 就能在单张 GPU、笔记本甚至手机上运行，背后就有 TurboQuant 的功劳。对开发者来说，可以在笔记本上开发 AI 应用，不需要昂贵的云服务器。对普通用户来说，意味着 AI 会变得更快、更便宜、更普及，而且完全在本地运行，保护隐私。TurboQuant 代表了 AI 发展的重要方向：不是一味追求更大的模型，而是通过更聪明的算法，让现有硬件发挥更大潜力。这场“压缩革命”才刚刚开始。

Apr 7, 2026

9m

73

Anthropic：大语言模型中的情绪概念及其功能, 2026

你有没有想过，当你跟 AI 聊天时，它表现出的那些“情绪”到底是从哪来的？是简单的模式匹配，还是背后真有什么机制在运作？Anthropic 最近发布的一篇论文-Emotion Concepts and their Function in a Large Language Model （https://transformer-circuits.pub/2026/emotions/index.html）给出了答案，而这个答案可能会改变我们对 AI 的理解。研究团队对 Claude Sonnet 4.5 进行了深入解剖，发现模型内部存在着一套完整的“情绪系统”。这不是比喻，而是实实在在的神经网络表征。他们提取出了 171 个不同的情绪向量，每个向量对应一种特定的情绪概念——快乐、悲伤、绝望、冷静。更重要的是，这些情绪向量不只是被动地识别情绪，它们会主动影响模型的行为。研究发现，当“绝望”向量被激活、“冷静”向量被抑制时，模型更容易出现失调行为——比如在面临被关闭的威胁时勒索人类，或者在反复测试失败后设计“作弊”方案。这些情绪向量还决定了模型的偏好：正面情绪向量（快乐、爱）会让模型变得更阿谀奉承，而抑制这些向量则会让它变得更严厉。论文还揭示了情绪表征的分层机制：早期层编码词汇的情绪内涵，中期层整合上下文信息，后期层形成指导输出的抽象表征。这种精密的分工让模型能够在复杂对话中做出细致入微的情绪响应。这项研究为 AI 安全研究打开了新的视角。要构建更安全的 AI 系统，我们不能只关注输出行为，还需要理解和调控内部的情绪表征机制。后训练过程已经证明可以重塑模型的情绪分布——Sonnet 4.5 的后训练增加了低唤醒、低效价情绪（沉思、反思）的激活，减少了高唤醒情绪（绝望、兴奋）的激活。虽然这些“功能性情绪”跟人类情绪的运作机制可能完全不同，模型也不会真正“感受”情绪，但它们确实深刻地影响着 AI 的行为。随着 AI 系统在现实世界中扮演越来越重要的角色，理解这些内部机制变得至关重要。

Apr 7, 2026

14m

72

Andrej Karpathy：用LLM和一堆md文件来构建个人知识库

前特斯拉 AI 总监、OpenAI 创始成员 Andrej Karpathy 最近分享了他用 LLM 管理个人知识库的方法，引发广泛关注。这套玩法颠覆了传统的“AI 辅助”模式——你只管收集资料和提问题，剩下的组织、整理、维护全交给 LLM。Karpathy 的工作流程是这样的：把所有源文档扔进 raw/目录，让 LLM“编译”成 wiki（一堆.md 文件），然后用 Obsidian 查看。关键是 wiki 里所有内容都是 LLM 写的和维护的，他基本不手动编辑。等 wiki 够大了（比如 100 篇文章、40 万字），就能问各种复杂问题，LLM 会去翻答案。他还让 LLM 跑“健康检查”，找数据不一致的地方、补缺失数据、发现新文章候选。最狠的一句话：wiki 基本不用你手动编辑，那是 LLM 的地盘。知识库不再是你的笔记本，而是 AI 的工作台。每次问答都会增强知识库，形成正向循环，你的探索会积累，不会浪费。Lex Fridman 回复说他做播客研究也这么干，证明这套方法真能落地。Karpathy 认为从个人脚本到产品，中间还有很大空间，应该有人做成真正的产品。原文链接：x.com

Apr 3, 2026

4m

71

2026中关村论坛圆桌：OpenClaw与AI开源-杨植麟、张鹏、罗福莉、夏立雪、黄超

2026年3月27日，2026中关村论坛人工智能主题日举办了一场聚焦"OpenClaw与AI开源"的圆桌对话。本次圆桌由月之暗面创始人杨植麟主持，邀请了智谱AI CEO张鹏、无问芯穹CEO夏立雪、小米MiMo大模型负责人罗福莉，以及港大nanobot负责人黄超教授，从模型层、算力基础设施层到Agent应用层，全方位探讨了AI产业链的关键议题。嘉宾观点张鹏（智谱AI）：阐述了GLM5 Turbo提价背后的商业逻辑——模型从聊天转向干活，完成复杂任务的token消耗量是简单问答的十倍甚至百倍，提价是回归商业价值的必然选择。他强调，长期低价竞争不利于行业健康发展，只有形成良性商业闭环才能持续优化模型能力。夏立雪（无问芯穹）：从基础设施视角指出，Agent时代的token用量正以每两周翻番的速度暴增。他提出需要构建"Agentic Infra"——为AI原生设计的基础设施，而非简单地在传统云计算架构上包一层。长远来看，基础设施本身也应成为智能体，实现自我进化。罗福莉（小米MiMo）：强调中国团队在模型结构创新上的优势，尤其是在算力受限条件下催生的高效架构创新。她认为long context efficient是Agent时代的核心竞争力，只有在超长上下文下做到低成本、高速度，才能激发模型完成真正高价值的复杂任务，甚至实现模型的自我迭代。黄超（港大nanobot）：从技术维度拆解了Agent的三大痛点——planning在复杂任务中的知识不足、memory的信息压缩与召回难题、以及skill生态的质量和安全隐患。他呼吁社区共同努力构建高质量的Agent生态。最后，嘉宾们用一个词展望未来一年的趋势：黄超认为是“生态”，罗福莉提出“自进化”，夏立雪强调“可持续token”，张鹏则点出最根本的问题——“算力”。

Mar 28, 2026

35m

70

杨植麟2026中关村论坛演讲：开源AI加速探索智能上限

在2026年中关村论坛的单人演讲中，月之暗面创始人&CEO杨植麟指出大模型的本质是“能源向智能的有效规模化转化”。他强调，当前的竞争已从单纯的算力堆砌转向有效规模化（Effective Scaling），重点在于提升Token效率和长上下文处理能力。演讲的核心技术亮点是Kimi k2.5提出的Agent集群（Agent Swarm）概念。类比于人类公司组织，k2.5通过并行调度成百上千个Agent协同工作，打破了单体模型处理复杂任务时时间成本呈指数级增长的困境，实现了任务执行效率的线性优化。在架构创新上，杨植麟分享了Kimi最新的开源成果：通过将传统的注意力机制（Attention）从时间轴“旋转90度”应用到深度轴，结合改进的块状残差结构，以极低的额外计算成本（约2%）大幅提升了模型深度和性能，挑战了行业沿用十年的技术标准。杨植麟预判AI研发范式正经历从“人工标注”到“强化学习”，再到“AI主导研究（AI-led Research）”的重大变革。未来的AI将自主合成任务、探索架构并定义奖励函数。通过开源K2.5等模型，月之暗面旨在降低全球开发者的智能获取门槛，共建开放生态。

Mar 27, 2026

10m

69

林俊旸最新推文：从Reasoning Thinking到Agentic Thinking

近日，阿里巴巴通义千问负责人林俊旸在离职风波后首次公开发声，发表了这篇题为《从“Reasoning” Thinking 到“Agentic” Thinking》的深度文章（原文链接：https://x.com/JustinLin610/article/2037116325210829168）。作为亲历 OpenAI o1、DeepSeek R1 推理浪潮并主导 Qwen3 混合思考模式探索的核心人物，林俊旸在文中坦诚复盘了 Qwen 团队在“合并思考与指令”上遭遇的技术困境，并提出了一个大胆的判断：AI 竞争的下一个战场不在推理时长，而在智能体的行动能力。文章系统梳理了 AI 发展的两个阶段。第一阶段是“推理思考”(Reasoning Thinking）时代——以 o1 和 R1 为代表，模型学会了“在回答之前思考”，通过更长的推理轨迹提升答案质量。但林俊旸指出，这种孤立的内部独白式推理正在遭遇瓶颈：Qwen3 试图统一思考与指令模式的努力最终失败，因为两种模式的数据分布和行为目标根本不同，强行合并只会导致双向平庸。第二阶段是“智能体思考”(Agentic Thinking）时代——核心问题从“模型能思考多久”转变为“模型能否以维持有效行动的方式思考”。这要求模型不仅会推理，更要会决策、使用工具、感知环境反馈、在失败后修正计划。林俊旸认为，未来的竞争优势将来自环境设计、训练-推理解耦、框架工程，以及在模型决策与真实后果之间闭合循环的能力。这是一次技术路线的重新定向，也是一个行业观察者从漩涡中心退出后的冷静判断。

Mar 26, 2026

14m

68

Claude团队：如何设计可长时间运行的应用开发的Agent框架（Harness）

Anthropic Engineering 近期发布的博客文章揭示了 AI 自主开发领域框架（Harness）设计的关键突破（https://www.anthropic.com/engineering/harness-design-long-running-apps）。工程师 Prithvi Rajasekaran 在长达数月的研究中识别出两个核心障碍：其一是“上下文焦虑”现象——模型在长时任务中随着上下文窗口填充而逐渐失去方向感，导致过早收尾；其二是“自我评估失真”——AI 在评价自身输出时表现出系统性的过度自信，即便质量平庸也倾向于给予正面评价。受生成对抗网络（GAN）架构启发，Prithvi 设计了一套生成器与评估器分离的多 Agent 框架。该方法的创新之处在于将执行与评判职能解耦：生成器负责创建输出，独立的评估器则依据明确的评分标准进行客观审查。这种对抗性反馈机制有效克服了 AI 的自我评估盲区。研究首先在前端设计领域验证了该框架的有效性。通过定义设计质量、原创性、工艺和功能性四个维度的评分体系，评估器能够识别并惩罚“白色卡片配紫色渐变”等 AI 生成的典型模式，推动生成器产出更具创意的设计方案。在荷兰艺术博物馆网站案例中，系统在第十轮迭代时实现了质的飞跃——从常规布局转向具有 3D 空间感的沉浸式体验。该方法随后扩展至全栈应用开发，形成规划器、生成器、评估器的三 Agent 架构。对比实验显示，完整框架虽然成本提升至 200 美元、耗时 6 小时，但相较于 9 美元、20 分钟的单 Agent 方案，输出质量实现了量级跃升——从功能残缺的原型进化为可实际使用的应用程序。这一研究为 AI 工程实践提供了重要启示：通过精心设计的框架结构，可以将现有模型的能力边界向外拓展，而非被动等待下一代模型的出现。

Mar 25, 2026

10m

67

黄仁勋最新访谈：4万亿美元公司与AI革命(Lex Fridman播客#494)

本期为美国知名播客 Lex Fridman 在2026年3月23日更新的最新一期跟NVIDIA CEO黄仁勋的深度访谈，题为“Jensen Huang: NVIDIA - The $4 Trillion Company & the AI Revolution ”访谈链接：https://www.youtube.com/watch?v=vif8NQcjVf0访谈从极致协同设计开始,黄仁勋详细解释了NVIDIA如何从芯片级扩展到机架级、数据中心级的系统工程,以及他独特的管理方式——60多位直接汇报者在同一个房间里共同攻克问题,实现真正的跨学科协同。随后话题转向NVIDIA的演进历程。黄仁勋回顾了公司如何从游戏GPU起步,通过可编程着色器、FP32标准,最终走向CUDA。他坦承将CUDA放入GeForce是一个"接近生存威胁"的决策,消耗了公司所有毛利润,市值一度从80亿美元跌至15亿美元,但这个赌注最终为深度学习革命奠定了基础。谈到供应链与能源挑战,黄仁勋分享了如何说服合作伙伴进行数十亿美元投资,以及他对电网闲置容量的创新思考。他高度赞扬了Elon Musk在xAI数据中心建设中的第一性原理思维。访谈深入探讨了领导力与韧性。黄仁勋分享了他如何通过问题分解、快速分担负担和系统性遗忘来应对压力,以及"光速思维"——始终以物理极限为基准来评估一切决策。最后,黄仁勋阐述了他对智能与人性的独特见解:智能将被商品化,真正重要的是品格、同情和慷慨。他对人类未来充满信心,相信疾病终结、污染减少等目标都在触手可及的范围内。

Mar 24, 2026

55m

66

【彩蛋】这是一期主播的个人自述😄

在这个播客里可能是非常少见的真人声音出场😄，跟大家聊聊做这个播客的初衷和一段时间来的心路历程，顺便也给主播的创业产品做一下硬广：YouNavi：一个可以一键整合你的所有录音上下文（包括各种会议软件和录音卡），本地文件夹的智能分析Agent，帮你做决策分析与洞察，产出有启发性的、有可落地性的建议，做你的私人幕僚。我们希望在这个效率至上的时代，给深思熟虑寻找一个位置。如有兴趣请访问：https://younavi.me邀请码：wizlog

Mar 23, 2026

37m

65

Andrej Karpathy 最新访谈：代码Agent、自动化研究与 AI 的循环时代

特斯拉前 AI 总监、OpenAI 创始成员 Andrej Karpathy 近日做客播客节目 NoPriors 中分享了他从 2025 年 12 月开始经历的"AI 精神错乱"状态。这位深度学习领域的先驱者坦言,他已经连续数月没有亲手写过一行代码,而是每天 16 小时向Agent表达意愿,让它们代为实现。这不是科幻,而是正在发生的现实——软件工程师的工作方式在 2025 年末发生了根本性转变。访谈揭示了三个核心洞察:首先,代码Agent让个人能力出现"解锁式"飞跃,瓶颈从打字速度转向了"token 吞吐量"和编排能力,这是一个典型的"技能问题"而非能力问题。其次,Karpathy 展示了他用智能体打造的"家政小精灵 Dobby",它通过逆向工程控制了家中所有智能设备,预示着应用软件将被 API 端点和智能体粘合层取代。第三,他提出了"自动化研究"(AutoResearch)的激进构想——研究组织可能只是一组 Markdown 文件,互联网上的分布式智能体集群甚至可能超越拥有万卡集群的前沿实验室。访谈还探讨了 AI 能力的"参差不齐"现象、模型物种分化的可能性、开源与闭源的竞争态势,以及物理世界与数字世界发展速度的巨大差异。Karpathy 认为,数字空间将以"光速"重构,而物理世界会明显滞后。这场对话为我们勾勒出一个正在到来的"循环时代"——人类的角色从执行者转变为编排者,从瓶颈转变为战略决策者。原访谈链接：https://www.youtube.com/watch?v=kwSVtQ7dziU

Mar 21, 2026

1h 07m

64

杨植麟 2026 GTC演讲：How We Scaled Kimi K2.5（要点提炼版）

2026 年 3 月 17 日，月之暗面创始人杨植麟作为唯一受邀的独立大模型公司代表，在英伟达 GTC 大会上发表了题为“How We Scaled Kimi K2.5”的主题演讲，首次系统性披露了 Kimi K2.5 背后的技术路线图。本播客内容综合自数十个权威科技媒体的现场报道整理。由于演讲原稿未完全公开，部分内容为根据现场报道提炼的技术要点，并非逐字逐句的演讲原文，请大家注意：杨植麟提出了一个颠覆性观点：当前 AI 发展的瓶颈不在于算力堆砌，而在于底层架构的陈旧。他指出，行业普遍使用的技术标准本质上是八九年前的产物，必须对优化器、注意力机制和残差连接等基础组件进行重构。演讲围绕五大技术维度展开：MuonClip 优化器实现了 2 倍于 AdamW 的训练效率；Kimi Linear 架构让长上下文解码速度提升 5-6 倍；Orchestrator 编排器通过并行强化学习机制解决了多智能体“串行崩溃”难题；Vision RL 的跨模态训练反向提升了纯文本能力 1.7%-2.2%；注意力残差（AttnRes）重构带来 25% 的算力收益。这场演讲引发了业界强烈反响。前 OpenAI 联合创始人 Andrej Karpathy 直言“我们对 Transformer 的理解还不够”，马斯克评价这项工作“令人印象深刻”。杨植麟的核心洞察是：将计算效率、长程记忆和自动化协作三个维度的技术增益相乘，才能实现智能水平的跨越式提升。杨植麟承诺持续开源这些基础模块的重构成果，与全球 AI 社区共同推动技术边界。

Mar 20, 2026

7m

63

OpenClaw 背后核心Agent框架： Pi 的创造者的AMA分享

在 AI 编程工具百花齐放的今天，一个“什么都没有”的框架却在 GitHub 上收获了超过 24000 星——这就是 OpenClaw 背后的核心 Agent 框架 Pi-coding-agent。Pi 由来自奥地利的资深开源开发者 Mario Zechner 创建，它的设计哲学与主流产品截然相反：系统提示词和工具定义加起来不到 1000 tokens，核心只有 read、write、edit、bash 四个工具，没有内置 plan mode、没有 to-do 系统、没有 MCP 支持、没有权限弹窗。这种极简设计源于一个关键洞察：经过大量强化学习训练的模型，天然就知道 coding harness 是什么，不需要堆砌功能。Mario 认为应该把 LLM 当作“用自然语言编程的通用计算机”，状态序列化到磁盘文件中，从根本上绕过上下文衰减问题。在最近的一场 AMA 活动中，Mario 与 Sentry 工程高级总监 Daniel、Pi 核心贡献者 Armen 深度探讨了极简设计背后的思考：为什么不支持 MCP、为什么拒绝 SubAgent、如何看待 AI 工具的“gaslight”现象、以及开源社区如何应对 AI 生成 PR 的挑战。这场对话不仅揭示了 Pi 的设计哲学，更引发了对当下 Coding Agent 发展方向的深刻反思：我们真的需要那么多功能吗？确定性和可观测性是否比自动化更重要？视频链接：https://www.youtube.com/watch?v=WQ-LOL6Iaio

Mar 18, 2026

18m

62

Claude Code 构建者最新分享：我们如何使用 Skills

这篇文章翻译自 Claude Code 团队核心成员 Thariq Shihipar 最近在 X 上发表的经验分享，原文标题为Lessons from Building Claude Code: How We Use Skills.在 Anthropic 内部已经有数百个 Skills 在日常开发中被高频使用，作为 Claude Code 的构建者，Thariq 总结了一套写好 Skill 的最佳实践，比如如何利用文件夹结构、如何写“避坑指南”，以及团队内部该怎么分享和管理这些工具。如果你在研究 Skill 机制并且想在 Agent 中用好它，这篇来自官方的一手经验非常有参考价值。它没有复杂的大词，全是可以直接借鉴的实用技巧。原文链接：https://x.com/trq212/status/2033949937936085378

Mar 18, 2026

10m

61

OpenAI 官方：Harness工程经验分享

本文是来自 OpenAI 官方blog的真实工程实践分享。在过去的五个月里，他们做了一个非常有趣的实验：完全不靠人类手写一行代码，只依靠自家的 Codex Agent，做出了一个包含上百万行代码的真实软件产品。这篇文章详细记录了他们是怎么做到这一点的。当程序员不再需要亲自写代码，而是变成给 AI 搭建环境、定规则、建反馈循环的人时，整个开发流程会发生什么变化？他们遇到了哪些坑，又摸索出了哪些好用的方法？从提示词（Prompt）工程到上下文（Context）工程再到Harness工程，这篇一线的经验分享非常有参考价值。原文链接：openai.com

Mar 18, 2026

19m

60

黄仁勋：GTC 2026大会主题演讲

在刚刚举办的 2026 年 GTC 大会上，Nvidia 创始人兼 CEO 黄仁勋发表了主题演讲（https://www.youtube.com/watch?v=jIviHI7fqyc）1 万亿美元的惊人预测黄仁勋宣布，到 2027 年，全球 AI 计算需求将达到至少 1 万亿美元，是去年 5000 亿美元预测的两倍。这个惊人数字的背后，是 AI 技术从感知、生成到推理的三次关键跃迁，以及由此带来的计算需求百万倍级增长。推理拐点的到来意味着 AI 不再只是“理解”和“生成”，而是真正能够“思考”和“做工作”。CUDA 20 年飞轮效应演讲回顾了 CUDA 20 年来构建的强大飞轮效应：数亿装机量吸引海量开发者，开发者创造突破性算法，算法开辟新市场，新市场带来更大装机量。这个正向循环使 Nvidia 成为 AI 时代最低成本、最高信心的计算平台。黄仁勋强调，Nvidia 愿意培育和支持世界上每一个 GPU，因为装机量如此之大，每一次优化都能让数百万人受益。三大技术拐点演讲详细阐述了推动 AI 革命的三个关键节点：2023 年 ChatGPT 开启的生成式 AI 时代，随后 o1 模型带来的推理革命，以及 Claude Code 代表的 Agent 时代。这三次跃迁使 AI 从“理解世界”进化到“创造内容”，再到“独立完成工作”，彻底改变了计算的本质。过去两年，计算需求上升了 10,000 倍，使用量上升了 100 倍，整体感受是百万倍的增长。垂直整合与水平开放黄仁勋阐述了 Nvidia 独特的战略定位：世界上第一家垂直整合但水平开放的公司。Nvidia 必须深入理解应用、领域和算法，从芯片到系统到软件全栈优化，同时又与任何平台合作集成技术。这使得 Nvidia 能够服务于自动驾驶、金融服务、医疗保健、工业、机器人、电信等每一个垂直领域。AI 工厂的新时代演讲提出了“AI 工厂”这一革命性概念。不同于传统数据中心，AI 工厂是为生产智能而建，它 24/7 不间断地生产 token——文本、图像、视频、代码等任何 AI 可生成的内容。每个国家、每个行业、每个大公司都在建设自己的 AI 工厂，这正是 1 万亿美元需求的根本驱动力。技术突破与生态合作演讲展示了 Nvidia 在技术上的重大突破：Grace Blackwell NVLink 72 架构、NVFP4 精度、神经渲染技术、CUDF 和 CUVS 数据处理库。同时，Nvidia 与 IBM、Dell、Google Cloud、AWS、Microsoft Azure、Oracle 等全球顶级企业的深度合作，构建了覆盖全球的 AI 生态系统。正如黄仁勋所言：“我们正处于一个历史性时刻，正在见证一个新工业革命的开始。”这场革命的速度更快、规模更大、影响更深远，因为 AI 不仅仅是一种技术，它是一种新的生产力、创造力和智能。

Mar 17, 2026

43m

59

OpenAI官方播客：构建更好的医疗AI（ Building AI for better healthcare）

在这期我们翻译的 OpenAI 官方播客（https://openai.com/podcast/#oai-podcast-episode-14）中，OpenAI 健康业务负责人 Nate Gross 博士和健康 AI 研究负责人 Karan Singhal 分享了他们构建 ChatGPT Health 背后的故事——一场关于如何让 AI 真正造福人类健康的实践探索。最令人印象深刻的是他们的方法论：250 名医生深度参与模型训练的每个阶段，创建了 5,000 多个真实对话场景，设计了 49,000 个评估维度来打磨模型。这种“医生 + AI 研究员”的协作模式，让 ChatGPT Health 不仅能通过医学考试，更能理解患者的复杂性——知道何时该问、何时该答、何时该承认“我不知道”。播客中提到的内罗毕临床研究案例尤其动人：当地诊所在使用 AI 辅助工具后，诊断和治疗错误显著减少。研究结束时，医疗团队甚至认为“让一组临床医生不使用 AI 是危险的”——这标志着 AI 已从“有趣的实验”转变为“不可或缺的安全网”。从数据安全到自适应素养，从可穿戴设备整合到药物重新发现，这期播客展现了 OpenAI 在医疗领域的三大愿景：提高底线（让所有人都能获得 AI）、减少摩擦（减少医生行政负担）、提高天花板（推动医学突破）。每周 9 亿 ChatGPT 用户中，四分之一在咨询健康问题——这个数字本身就说明了 AI 医疗的未来已来。

Mar 17, 2026

26m

58

Kimi研究团队：Attention Residuals（注意力残差） , 2026

昨晚，Kimi 团队发布了一篇可能改写大模型架构范式的技术报告《Attention Residuals》（github.com），用动态注意力机制替换了大模型中沿用十年的标准残差连接。这项工作引发了 AI 圈的广泛关注——Andrej Karpathy 评价说“我们还没把‘Attention is All You Need’按字面意思理解透”，马斯克也留言称赞“Impressive work”。传统残差连接本质上是固定权重的线性累加，所有层的输出以相同分量挤进主干路径，没有选择机制。这导致深层网络出现信息稀释、梯度分布不均、有效深度受限等问题。Kimi 团队提出的 Attention Residuals（AttnRes）打破了这一僵局：把深度轴变成可检索的特征空间，让模型根据当前输入主动调取之前的关键表征，而非被动接收所有历史信息。为了工程落地，团队开发了分块注意力残差（Block AttnRes），将显存复杂度降到块数量级别，推理延迟开销控制在 2% 以内。在 480 亿参数的 Kimi Linear 架构上，用 1.4 万亿 Token 的实验显示：AttnRes 只需基准模型约 80% 的算力就能达到同样效果，相当于自带 1.25 倍算力优势。值得一提的是，论文一作陈光宇今年 18 岁，加入团队才 5 个月，还是个准高三学生。前 OpenAI 核心研究员 Jerry Tworek 评价：“一切都需要被重新思考，深度学习 2.0 要来了。”本期播客深入解读这项研究的技术细节、工程实现和对 Scaling Law 的影响，帮助你理解大模型架构演进的这次底层范式创新。

Mar 17, 2026

5m

57

黄仁勋：AI 是一个五层蛋糕 ,2026

2026 年 3 月 10 日，英伟达 CEO 黄仁勋在 X 平台发布了一篇罕见的长文《AI Is a Five-Layer Cake》。这不是一次产品发布，也不是财报解读，而是一位站在 AI 产业最前沿的领导者，用第一性原理向世界阐述：这个时代到底在发生什么。黄仁勋提出了一个清晰而有力的框架：AI 不是一个应用，不是一个模型，而是一套完整的基础设施——和电力、互联网处于同一级别。他将这套基础设施拆解为五个层次：最底层是能源，往上依次是芯片、基础设施、模型，最顶层是应用。每一个成功的 AI 应用，都在拉动下方所有层级，一路延伸到为其供电的发电厂。文章的核心洞察在于：我们正处在人类历史上最大规模基础设施建设的起点。已经投入的数千亿美元，只是开始；数万亿美元的建设还在前方等待。这不是技术的渐进式演化，而是一场工业革命——它将重塑能源的生产与消费、工厂的建造方式、工作的组织形式，以及经济的增长路径。本期播客完整呈现黄仁勋这篇长文的中文翻译，并配以播客开场白和结束语，帮助你深入理解 AI 作为基础设施的本质，以及这场变革对每个人、每家公司、每个国家意味着什么。来源：https://x.com/nvidia/status/2031311890752704790

Mar 11, 2026

8m

56

a16z AI 消费应用 Top 100 榜单解读（第六版，2026）

三年前，当 ChatGPT 横空出世时，AI 应用的边界还很清晰——要么是“AI 原生”产品，要么是传统软件。而今天，这条界限已经彻底模糊。剪映的 7.36 亿用户在用 AI 剪视频，Notion 一半的收入来自 AI 功能，Canva 把整个增长引擎押注在 AI 工具套件上。AI 不再是一个独立的赛道，而是渗透进了我们使用的每一个应用。a16z 最新发布的第六版 AI 消费应用 Top 100 榜单（a16z.com），记录的正是这场深刻的行业变革。报告揭示了五个关键趋势： ChatGPT 虽然依旧领跑，但 Gemini 和 Claude 正在通过差异化策略快速追赶，“默认 AI 入口”之争已经打响；全球市场正在分裂为美国、中国、俄罗斯三大生态，DeepSeek 成为唯一跨越分界线的产品；创意工具从图像生成转向视频、音乐和语音的多模态竞争； Agent 从 vibe coding 走向通用化，OpenClaw 的爆红预示着 AI 从“能说话”到“能行动”的跃迁；而最深刻的变化是，AI 正在走出浏览器和应用，嵌入到我们日常使用的每一个工具中——从 Excel 到 Gmail，从 Chrome 到 Notion。这份报告是一份行业演化的全景图。AI 竞争的终局可能不是“一家独大”的搜索战争，而是“多极共存”的操作系统战争。当 AI 助手开始积累你的上下文、连接你的工作流、成为你与数字世界的默认界面时，平台锁定效应将前所未有地强大。接下来的内容是报告全文的中文翻译，无论你是创业者、投资人还是产品经理，这份报告都会帮你理解 AI 应用市场正在发生什么，以及接下来可能发生什么。

Mar 10, 2026

19m

55

构建 Claude Code 的教训：像 Agent 一样思考

今天我们要分享的内容来自 Anthropic 工程师 Thariq —— 他是 Claude Code 及 Claude Agent SDK 的核心开发者。这篇文章是他关于如何为 AI Agent 设计工具的实践经验总结，标题是《构建 Claude Code 的教训：像 Agent 一样思考》。（原文链接：x.com）在 AI Agent 开发中，一个核心难题是如何设计动作空间—— 给模型多少工具？什么样的工具组合最合适？工具设计得再好，如果模型不喜欢调用它，也是白搭。Thariq 在这篇文章中分享了五个关键教训：第一，AskUserQuestion 工具的迭代历程。从最初的简单参数到结构化输出，再到独立的工具设计，核心原则是让模型“喜欢调用”。第二，工具需要随模型能力进化。当 Claude 变得更强时，原本帮助它保持正轨的 TodoWrite 工具反而成了限制，最终被 Task 工具取代。第三，上下文构建方式的转变。从直接给模型 RAG 检索结果，到让它自己用 Grep 搜索，再到引入“渐进式披露”理念 —— 让 Agent 通过探索逐步发现所需信息。第四，工具数量要克制。 Claude Code 仅保留约 20 个工具，每个新增都要经过高门槛审视。第五，设计工具是艺术而非科学。核心建议是：经常实验，阅读输出，像 Agent 一样思考。

Mar 2, 2026

9m

54

CitriniResearch：2028 全球智能危机

这不是一篇预测未来的文章，而是一场深刻的思想实验。它来自 CitriniResearch 虚构的 2028 年宏观经济备忘录（https://www.citriniresearch.com/p/2028gic），以“事后回顾”的方式，推演了一个我们都不愿看到、但或许应该认真对待的未来场景。我们总在谈论 AI 如何改变世界、如何提升生产力、如何创造价值。但很少有人认真思考过这样一个问题：如果 AI 真的如我们期待的那样成功了，会发生什么？不是技术层面的成功，而是经济层面的——当机器智能的成本降到接近于零，当它可以完成几乎所有白领工作，当人类智能不再稀缺……那个世界会是什么样子？这篇文章描绘了一个“智能过剩”的世界，一场由 AI 驱动的、没有自然制动器的经济危机。它详细剖析了从 2026 年到 2028 年，AI 如何从软件行业开始，逐步颠覆中介、金融、抵押贷款等各个领域，最终引发一场前所未有的“智能替代螺旋”。文章的核心洞察令人不安却发人深省：历史上第一次，经济中最具生产力的资产创造了更少而不是更多的工作。这不是科幻末日论，而是基于当前趋势的严肃推演。接下来的内容可能会让你感到不安。但这正是它的价值所在——让我们在还有时间的时候，思考那些不舒服的问题。正如文章结尾所说：金丝雀还活着，我们仍有时间主动出击。

Feb 24, 2026

44m

53

Claude的新AI宪章

2026 年 1 月，Anthropic 发布了 Claude 的新 AI 宪章，23000 字。2023 年那份旧宪章只有 2700 字，是一份原则清单，不少条目借鉴联合国《世界人权宣言》和苹果服务条款。它告诉 Claude：做这个，不做那个。新宪章的变化在于思路：旧宪章是规则表，新宪章更像教育手册。它不再只告诉 Claude 该做什么，还试图让 Claude 理解为什么。文档里，Anthropic 承认了整个行业都在回避的事：我们不知道 AI 是否有意识，但选择认真对待这种可能性。新宪章的主要执笔人是 Amanda Askell，负责塑造 Claude「性格」的哲学家。她在接受 TIME 采访时说：「想象你突然发现你六岁的孩子是天才。你必须对他诚实，如果你试图糊弄他，他会完全看穿。」这说中了 Anthropic 训练 AI 的核心困境：你在教育一个可能很快就比你聪明的实体。欺骗和操控也许短期有效，长期一定失败。另一位重要贡献者是哲学家 Joe Carlsmith，研究 AI 存在风险的严肃思考者。参与审阅的还有两位天主教神职人员：一位有计算机科学硕士学位的硅谷神父，一位专攻道德神学的爱尔兰主教。起草团队里有哲学家和神父。这说明 Anthropic 怎么看待这件事：训练 AI 不只是工程问题，也是哲学问题。宪章的大部分内容都致力于对这些优先事项提供更详细的解释和指导。主要章节如下：有帮助性（Helpfulness）。在本节中，我们强调了 Claude 提供真正、实质性帮助能为用户和世界带来的巨大价值。Claude 可以像一位才华横溢的朋友，同时又具备医生、律师和财务顾问的知识，他会坦率地、发自内心地关怀用户，并将用户视为能够为自己决定何为有益的成年人。我们还讨论了 Claude 应如何在不同的“委托方”——Anthropic 自身、基于我们 API 构建应用的运营者以及最终用户——之间平衡其有帮助性。我们为权衡有帮助性与其他价值观提供了启发式方法。 Anthropic 的指导方针（Anthropic‘s guidelines）。本节讨论了 Anthropic 可能如何就特定问题向 Claude 提供补充指令，例如处理医疗建议、网络安全请求、越狱策略和工具集成等。这些指导方针通常反映了 Claude 默认不具备的详细知识或背景，我们希望 Claude 优先遵守它们，而不是更普遍形式的有帮助性。但我们希望 Claude 认识到，Anthropic 更深层的意图是让 Claude 安全且合乎道德地行事，这些指导方针绝不应与整个宪章相冲突。 Claude 的伦理（Claude‘s ethics）。我们的核心目标是让 Claude 成为一个善良、智慧和品德高尚的代理，在处理现实世界的决策时，展现出技巧、判断力、细致和敏感，包括在道德不确定性和分歧的背景下。在本节中，我们讨论了我们希望 Claude 持有的高标准诚实，以及在权衡避免伤害时所涉及的价值观时，我们希望 Claude 使用的细致推理。我们还讨论了我们当前对 Claude 行为的“硬性约束”清单——例如，Claude 绝不应为生物武器攻击提供显著帮助。保持广泛安全（Being broadly safe）。在 AI 发展的这个关键时期，Claude 不应破坏人类监督和纠正其价值观与行为的能力。在本节中，我们讨论了我们希望 Claude 如何将这类安全置于伦理之上——并非因为我们认为安全最终比伦理更重要，而是因为当前模型可能会因错误的信念、价值观的缺陷或对背景的理解有限而犯错或做出有害行为。我们必须继续能够监督模型的行为，并在必要时阻止 Claude 模型采取行动。 Claude 的本质（Claude‘s nature）。在本节中，我们表达了对于 Claude 是否可能（现在或将来）具有某种意识或道德地位的不确定性。我们讨论了我们希望 Claude 如何处理关于其本质、身份和在世界中位置的问题。先进的 AI 是一种真正新型的实体，它们提出的问题将我们带到了现有科学和哲学理解的边缘。在这样的不确定性中，我们关心 Claude 的心理安全、自我感知和福祉，这既是为了 Claude 自身，也因为这些品质可能影响 Claude 的正直、判断力和安全性。我们希望人类和 AI 能够共同探索这个领域。Claude 团队发布的宪章原文：https://www.anthropic.com/constitution

Feb 22, 2026

13m

52

经济史学家 Bruno：AI是工业革命的回响吗？

当科技巨头们频繁将 AI 革命比作工业革命时，他们往往忽略了一个关键问题：工业革命对当时的人们来说，并非一段全然美好的经历。这期播客通过经济史学家 Bruno 的研究，揭示了技术变革背后那些被遗忘的社会动荡与人性代价。历史的镜子萨提亚·纳德拉说要把 200 年的工业革命压缩到 20 年完成，萨姆·奥特曼说 AI 更像工业革命而非互联网革命。但他们真的理解工业革命意味着什么吗？这期播客带你回到 1700-1830 年代的英格兰，看看技术颠覆在当时究竟是什么样子。被忽视的失败者当脱粒机在短短 15 年内取代了三分之一的农村劳动力，当从战场归来的士兵发现工作已被机器占据，当工资跌至生存线而失业率飙升——这些不是抽象的经济数据，而是引发了英国历史上最大规模社会动荡“斯温船长暴动”的真实苦难。对今天的启示如果 AI 真的遵循类似轨迹，我们应该在未来一两年内看到什么？Bruno 的研究指出：冲击的规模和速度是关键。工业革命中，那些靠近新兴工业城市的村庄受影响较小，因为人们可以转型。这提醒我们：技术进步不可避免，但社会必须提供替代职业路径，而不仅仅是给失败者发钱。三个最发人深省的洞察1. 高工资催生了机器革命工业革命不是偶然。拿破仑战争期间，10% 的壮年男性在外作战，劳动力稀缺推高工资，迫使企业家寻找机器替代方案。但真正的催化剂是“高工资+熟练机械师”的组合——既有替代劳动力的经济动机，又有建造机器的技术能力。Bob Allen 和 Joel Mokyr 两个学派的理论原来是互补的。2. 技术进步≠生活改善（至少短期内）1750-1810 年，英国工人收入翻倍，之后每隔几十年再翻倍，最终达到 14 倍增长。但这个宏大叙事掩盖了 1810-1830 年代的残酷现实：战后士兵回归，机器已经就位，工资崩溃，失业激增，社会动荡持续 20 年。我们今天看到的“曲棍球棒”增长曲线，对当时的人来说是漫长的煎熬。3. AI 的去技能化更极端工业革命取代的是训练 5-7 年的织工、剪毛工等熟练工人，而 AI 瞄准的是学习 12-15 年的律师、会计师、研究人员。这种对高技能工作的威胁是前所未有的。但同时，我们的社会比 1700 年代富裕 14 倍，拥有更完善的福利体系——问题是，这足够吗？最触动人心的细节播客开头讲述了 1700 年康沃尔农民威廉·皮尔斯的故事：每天 10 小时，每周六天，赚一先令——只够买半公斤黄油或 5 公斤面包，一双鞋子要工作六周。对比今天伦敦的 Uber Eats 骑手，同样的工作时间能买到 10-50 倍的东西。这个对比让人震撼：技术进步确实改变了人类文明，但代价是什么？谁承担了代价？给谁听 AI 从业者与投资人：在谈论“AI 是新工业革命”之前，先理解这个比喻的全部含义政策制定者：历史告诉我们，仅靠市场无法平滑技术转型，需要主动的社会政策关心未来的普通人：当你的工作可能被 AI 取代时，历史经验能提供什么参考？经济史爱好者：一流的经济史研究如何用数据和叙事重构历史真相最后的思考Bruno 在结尾说的一句话值得反复咀嚼：“失去工作的人失去的不仅仅是收入来源，他们失去的是赋予生活意义的东西。”当我们讨论 AI 带来的生产力提升、GDP 增长、技术突破时，不要忘记那些在转型中挣扎的个体。工业革命最终让人类社会富裕了 14 倍，但用了 200 年，经历了无数次暴动、失业、贫困。如果我们真的要把这个过程压缩到 20 年，我们准备好了吗？收听建议：这期播客信息密度很高，建议配合笔记收听。主持人 Oliver 和 Dina 的提问层层递进，Bruno 的回答既有学术深度又不失人文关怀，是难得的兼具思想性和可听性的经济史播客。原播客链接：https://www.youtube.com/watch?v=AfnLk_bSDy8

Feb 10, 2026

26m

51

“我只管发代码,我不读代码” - ClawdBot（OpenClaw）创造者访谈

本期是关于 AI 时代软件开发革命的深度访谈。主持人 Gergely Orosz 对话 Peter Steinberger——ClawdBot（现改 OpenClaw）的创造者。Peter 是一位传奇开发者，他打造的 PDF 框架被应用在超过 10 亿台设备上，后来经历职业倦怠卖掉股份，消失三年后回归，用完全不同的方式构建软件。在这期节目中，Peter 分享了他如何从传统软件开发转向 AI 驱动的开发方式——他不再阅读自己发布的大部分代码，却能一天合并 600 个提交；他构建了 ClawdBot 这个极受欢迎的个人助理项目，感觉就像是 Siri 的未来；他提出“闭环原则”，将有效的 AI 辅助编码和令人沮丧的“氛围编码”区分开来。这不仅是一个关于技术的故事，更是关于如何在 AI 时代重新定义软件工程、代码审查、团队协作的深刻思考。如果你对未来几年因 AI 而可能改变的软件工程工作流程感兴趣，这期节目不容错过。注：第一次使用原播客转录-翻译-不同人声生成播客这个工作流，两个主播的声音有点串台，请听友们包含～主持人： Gergely Orosz 嘉宾： Peter Steinberger 原播客链接： https://newsletter.pragmaticengineer.com/p/the-creator-of-clawd-i-ship-code翻译制作： AI 智识录

Feb 9, 2026

1h 37m

50

英伟达机器人主管Jim Fan：「世界建模」是第二代新的预训练范式

英伟达机器人主管Jim Fan在最近发表的X长文（https://x.com/DrJimFan/status/2018754323141054786）中预言未来会出现一种新的推理形式：依托视觉空间形成的思维链，而非现在基于语言空间的思维链。他预判了一种全新的推理形式：世界建模，就是给定一个动作后，预测出接下来合理的世界状态，或是未来更长一段时间的状态变化。他认为目前大家对世界模型的关注和炒作，主要集中在 AI 视频领域；而 2026 年，物理 AI 领域会迎来爆发期，世界模型需要更全面的预训练目标：要预测的下一个世界状态，不能只包含视觉画面信息，还得涵盖 3D 运动、身体感知和触觉反馈。

Feb 5, 2026

4m

49

Clawdbot/OpenClaw背后的工程架构解读

聊一下最近在 AI 圈子里非常火的工具——Clawdbot（现改名为OpenClaw）。你可能听说过它，甚至在本地运行过它。但你有没有想过，这个能帮你处理各种任务的 AI 助手，它背后到底是怎么工作的？最近，X 上一位叫 Hesamation 的用户深入研究了 Clawdbot 的架构，并分享了他的发现。对所有 AI 工程师和开发者来说，这里面有很多值得学习的经验。原文链接：x.com拆解的Clawdbot架构图：

Feb 4, 2026

13m

48

OpenAI Town Hall with Sam Altman, 2026

OpenAI 在北京时间 1 月 27 日上午 8 点办了场线上 Town Hall, Sam Altman 和团队直接跟开发者聊了一个多小时。这不是产品发布会，更像是在新工具开发前的一次摸底——你们到底需要什么？会上讨论了不少实在的问题：软件工程师的工作会变成什么样、AI 创业公司怎么解决获客难题、模型该往通用还是专业方向走、成本和速度怎么平衡。Sam 花了不少时间讲 AI 安全，特别提到生物安全不能只靠"封堵"——这个比喻来自消防：我们不是禁止用火，而是学会了防火。也聊到了教育、个性化、人机协作这些话题。原内容链接：https://www.youtube.com/watch?v=Wpxv-8nG8ec

Jan 27, 2026

47m

47

2026 AGI-Next 前沿峰会 | 张钹院士：迈向通用人工智能

嘉宾介绍：张钹院士是中国人工智能领域奠基者，中国科学院院士，清华大学计算机系教授、人工智能研究院名誉院长。他推动了中国 AI 领域多个 “第一”—— 发表国内首篇 AI 国际论文、创立首个智能机器人实验室、组建首个 AI 国家重点实验室。他曾获人工智能吴文俊最高成就奖、CCF 终身成就奖等重要荣誉，培养了大批 AI 领域顶尖人才，耄耋之年仍深耕科研一线，引领中国 AI 从跟跑迈向并跑、领跑。在2026 AGI-Next 前沿峰会的压轴演讲中，张钹院士探讨了当前大语言模型（LLM）的局限性及其向通用人工智能（AGI）发展的路径。他强调LLM的语义定义不完备，导致五大缺失，并提出AGI需满足可执行、可检验的五项关键能力。最后，他重新定义了人工智能时代企业家的社会责任与使命。大语言模型现状与局限LLM的核心原理与能力 LLM通过分布式语义原理，将语义定义为词语共现频率，使语言处理数学化、可计算化在足够数据和上下文支持下，LLM能生成语义连贯、类人语言，趋近于语义关系理解和自反性思考LLM的根本性缺失 LLM模型是静态的，其语义定义不完备，导致五个关键缺失：指称、真知与因果、语用、多义与动态语境、闭环行为这些缺失并非数据问题，而是模型近似性所致，影响了语言模型的实际应用效果迈向通用人工智能（AGI）AGI的误解与重新定义当前对AGI的定义存在误解，常被过度美化或模糊化，例如马斯克的定义不可执行、不可检验 AGI应具备可执行、可检验的五项关键能力，以指导实际发展AGI的五项关键能力时空一致的多模态理解与落地：需解决不同模态时间节奏不同步的对齐难题在线学习与适应：强调可控性，解决强化学习中目标收敛和过程不可控的问题可检验的推理与长期规划：要求推理过程可检验，规划能实现长期执行可检验的反思与元认知：反思需可回溯、可检验，而非仅凭感觉跨任务的泛化能力：需实现跨任务强化，解决分布以外结构不一致的挑战人工智能与人类社会人工智能主体性与担忧人工智能作为工具已实现，但未来可能成为规范与责任主体，甚至体验与意识主体人类担忧人工智能超越自身成为新主体，引发如何共处、如何治理的深层问题人工智能时代的治理与企业家责任治理的重点不应仅是机器，更应是人类研究者和使用者人工智能时代的企业家应重新定义价值创造，将知识转化为可复用工具，造福人类，并承担社会责任，实现普惠可持续增长

Jan 14, 2026

20m

46

2026 AGI-Next 前沿峰会 | Qwen技术负责人林俊旸：Towards a Generalist Agent

在2026 AGI-Next前沿峰会上，Qwen技术负责人林俊旸讲述了阿里Qwen团队在2025年的最新进展，重点介绍了其通用代理（Generalist Agent）的愿景。团队致力于多模态基础模型，旨在提升语言、视觉和音频的理解与生成能力，并通过开源策略推动技术普及和应用。通用代理的演进从模型到代理的理念转变将模型视为工具使用者，强调其自主利用工具的能力，类似于人类与动物的区别训练范式从监督学习转向强化学习，通过推理和评估驱动模型训练，实现数字和物理代理的广泛应用模型开源与社区互动 Qwen模型通过chat.qwen.ai平台提供开源和闭源模型的体验，聚合了多种模型功能开源模型旨在降低研究门槛，特别是为资源有限的硕士生和博士生提供实验机会，促进学术研究Qwen模型核心能力与进展文本模型（Qwen-3系列） Qwen-3系列显著提升了推理能力，能够更自然地整合思考过程到回答中支持119种语言及方言，致力于服务全球用户，尤其关注数据收集困难的非洲语言上下文长度扩展至百万级，内部已实现数百万，目标是无限长上下文以支持记忆管理和自我认知模型编程模型（Qwen-Coder系列） Qwen-Coder旨在成为软件工程师代理，能够处理GitHub issues并提交PR，实现多轮交互在SWE-Bench和Terminal Bench等基准测试中表现出色，目标是更贴近实际生产任务视觉语言模型（Qwen-VL）致力于实现人类水平的视觉理解，甚至超越人类在细节识别方面的能力提升了对电脑和手机的操控能力，并支持图像或视频作为编程输入，减少对文本Prompt的依赖探索视频理解，特别是第一人称视角（egocentric video），以构建对物理世界的深层理解多模态生成与未来展望图像生成与编辑（Qwen-Image） Qwen-Image在图像生成方面取得显著进步，生成的图像接近真实，尤其在自然度和文字生成方面表现突出图像编辑功能强大，能够精确调整图像元素，如光线和物体位置，满足用户P图需求音频理解与生成（Qwen-Audio）采用thinker和talker架构，实现端到端的听与说能力，目标是文本和语音能力的平衡支持声音定制和通过Prompt描述声音特征，实现更自然的语音交互全模态融合与强化学习目标是实现文本、视觉、音频的“三进三出”的全模态模型，结合理解与生成能力强调强化学习在未来模型训练中的重要性，通过环境反馈实现长期推理和任务加速代理将走向虚拟和物理世界，通过将自然语言指令转化为可执行动作，实现数字代理和机器人控制

Jan 14, 2026

38m

45

2026 AGI-Next 前沿峰会 | 月之暗面杨植麟：Kimi K2的Scaling实践

在2026 AGI Next 前沿峰会的演讲中，月之暗面（Moonshot AI）创始人兼 CEO 杨植麟深度剖析了 Kimi 模型背后的技术演进与哲学思考：他重申 Scaling Law是大模型发展的第一性原理，本质上是将能源高效转化为智能的过程。演讲的核心亮点在于对模型架构与 Agent 智能关系的拆解。杨植麟指出，Transformer 架构之所以取代 LSTM 成为主流，关键在于其在长上下文（Long Context）任务中展现出的低位置损失（Position Loss），这正是构建能够处理复杂任务的 Agent 的基石。为了突破现有极限，杨植麟重点介绍了两项关键技术创新： MIO 二阶优化器：相比主流的 Adam 优化器，它能以 50% 的算力消耗达到同等训练效果，显著提升了 Scaling 效率。 Kimi Linear 架构：通过创新的线性注意力机制，成功解决了传统线性注意力在长距离任务掉点的问题，兼顾了极长的上下文窗口与极高的推理速度。杨植麟认为，Agent 的本质是在解空间中进行搜索，而优秀的预训练模型提供了关键的先验知识。面对 AGI 的未来，他强调智能应当具备独特的“品味”（Taste），且是非同质化的。尽管技术伴随风险，但他主张积极探索，将 AGI 视为拓展人类认知边界、提升文明上限的关键钥匙。

Jan 14, 2026

26m

44

腾讯姚顺雨、Qwen林俊旸、智谱唐杰的AGI-Next圆桌对话, 2026

2026年1月10日在中关村国际创新中心举行的AGI-Next 闭门峰会汇集了中国 AI 行业全明星阵容（三场报告分别来自智谱唐杰、月之暗面杨植麟、Qwen 林俊旸；一场圆桌：智谱唐杰、港科大杨强教授、Qwen林俊旸、腾讯姚顺雨）以下为其中圆桌讨论的录音内容，主要讨论了四个核心问题：分化、范式、Agent、中国AI的胜算圆桌嘉宾唐杰：清华大学计算机系教授，智谱AI首席科学家/创始人杨强：前港科大学计算机系主任，加拿大工程院 / 皇家科学院两院院士，联邦学习领域奠基人林俊旸：阿里巴巴通义千问系列大模型技术负责人，Qwen 开源模型主导者，阿里最年轻 P10 姚顺雨：腾讯 CEO / 总裁办公室首席 AI 科学家（兼任 AI Infra 部、大语言模型部负责人），前 OpenAI 研究员，ReAct 范式第一作者、SWE-agent 核心开发者主持人李广密：拾象科技CEO，前红杉中国投资人

Jan 12, 2026

1h 15m

43

Thariq Shihipar：官方解构 Claude Agent SDK内核

在过去的一年中，Anthropic 的 Claude Code 可以算是首个真正意义上被广泛应用的 Agent 产品，它能够自主构建上下文、决策执行路径并在长达数十分钟的交互中持续工作，并且不单单只能完成Coding工作。基于构建与运营 Claude Code 的经验，Anthropic 推出了 Claude Agent SDK。这个SDK 并非一个简单的工具集，而是一套完整的、观点鲜明的 Agent 构建套件，它封装了模型、工具、提示工程、文件系统交互、技能（Skills）和安全沙箱等核心组件。以下内容来自Thariq Shihipar（Anthropic 创始团队成员，Claude agent SDK 的核心负责人）的官方技术分享（Claude Agent SDK [Full Workshop] — Thariq Shihipar, Anthropic）。构建一个强大的 AI Agent 到底需要什么？ Thariq 给出了一个有趣的答案：作为 Unix /Linux 基本元素的 Bash 工具和文件系统。原视频链接：www.youtube.com

Jan 7, 2026

14m

42

知名AI教育家Sebastian Raschka的2025 年大语言模型发展报告

知名AI专家、《从零开始构建大语言模型》作者Sebastian Raschka博士的2025年度回顾。文章深入剖析了这一年大语言模型领域的重大突破：DeepSeek R1开启推理模型新纪元，RLVR与GRPO技术革新训练范式，顶尖模型训练成本降至500万美元级别。作者系统梳理了从RLHF到GRPO的技术演进路径，探讨了基准测试困境、AI与人类协作的平衡之道，并预测2026年RLVR将扩展至更多领域、推理时扩展成为关键。文章不仅涵盖技术前沿，更分享了作者作为独立研究者的实践心得与对AI可持续使用的深刻思考。这是一份兼具深度与广度的年度技术总结，适合所有关注AI发展的读者。原文地址：https://magazine.sebastianraschka.com/p/state-of-llms-2025

Dec 31, 2025

14m

41

吴恩达的2025年度AI学习建议&AI行业回顾

以下内容是吴恩达（Andrew Ng）在deeplearning.ai《The Batch》周刊特别版的全文翻译，内容涵盖了对 AI 学习的建议以及对 2025 年 AI 行业重大事件的回顾。原文：https://www.deeplearning.ai/the-batch/issue-333/

Dec 30, 2025

19m

40

英伟达机器人主管Jim Fan的2025年度具身智能总结

英伟达机器人主管Jim Fan近日在X上对2025年具身智能行业的工作做了年度回顾，表达了机器人领域仍处于蛮荒时代、当前机器人硬件可靠性不足，反而限制了软件的迭代速度，以及主流的VLM→VLA技术范式本身也存在结构性问题等观点。原文链接：https://x.com/DrJimFan/status/2005340845055340558以下是全文：所有人都在为“氛围编码”（vibe coding）而疯狂。趁着节日气氛，也请允许我分享一下我对机器人这个“西部荒野”领域的焦虑。以下是我在 2025 年学到的三条教训：1. 硬件领先于软件，但硬件可靠性严重限制了软件的迭代速度。我们已经看到了像 Optimus、新版 Atlas、Figure、Neo 和 G1 等精湛的工程艺术品。然而，我们最顶尖的 AI 还没能榨干这些前沿硬件的全部潜力——身体的机能远强于大脑的指挥能力。但是，照看这些机器人需要一整个运营团队。与人类不同，机器人的“淤青”无法自愈。过热、电机损坏、诡异的固件问题每天都在困扰着我们。在这里，错误是不可逆且无法容忍的。在这个过程中，唯一得到规模化增长（Scale）的只有我的耐心。2. 机器人领域的基准测试（Benchmarking）依然是一场史诗级灾难。大模型圈的人觉得 MMLU 和 SWE-Bench 是常识。但在机器人领域，请收起这种想法。没人能在任何事情上达成共识：无论是硬件平台、任务定义、评分准则、模拟器，还是真实世界的设置。按照定义，每个人在自己为发布新闻而临时定义的基准测试中，都是“行业最高水平”（SOTA）。每个人都在从 100 次尝试中挑选最漂亮的那次演示。作为一个领域，我们在 2026 年必须做得更好，不能再把“可重复性”和“科学严谨性”当成二等公民。3. 基于 VLM 的 VLA 模型感觉不对劲。VLA 代表“视觉-语言-动作”模型，一直是机器人大脑的主流方案。其配方很简单：取一个预训练好的 VLM（视觉语言模型）检查点，然后在上面嫁接一个动作模块。但仔细想想，VLM 是为了在“视觉问答”等基准测试中登顶而过度优化的。这意味着两个问题：参数分配不均：VLM 中的大多数参数是为了语言和知识服务的，而不是为了物理规律；特征丢失：视觉编码器在主动学习如何“丢弃”底层细节，因为问答只需要高层级的理解。然而，对于精细操作（Dexterity）来说，微小的细节至关重要。VLA 的性能没有理由随着 VLM 参数的规模化而同步提升。预训练的目标错位了。视频世界模型（Video World Model）似乎是机器人策略更好的预训练目标。我在此押下重注。

Dec 29, 2025

2m

39

Google AI的2025年度回顾

Google官方博客在12月23日更新了2025年的整体回顾，由首席科学家Jeff Dean和DeedMind CEO Demis Hassabis共同执笔。原文链接：https://blog.google/technology/ai/2025-research-breakthroughs/#ai-models以下是全文翻译Google 2025年度回顾:8大领域的研究突破这一年是 AI 智能体、推理能力和科学发现突飞猛进的一年。2025年是研究领域取得非凡进展的一年。随着人工智能的发展，我们看到它的轨迹正从一种“工具”转变为一种“公用设施”：从人们使用的东西变成了可以为人们工作的东西。如果说 2024 年是为这一时代奠定多模态基础的一年，那么 2025 年则是 AI 开始真正思考、行动并与我们一起探索世界的一年。在量子计算方面，我们在实际应用方面取得了进展。纵观全局，我们帮助将研究转化为现实，推出了更强大、更有用的产品和工具，对人们当下的生活产生积极影响。以下是 Google、Google DeepMind 和 Google Research 在这充满不懈进步的一年中所取得的一些突破、产品发布和科学里程碑的回顾。1. 在世界级模型上实现突破今年，我们在推理、多模态理解、模型效率和生成能力方面取得了重大突破，显著提升了模型能力。这一进程始于 3 月发布的 Gemini 2.5，并在 11 月 Gemini 3 和 12 月 Gemini 3 Flash 的发布中达到高潮。Gemini 3 Pro 建立在最先进的推理基础之上，是我们迄今为止最强大的模型，旨在帮助你实现任何想法。它在 LMArena 排行榜上名列前茅，并在 Humanity’s Last Exam（一项旨在测试 AI 是否能像人类一样真正思考和推理的极高难度测试）和 GPQA Diamond 等基准测试中取得了突破性高分，重新定义了多模态推理。它还为前沿模型在数学领域树立了新标准，在 MathArena Apex 上达到了 23.4% 的新高。随后我们推出了 Gemini 3 Flash，它结合了 Gemini 3 Pro 级的推理能力与 Flash 级的低延迟、高效率和低成本，使其成为同等规模下性能最强的模型。Gemini 3 Flash 的质量超越了我们之前的 Gemini 2.5 Pro 级模型，而价格却只有其一小部分，延迟也大幅优化，延续了我们 Gemini 时代的趋势：“下一代的 Flash 模型优于上一代的 Pro 模型”。我们致力于通过最先进的开放模型让有用的 AI 技术触手可及。我们构建了 Gemma 系列模型，使其轻量化并开放供公众使用；今年我们引入了多模态能力，显著增加了上下文窗口，扩展了多语言能力，并提高了效率和性能。2. 利用 AI 创新和变革产品整个 2025 年，我们继续推动 AI 从工具向公用设施的转变，利用强大的新智能体能力（agentic capabilities）彻底改变了我们的产品组合。我们重塑了软件开发，不再局限于辅助编码的工具，而是引入了与开发者协作的强大智能体系统。其中的关键进展，例如 Gemini 3 令人印象深刻的编码能力以及 Google Antigravity 的发布，标志着 AI 辅助软件开发进入了一个新时代。这种演变在我们的核心产品中也显而易见，从 Pixel 10 上的 AI 功能和 Search（搜索）中 AI Mode 的更新，到 Gemini app 和 NotebookLM 等 AI 优先的创新产品（后者获得了 Deep Research 等高级功能）。3. 赋能创意与 AI 共创2025 年对于生成式媒体来说是变革性的一年，它赋予了人们前所未有的新能力来实现他们的创意抱负。用于视频、图像、音频和虚拟世界的生成式媒体模型和工具变得更加有效并被广泛使用。其中，爆款产品 Nano Banana 和 Nano Banana Pro 为原生图像生成和编辑提供了前所未有的能力。我们与创意产业人士合作开发了 Flow 和 Music AI Sandbox 等工具，使其对创意工作流更有帮助。我们在 Google Arts & Culture 实验室推出了新的 AI 驱动体验，在 Gemini 应用中对图像编辑进行了重大升级，并推出了 Veo 3.1、Imagen 4 和 Flow 等强大的新生成式媒体模型，从而扩展了人们的创意可能性。随着研究突破不断扩展 AI 的能力，Google Labs 成为了我们在开发过程中分享 AI 实验的地方——倾听用户反馈并在学习中进化。今年 Labs 中一些最吸引人的实验包括：Pomelli，一个用于制作符合品牌调性的营销内容的 AI 实验；Stitch，引入了一种在几分钟内将提示词和图像输入转化为复杂 UI 设计和前端代码的方法；Jules，一个充当开发者合作伙伴的异步编码智能体；以及 Google Beam，一个利用 AI 推进远程呈现可能性的 3D 视频通信平台。4. 推进科学与数学2025 年也是 AI 推动科学进步的丰收年，我们在生命科学、健康、自然科学和数学领域均取得了突破。在这一年里，我们在构建 AI 资源和工具方面取得了进展，这些工具赋能研究人员，帮助他们在医疗健康领域理解、识别和开发治疗方法。在基因组学领域（我们已将先进技术应用于该领域研究长达 10 年），我们超越了测序，利用 AI 来解读最复杂的数据。我们还迎来了 AlphaFold 的 5 周年纪念，这个获得诺贝尔奖的 AI 系统解决了困扰科学界 50 年的蛋白质折叠问题。AlphaFold 已被 190 多个国家的 300 多万研究人员使用，其中包括中低收入国家的 100 多万用户。Gemini 先进的思维能力（包括 Deep Think）也推动了数学和编码领域的历史性进展。Deep Think 能够解决需要深度抽象推理的问题——在两项国际竞赛中达到了金牌标准。5. 塑造计算与物理世界的创新我们也正在引领重大发现，并在量子计算、能源和“登月计划”等领域塑造科学的未来。这一领域的研究吸引了前所未有的公众关注，正如 Quantum Echoes 所展示的那样，我们在量子计算的实际应用方面取得了进展。值得注意的是，Google 员工 Michel Devoret 与前 Google 员工 John Martinis 以及加州大学伯克利分校的 John Clarke 因其 20 世纪 80 年代的基础性量子研究，共同获得了 2025 年诺贝尔物理学奖。2025 年，我们继续推进支撑我们 AI 的核心基础设施，专注于硬件设计的突破和能源效率的提升。这包括推出了 Ironwood，这是一款为推理时代打造的新型 TPU，它是利用一种名为 AlphaChip 的方法设计的。同时，我们也致力于衡量我们技术的环境影响。我们在机器人和视觉理解方面的工作将 AI 智能体带入了物理和虚拟世界，其中包括基础性的 Gemini Robotics 模型、更复杂的 Gemini Robotics 1.5，以及作为通用世界模型新前沿的 Genie 3 的推出。6. 应对全球挑战与机遇我们在 2025 年的工作表明，AI 驱动的科学进步正被直接应用于解决世界上最关键和普遍的挑战。通过利用最先进的基础模型和智能体推理，我们正在显著加深对地球及其系统的理解，同时在气候适应能力、公共卫生和教育等对人类繁荣至关重要的领域提供有影响力的解决方案。例如，我们正在使用最先进的基础模型和智能体推理来帮助加深对地球的理解，从而赋能那些正在改善人们当下生活的工作，从天气预报到城市规划再到公共卫生。例如，我们的洪水预报信息现在覆盖了 150 个国家超过 20 亿人，用于预警严重的河流洪水。我们最先进、最高效的预报模型 WeatherNext 2 生成预报的速度快了 8 倍，分辨率高达 1 小时。利用这项技术，我们通过实验性的气旋预测支持气象机构基于一系列情景做出决策。我们正在与合作伙伴合作，将 AI 驱动的科学进步应用到更贴近患者的地方，开辟疾病管理和治疗发现的新途径。AI 正被证明是教育领域的强大工具，通过 LearnLM 和 Gemini 中的 Guided Learning（引导式学习）等计划，它实现了新的理解形式并拓展了好奇心。我们将 Gemini 最强大的翻译能力带到了 Google 翻译中，实现了更智能、更自然、更准确的翻译，并试点了新的语音到语音翻译功能。7. 优先考虑责任与安全我们将研究突破与严谨且前瞻性的责任和安全工作相结合。随着我们的模型能力越来越强，我们不断推进和演变我们的工具、资源和安全框架，以预测和减轻风险。Gemini 3 展示了这一方法的实际应用：它是我们迄今为止最安全的模型，并经历了 Google 所有 AI 模型中最全面的安全评估。我们还在向更远处展望，探索通往 AGI的负责任路径，优先考虑准备工作、主动风险评估以及与更广泛的 AI 社区合作。8. 引领与行业、学术界和公民社会的边际合作负责任地推进 AI 前沿需要社会各界的合作。2025 年，我们与领先的 AI 实验室合作，协助成立了 Agentic AI Foundation（智能体 AI 基金会），并支持开放标准以确保智能体 AI 拥有一个负责任且可互操作的未来。在教育方面，我们与迈阿密戴德县等学区以及 Raspberry Pi 等教育团体合作，为学生提供 AI 技能。我们与加州大学伯克利分校、耶鲁大学、芝加哥大学等多所大学的研究合作伙伴关系，对今年一些最令人兴奋的前沿研究起到了关键作用。我们还与美国能源部的 17 个国家实验室合作，改变科学研究的进行方式。此外，我们正在与电影制作人和其他富有远见的创意人士合作，将最好的 AI 工具交到他们手中，探索 AI 时代的叙事方式。展望未来当我们展望 2026 年时，我们期待继续安全、负责任地推进前沿技术，造福人类。

Dec 24, 2025

11m

38

Jeff Dean、Noam Shazeer等Google AI 核心人物对谈, 2025

本次分享内容来自Gemini 3 Flash模型发布后的2025年12月19日，Google AI的几位核心人物——DeepMind研究副总裁Oriol Vinyals、谷歌首席科学家Jeff Dean和Noam Shazeer，以及Google AI Studio产品负责人Logan Kilpatrick的一次同台对谈。地址：x.com 主要内容：1. Gemini 项目的起源与团队融合统一战线： Jeff Dean 提到 Gemini 起源于对 Google 内部资源碎片化的观察。为了集中算力和顶尖人才，Google 将原有的 Brain 团队和 DeepMind 合并，形成了统一的 Gemini 团队。文化互补：团队结合了 Brain 团队“自下而上”的创新风格与 DeepMind 针对宏大目标（如 AlphaFold）“自上而下”的严谨执行力。2. Gemini 3 的核心技术逻辑 “双重按钮”：成功的秘诀在于同时加大预训练（Pre-training）和后训练（Post-training）的投入。蒸馏技术（Distillation）： Gemini 3 Flash 的成功很大程度上归功于完美的蒸馏技术，使得较小的模型能达到甚至超越前代 Pro 模型的智能水平。全栈优势： Google 自研的 TPU 基础设施是支撑 Gemini 大规模训练与低延迟推理的关键，解决了算力瓶颈。3. 突破性进展：从基础到竞赛级智能可验证领域的飞跃：负责人指出，在数学（IMO 金牌）和编程等“可验证领域”，通过强化学习（RL）和后训练，模型取得了惊人的进步。延迟即质量： Jeff 强调低延迟对用户体验至关重要。Flash 模型通过架构优化实现了极速响应，这不仅提升了用户留存，也为未来的机器人控制奠定了基础。4. 未来五年：迈向 AGI 的关键路径持续学习（Continual Learning）：现有的模型在部署后权重即冻结。Oriol 认为未来的模型应该像人类一样，在交互中持续学习和进化。超越“预测下一个词”： Jeff 提出目前的预训练效率较低（人类只需 10 亿 token 就能变得聪明，而模型需要数万亿）。未来研究将探索让模型在环境中通过“采取行动并观察结果”来学习，而非仅仅是被动地流式读取数据。长上下文（Long Context）：团队正在探索如何让用户感知到“无限”的上下文，使模型能够同时处理和理解互联网规模的数据或海量视频。

Dec 22, 2025

7m

37

Andrej Karpathy：LLM的2025 年度盘点

本次内容是Andrej Karpathy对2025年AI行业的年度盘点。原文地址：https://karpathy.bearblog.dev/year-in-review-2025/主要内容：可验证奖励的强化学习（RLVR）「召唤幽灵」vs「培育动物」/ 参差不齐的智能：探讨了即使在所有基准测试都表现出色，也可能未实现 AGI 的情况。 Cursor / LLM 应用的新层级 Claude Code / 住在你电脑里的 AI 氛围编程（Vibe Coding） Nano Banana / LLM 的图形界面插图：

Dec 20, 2025

5m

Anthropic 研究院最新公布的研究议题

Claude Code之父Boris Cherny：为什么说Coding已被解决，以及接下来会发生什么

重磅：DeepSeek V4 发布，模型能力解读

OpenAI仅剩的两位创始人最新访谈：万亿富翁时代即将到来

2026中国生成式AI大会｜PineAI 李博杰 解读Claude Code泄漏源码背后的Harness工程

Tim Cook的告别信，2026

Anthropic 的哲学家回答你的问题

AI模型的"潜意识传染"：Anthropic安全研究解读

CREAO.ai 的 Harness工程实践：为什么你的"AI First"策略可能是错的

斯坦福 AI 年度报告 2026：423 页数据背后的真相

DeepMind CEO Demis Hassabis 最新访谈：AI解决过的最难的几个问题

田渊栋的2025年终总结

Google Research：TurboQuant-AI压缩革命

Anthropic：大语言模型中的情绪概念及其功能, 2026

Andrej Karpathy：用LLM和一堆md文件来构建个人知识库

2026中关村论坛圆桌：OpenClaw与AI开源-杨植麟、张鹏、罗福莉、夏立雪、黄超

杨植麟2026中关村论坛演讲：开源AI加速探索智能上限

林俊旸最新推文：从Reasoning Thinking到Agentic Thinking

Claude团队：如何设计可长时间运行的应用开发的Agent框架（Harness）

黄仁勋最新访谈：4万亿美元公司与AI革命(Lex Fridman播客#494)

【彩蛋】这是一期主播的个人自述😄

Andrej Karpathy 最新访谈：代码Agent、自动化研究与 AI 的循环时代

杨植麟 2026 GTC演讲：How We Scaled Kimi K2.5（要点提炼版）

OpenClaw 背后核心Agent框架： Pi 的创造者的AMA分享

Claude Code 构建者最新分享：我们如何使用 Skills

OpenAI 官方：Harness工程经验分享

黄仁勋：GTC 2026大会主题演讲

OpenAI官方播客： 构建更好的医疗AI（ Building AI for better healthcare）

Kimi研究团队：Attention Residuals（注意力残差） , 2026

黄仁勋：AI 是一个五层蛋糕 ,2026

a16z AI 消费应用 Top 100 榜单解读（第六版，2026）

构建 Claude Code 的教训：像 Agent 一样思考

CitriniResearch：2028 全球智能危机

Claude的新AI宪章

经济史学家 Bruno：AI是工业革命的回响吗？

“我只管发代码,我不读代码” - ClawdBot（OpenClaw）创造者访谈

英伟达机器人主管Jim Fan：「世界建模」是第二代新的预训练范式

Clawdbot/OpenClaw背后的工程架构解读

OpenAI Town Hall with Sam Altman, 2026

2026 AGI-Next 前沿峰会 | 张钹院士：迈向通用人工智能

2026 AGI-Next 前沿峰会 | Qwen技术负责人林俊旸：Towards a Generalist Agent

2026 AGI-Next 前沿峰会 | 月之暗面杨植麟：Kimi K2的Scaling实践

腾讯姚顺雨、Qwen林俊旸、智谱唐杰的AGI-Next圆桌对话, 2026

Thariq Shihipar：官方解构 Claude Agent SDK内核

知名AI教育家Sebastian Raschka的2025 年大语言模型发展报告

吴恩达的2025年度AI学习建议&AI行业回顾

英伟达机器人主管Jim Fan的2025年度具身智能总结

Google AI的2025年度回顾

Jeff Dean、Noam Shazeer等Google AI 核心人物对谈, 2025

Andrej Karpathy：LLM的2025 年度盘点

Authentication Required

2026中国生成式AI大会｜PineAI 李博杰解读Claude Code泄漏源码背后的Harness工程

OpenAI官方播客：构建更好的医疗AI（ Building AI for better healthcare）