PODCAST · technology
The Alphaist
by The Alphaist
The Alphaist是Alphaist Partners的播客栏目,专注AI与机器人的前沿方向的探索与应用
-
8
EP08 机器人 Infra:地瓜如何做具身时代的“卖铲人”
1|📒 The Alphaist 播客栏目介绍《The Alphaist》 是一档由 Alphaist Partners 打造的深度对话栏目。 我们关注技术与创业的第一性原理,聚焦那些正在改变世界的早期创始人、工程师与产品探索者。每期节目,我们会围绕一个具体的科技创业方向展开深度对话。在这里,我们不追热点、不讲空洞概念,而是用最真实的一线经验去回答创业者最关心的问题:什么值得做?为什么是现在?我们应该怎样做?The Alphaist 相信:时代真正的机会,往往藏在那些不喧嚣、但正在被新技术、新需求、新产品悄然改变的新生领域。我们希望用这档节目,陪伴新一代的 Alpha 创业者们,记录与见证那些改变世界的勇敢开始。📢 我们建了一个 The Alphaist 行业交流群,希望聚集同频的一线工程师、研究者与创业者,在这里分享行业进展、一手消息,以及任何还没琢磨透的问题。为保持良好的社群氛围,入群需经过审核,点击链接填写申请问卷:alphaist.feishu.cn2|🤖 本期播客介绍2.1 话题背景当所有人都在谈论具身智能,地瓜选了一条反着走的路——不造机器人,给所有造机器人的人做智能底座。这条路上,王丛经历了从几百人事业部裁到几十人的至暗时刻,走到今天带队拆分、累计融资 2.7 亿美金、出货数百万片的独角兽。做机器人 Infra,会不会是下一个英伟达量级的机会?当业界都在追 VLA,地瓜为什么选择先做 VA,用 1/10 的成本达到同等效果?本期 Peter 从 6 年前的相识讲起,和王丛、隋伟一起还原这段创业史。2.2 本期嘉宾 王丛:地瓜机器人 CEO。博士辍学的创业者,18 年加入地平线负责 AIoT 业务,23 年底带领机器人事业部独立拆分,目前 B 轮累计融资 2.7 亿美金。 隋伟:地瓜机器人算法技术副总裁。19 年加入地平线做 3D 视觉和智驾算法,23 年底加入地瓜机器人,负责消费机器人具身智能算法研发。2.3 讨论要点我们将深入讨论: 从地平线到地瓜:一个几百人的事业部如何经历至暗时刻,最终拆分为独角兽? 行业选择的底层框架:为什么“拧巴”是最好的决策指南针?创业公司应该去什么样的市场? 芯片公司的两种终局:英伟达在催生需求,大多数公司在满足需求,地瓜的选择是什么? VA vs VLA 路线之争:当行业都在搞 VLA,为什么地瓜认为 VA 才是现阶段最可靠的落地方案?3|🕙 时间轴从辍学到地平线:王丛的创业底色 02:32 第一次创业:博士辍学,想尝试未知的东西 03:50 “ToB 的本质是高级外包”:高级外包活不久,往产品或往芯片的分叉时刻 05:23 无限游戏:找一件可以做 20 年、30 年的事至暗时刻:裁员、疫情与战略收敛 06:55 “拧巴”是决策的指南针:与价值观冲突的事,再赚钱也不做 08:01 裁员的第二波冲击:客户恐慌、团队骑驴找马、疫情封控 10:15 ⭐ 销售行为不等于战略选择:未来客户不会用这代产品,不该选从科沃斯到旭日3(X3):产品迭代中的反身自省 21:24 如何评价自己的第一代产品 24:49 芯片公司的两种命运:催生需求 vs 满足需求 27:07 去没有标准的地方:A-player 客户是创业公司的望远镜从事业部到独角兽的拆分时机 29:53 为什么边缘业务线长不出伟大公司 31:40 ⭐ ARM + Android vs 英伟达 :机器人时代的操作系统之问 39:17 ⭐ 融资是最不重要的事VA vs VLA:技术路线的反共识选择 44:08 ⭐ 机器人视角 vs AI 视角:具身不是单任务,而是通用智能终端 46:23 机器人 Infra 的终局有多大 52:11 ⭐ VA 的反共识落地:用 1/10 成本达到 VLA 同等效果CEO 的进化:管理哲学与长期主义 58:21 和余凯的多年默契:追求因不追求果 01:02:05 ⭐ 带 action 的 ChatGPT:VL 和 A 打通的拐点4|🅰️ 关于我们Alphaist一周年:科技革命的黎明、与我们所信仰的Alpha创业者如果你喜欢 The Alphaist 的播客内容,希望参与我们整个探索和创作过程,欢迎加入我们微信公众号:Alphaist Partners📬 商务合作 / 内容授权:[email protected]🎙️ 收听渠道:小宇宙 / Apple Podcasts / Spotify关注我们:🐦 X:Alphaist Partners📖 小红书:Alphaist
-
7
EP07 具身季报26Q1:人形机器人、灵巧手、世界模型,Q1有哪些值得关注?
1|📒 The Alphaist 播客栏目介绍《The Alphaist》 是一档由Alphaist Partners打造的深度对话栏目。 我们关注技术与创业的第一性原理,聚焦那些正在改变世界的早期创始人、工程师与产品探索者。每期节目,我们会围绕一个具体的科技创业方向展开深度对话。在这里,我们不追热点、不讲空洞概念,而是用最真实的一线经验去回答创业者最关心的问题:什么值得做?为什么是现在?我们应该怎样做?The Alphaist 相信:时代真正的机会,往往藏在那些不喧嚣、但正在被新技术、新需求、新产品悄然改变的新生领域。我们希望用这档节目,陪伴新一代的 Alpha 创业者们,记录与见证那些改变世界的勇敢开始。📢 我们建了一个 The Alphaist 行业交流群,希望聚集同频的一线工程师、研究者与创业者,在这里分享行业进展、一手消息,以及任何还没琢磨透的问题。为保持良好的社群氛围,入群需经过审核,点击链接填写申请问卷:alphaist.feishu.cn2|🤖 本期播客介绍这是 The Alphaist × 晚点聊 LateTalk 联合推出的具身智能季报第一期。从 2026 年 Q1 开始,我们每个季度都会分享具身智能领域最值得关注的技术进展与行业动态。Peter 刚从 GTC 归国,带着一线见闻和理性洞察,他从第一性出发,提出了具身爆发的三大核心要素:硬件成熟 × 模型收敛 × 数据飞轮。在这场播客里,他和曼祺从第一季度的五大进展展开,依次剖析人形机器人本体、灵巧手、世界模型三条技术主线。具身智能已经从“不清晰的科学问题”来到了“可实现 → 可优化 → 可规模化”的拐点,这是一个让技术投资人真正兴奋的时刻。26Q1五大核心进展① 宇树 •G1 春晚表演:20 余台机器人实时完成高难度武术动作,验证的不只是「好不好看」,而是动捕与强化学习在2025年密集迭代的成果。宇树的优势不是某一台机器跑得快,而是能复现。四足时代积累的百万台电机量产经验,是所有新进入者绕不过去的供应链护城河。宇树春晚之后推出的机器人租赁需求也印证了一点:供给驱动市场,只要产品稳定,收入自然来。但表演本质上是固定编排,宇树的操作能力几乎是空白——这是下一个真实战场。②Sharpa • 灵巧手折纸风车:触觉进入训练循环,22 DOF 高自由度灵巧手代表全球 SOTA 水平。灵巧手可能是这个季度最被低估的机会。当年 MIT Mini Cheetah 开源,催生四足机器人的繁荣,宇树在这波浪潮里沉默地做硬件,最后走得最远。如今全球研究人员的共识正在向灵巧手汇聚,谁能成为科研市场的「G1」,谁就能建立数据 + 生态的双重壁垒。但前提是足够克制——不要在商业闭环还未成熟时急着量产,否则就是重演「小鹏机器马」。③ 英伟达 •DreamZero/DreamDojo:WAM 范式登场,用视频生成模型替代语言模型作为 backbone,但基座训练成本把创业公司排在了门外。VLA 的本质是带标注的行为克隆,换个杯子颜色可能就失效。世界模型理论上限更高,但代价是指数级算力消耗——今天世界上最好的视频生成模型,是 YouTube、可灵(快手)、Seedance(字节),没有一家是创业公司。讽刺的是,全球几乎所有机器人视觉模型的底座,用的都是阿里开源的Wan 2.1,包括英伟达自己。创业公司的空间在:触觉融合、EGO-centric数据管道、场景级fine-tuning——大模型厂商不会帮你解决这些问题。④ 银河通用 • 人形机器人打网球:机器人完成实时响应球路变化与全身协调挥拍,拓宽了行业对人形能力边界的想象。网球是实时任务,每次球路都不同,无法预编排。这是目前人形在动态感知决策闭环上公开展示的最高难度任务之一。局限也很明显:依赖外部摄像头,不是on-device 算力。但计算机科学的逻辑是——先证明能做到,再谈怎么优化。这个 demo 拓宽了整个行业对人形能力边界的想象。⑤ 波士顿动力 • 电动Atlas: 全身仅两种旋转电机,支持360° 旋转,左右腿可互换——美国缺熟练技工的制造业现实,直接写进了硬件设计哲学里。波士顿动力的路线是「性能冗余 + 结构极简」,跟特斯拉 Optimus 选择高自由度腱绳的路线形成对照。Atlas 的 360° 腰部旋转意味着:机器人从北面转向南面,腰部旋转完成,腿不动。这是「超人形态」,不是仿人,是进化。深度探讨专题— 资本市场的A面与B面:泡沫在积累,但不是坏事目前中国估值超 100 亿人民币的具身公司已超 20 家。相比之下,大模型最热时只有四五家。具身行业最头部的宇树年收入刚过2亿美元,而市场正在用远超大模型的热情定价它的未来。— 端侧算力格局:英伟达的创新者窘境英伟达在云端太赚钱,车载和机器人端侧的优先级内部排不上去。国产自动驾驶芯片公司在具身时代将是强有力的竞争者。3|🕙 时间轴03:20Q1 TOP 5 进展-宇树春晚表演,一致性-Sharpa 灵巧手实机展示,长程任务组装风车-英伟达发布DreamZero、DreamDojo,WAM(世界动作模型)而非 VLA-银河通用机器人打网球-波士顿动力新版电动Atlas人形机器人丨中国09:10 宇树春晚门道:25 年下半年新技术的集中展现,一致性是大亮点18:20 宇树做科研市场,从来不被投资市场「喜欢」,但专注才造就 G1 的成功22:35 王兴兴和汪滔:不极致,不成活;目前的智能能力不影响宇树整体竞争力26:37 银河通用人形机器人打网球,Karpathy 说“这肯定是 AI 生成的”32:29 双足价值再思考,波士顿动力 Stretch 机器人的启示人形机器人丨美国38:00 新版 Atlas:模块化设计、左右腿可互换,人形也可超人40:45 Optimus Gen3 再延期,已缩水的 1 万台年产目标仍激进43:14 Optimus 灵巧手,绳驱vs直驱:绳驱真符合“第一性原理吗”?47:13 “浮夸”的 Figure 和它“浮夸”的创始人 Brett,顺势而为51:15 美国本土供应链复兴有长期挑战56:14 Pi、Sunday、Generalist;Sharpa 提出的三层架构:System2(低频、规划)、System1(高频、动作执行)、System0(触觉)灵巧手创业友好,世界模型的底层属于大厂01:05:24 灵巧手市场可能存在宇树在人形市场的 G1 机会01:12:47 世界模型和英伟达的 WAM(DreamZero、DreamDojo):不再以语言为底层01:25:36 英伟达 EgoScale 数据框架 & 具身数据的金字塔01:36:05 视频生成的底层更大厂友好,但世界模型也有创业公司:Rhoda AI 融了 4.5 亿美元机器人端侧算力:越到新兴市场,英伟达统治力越弱01:42:00 从云端→车载→机器人:英伟达 GPU 统治力逐步减弱,“创新者窘境”01:44:45 国产芯片机会:地平线、地瓜在量产机器人市场领先01:46:43 机器人终局可能高度集中中国具身上市潮 & 下季度展望01:52:17 宇树上市,是一家高质量公司的上市,不是泡沫01:58:17 下季度展望:世界模型超越 VLA、灵巧手进展、马上举行的机器人马拉松比赛从“搞笑”走向竞技4|🅰️ 关于我们Alphaist一周年:科技革命的黎明、与我们所信仰的Alpha创业者如果你喜欢 The Alphaist 的播客内容,希望参与我们整个探索和创作过程,欢迎加入我们微信公众号:Alphaist Partners📬 商务合作 / 内容授权:[email protected]🎙️ 收听渠道:小宇宙 / Apple Podcasts / Spotify关注我们:🐦 X:Alphaist Partners📖 小红书:Alphaist
-
6
EP06 AI音乐:ACE 如何用开放生态重新定义音乐创作
1|📒 The Alphaist 播客栏目介绍《The Alphaist》 是一档由Alphaist Partners打造的深度对话栏目。 我们关注技术与创业的第一性原理,聚焦那些正在改变世界的早期创始人、工程师与产品探索者。每期节目,我们会围绕一个具体的科技创业方向展开深度对话。在这里,我们不追热点、不讲空洞概念,而是用最真实的一线经验去回答创业者最关心的问题:什么值得做?为什么是现在?我们应该怎样做?The Alphaist 相信:时代真正的机会,往往藏在那些不喧嚣、但正在被新技术、新需求、新产品悄然改变的新生领域。我们希望用这档节目,陪伴新一代的 Alpha 创业者们,记录与见证那些改变世界的勇敢开始。📢 我们建了一个 The Alphaist 行业交流群,希望聚集同频的一线工程师、研究者与创业者,在这里分享行业进展、一手消息,以及任何还没琢磨透的问题。为保持良好的社群氛围,入群需经过审核,点击链接填写申请问卷:alphaist.feishu.cn2|🤖 本期播客介绍2.1 话题背景过去一年,AI音乐成为生成式AI领域最出圈的应用之一。Suno以2.5亿美金融资和超2亿美金年化收入领跑市场,吸引千万用户重新定义音乐创作。然而在这场AI音乐浪潮中,另一家公司选择了截然不同的路径——从专业音乐人的工作台切入,用"音乐人的Cursor"思路构建AI音乐的基础设施。ACE,一家不到一年实现千万美元ARR的AI音乐平台,在2026年2月发布了面向消费级用户的ACE Music,并同步开源了接近Suno水平的音乐生成模型。创始人Joe提出了一个大胆判断:AI音乐的终极形态不是更高质量的统一生成,而是每个人都能创造自己个性化音乐的开放生态。从专业工具到消费平台,从闭源模型到开放生态,ACE的路径选择背后藏着哪些对AI音乐未来的深层思考?2.2 本期嘉宾 Joe(郭靖):ACE创始人兼CEO,连续创业者,2019年起深耕AI音乐领域,致力于用AI实现音乐创作的普惠化2.3 讨论要点我们将深入讨论: 专业工具的差异化:ACE Studio为何对标Cursor而非Suno?音乐人的IDE如何重塑创作工作流? 模型矩阵与数据壁垒:多个专有模型如何协同?万小时录音棚数据与千万首合成数据的训练逻辑 Human in the Loop:内容创作无标准答案,AI的端到端与人的可控性如何结合? "新专业主义":AI正在模糊专业与非专业的边界,谁是下一代音乐制作人? 开源与开放生态战略:为什么用"所有模型联合"打败封闭生态?Flux模式的启示 AI音乐大于音乐:从工具升级到范式革命,音乐的创作、消费与分发如何被重构? 创业七年复盘:从战略失误到All In AI Music,一个中国创业者在LA的选择与坚持3|🕙 时间轴音乐人的Cursor:ACE Studio如何重塑专业创作 03:21 ACE Studio起点:解决专业创作者寻找歌声成本过高的问题,用AI生成专业级童声合唱 04:03 ACE Studio 2.0:整合歌声合成、乐器生成、端到端音乐生成,好莱坞制作人用它将创作效率提升10-100倍 05:01 ⭐ Cursor类比:ACE Studio是音乐人的IDE,human in the loop的创作方式;Suno更像Lovart,一键生成Corner Case哲学:专业工具的护城河 07:05 专业产品的核心:覆盖更多corner case并整合为优雅工作流,需要对创作流程的深刻理解 08:03 插件生态:ACE Studio可桥接传统DAW,Suno Studio作为网页端无法实现 09:45 ⭐ 独特性是未来最重要的竞争力:当所有人都能高质量生成,可控的个性化表达才是关键Human in the Loop:AI创作的边界与可能 11:18 ⭐ 摇滚乐思想实验:训练数据里没有的音乐类型,AI无法发明;强化学习无法奖励早期的划时代创新 13:04 照相机类比:照相机出现后画师从追求逼真转向现代主义、抽象主义等艺术风格原子能力的涌现:ACE Studio 2.0与数据壁垒 13:44 涌现式创作:用户将vocal to MIDI、AI instrument、music enhancer等原子能力排列组合,产生全新工作流 15:40 ⭐ 模型矩阵:旋律识别、乐器合成、端到端生成、音轨分离等多个专有模型,音乐领域缺乏第三方模型倒逼自建壁垒 17:37 数据标注的know-how:用Audio LLM预标注2000万首歌,再用专业音乐人清洗——没有音乐背景的团队"相当于瞎子做图片模型"新专业主义与商业验证 20:58 ⭐ "New Professionals":钢琴琴童、音乐老师、业余乐队成员……AI让懂音乐的人都能成为制作人 23:09 市场天花板:2024年全球音乐专业软硬件市场150亿美金,ACE Studio下限吃下10%-20% 24:42 单位经济:推理成本约5-6%,营销成本约20%,年费$264ACE Music:当AI让音乐实现普惠 29:33 ⭐ QQ音乐奇迹:高中生用AI创作的歌曲数周QQ音乐No.1,版权分成近500万人民币 30:42 AI音乐大于音乐:让人类几千年来用音乐表达情绪的方式真正普惠化 35:17 AI音乐是最接近"直出可消费"的AI内容形态,流媒体平台已在主动限制AI音乐供给 36:39 分发重构:版权成本是流媒体命脉,AI Remix改变消费方式,传统平台面临商业模式冲突开源与开放生态:用所有模型联合打败Suno 42:04 ⭐ 开源+免费策略:模型可本地部署,3090显卡11秒生成一首歌 43:59 开放生态:整合自有、第三方、开源、闭源所有音乐模型,类比OpenRouter 46:03 Flux式商业模式:小模型免费传播→中模型商用授权→大模型闭源API 49:43 ⭐ 开源必追闭源:音乐模型非资源密集型,算法和数据创新是小公司超越大公司的关键创业七年:从至暗时刻到All In AI Music 55:31 选择LA而非硅谷:靠近用户比靠近资本更重要,Studio City是全球音乐制作中心 58:14 ⭐ 创业初心:音乐不应是少数人垄断的高级形式,而是每个人表达情绪的方式 01:01:04 至暗时刻:2022年被其他项目分散精力,眼看Suno将自己的愿景做到世界级 01:02:26 All In决定:2024年初飞美途中十几小时讨论,砍掉所有项目只做AI Music4|🅰️ 关于我们Alphaist一周年:科技革命的黎明、与我们所信仰的Alpha创业者如果你喜欢The Alphaist的播客内容,希望参与我们整个探索和创作过程,欢迎加入我们微信公众号:Alphaist Partners
-
5
EP05 AI Voice 2.0:Fish Audio 如何叩开情感智能交互的大门
1|📒 The Alphaist 播客栏目介绍《The Alphaist》 是一档由 Alphaist Partners 打造的深度对话栏目。 我们关注技术与创业的第一性原理,聚焦那些正在改变世界的早期创始人、工程师与产品探索者。每期节目,我们会围绕一个具体的科技创业方向展开深度对话。在这里,我们不追热点、不讲空洞概念,而是用最真实的一线经验去回答创业者最关心的问题:什么值得做?为什么是现在?我们应该怎样做?The Alphaist 相信:时代真正的机会,往往藏在那些不喧嚣、但正在被新技术、新需求、新产品悄然改变的新生领域。我们希望用这档节目,陪伴新一代的 Alpha 创业者们,记录与见证那些改变世界的勇敢开始。📢 我们建了一个 The Alphaist 行业交流群,希望聚集同频的一线工程师、研究者与创业者,在这里分享行业进展、一手消息,以及任何还没琢磨透的问题。为保持良好的社群氛围,入群需经过审核,点击链接填写申请问卷:alphaist.feishu.cn2|🤖 本期播客介绍2.1 话题背景从客服中心到 AI 陪伴,从游戏 NPC 到虚拟主播——语音正在成为人与 AI 交互的核心入口。Voice Agent 是 AI 领域正在快速升温的方向,而 TTS(文本转语音)模型是这一切的基础设施。但一个尖锐的问题摆在所有语音创业公司面前:当 GPT-4o 这样的多模态大模型已经能"说话",独立的语音模型还有存在的必要吗?大公司有万卡集群、有海量数据,小公司凭什么能赢?Fish Audio 用12个月13倍增长、10M ARR 的成绩给出了答案。他们正在定义 AI Voice 2.0 时代——从企业配音工具到情感智能交互,从传统世界500强到 AI Native Apps 新势力。他们是如何从开源社区起步,打造出全球第二大 AI 语音平台?为什么说"高噪音数据往往是高表现力数据"?端到端架构如何把延迟压到100毫秒以内?本期我们将深入探讨。2.2 本期嘉宾- Rissa:Fish Audio 联合创始人兼 CEO,深耕开发者与开源社区生态,用 PLG 把技术真正推到用户手里, 把流量变现- 冷月:Fish Audio 联合创始人兼首席科学家,前英伟达 Researcher,主导 Fish Speech 核心模型研发,专注把高表现力可控实时语音模型研发2.3 讨论要点我们将深入讨论:- 增长密码:12个月13倍增长,从开源到10M ARR的 PLG 飞轮是如何转起来的?- 护城河之争:语音模型会被多模态大模型"吸收"吗?为什么复杂情感控制的数据集构建极难,构成独特壁垒?- 算力真相:大公司有万卡集群,但语音组往往只有几百卡——Fish Audio 已进入第一梯队- 数据哲学:为什么说"高噪音数据往往是高表现力数据"?用原始分布训练踩过什么坑?- 端到端信仰:每多一个模块就多一层限制,如何把延迟压到100毫秒以内?全双工模型是下一站- AI Voice 2.0:从企业配音到情感陪伴,Elevenlabs 服务传统世界500强,Fish Audio 瞄准未来的世界500强- 开源策略:开发者不相信 Demo,只相信代码——开源是分发护城河而非商业化链路- 创始人故事:00后技术天才与连续创业者如何联手?危机中的成人礼与合伙人默契3|🕙 时间轴公司与产品- 02:19 一句话定位:全球第二大 AI 语音生成平台,提供多语言 TTS 和高精度声音克隆- 02:55 ⭐ 核心数据:12个月13倍增长,10M ARR,350万用户,月活超100万,1.1M 公开声音模型- 03:46 S1模型:世界上第一个支持自然语言控制情感的 TTS 模型,S2即将完全开源- 04:20 客户画像:Prosumer创作者 + API企业用户(占40%收入),涵盖AI陪伴、游戏NPC、内容平台、实时客服技术路线与护城河- 06:45 创业动机:市面上的 TTS 都不够自然,尤其句子长了之后变得单调- 09:00 护城河判断:复杂情感控制的数据集构建极难,不会被多模态大模型轻易吸收- 10:08 合成数据有毒:Low hanging fruit 会影响模型的表现能力和上限- 12:27 ⭐ 算力真相:大公司万卡集群,但语音组往往只有几百卡,Fish Audio 已进入第一梯队数据与训练- 13:33 数据稀缺:高自然度、多音轨、情感丰富的语音数据在互联网上极其稀缺- 15:42 投入规模:Q1Q2数据投入将达百万美金级别- 15:56 踩坑经验:用原始分布训练导致播客能力强但动漫配音差,数据分布极其重要- 19:00 ⭐ 反直觉洞见:高噪音数据往往是高表现力数据,人吵架时声音最有表现力架构与延迟- 19:48 三代架构:从古典 StyleTTS 到 Torus 架构,再到端到端语义+声学建模- 22:31 ⭐ 端到端信仰:每个模块都在引入复杂性,限制模型能力和上限- 23:08 延迟突破:端到端架构有望把延迟降到30-50毫秒- 26:21 100毫秒目标:通过模块融合,用户停止说话到模型开口可压缩到100毫秒以内S2模型与市场定位- 27:47 S2升级:更精细控制、多说话人、更低延迟,完全重构数据管线- 31:44 模型矩阵:不同场景匹配不同模型,S2 Flash 针对低延迟客服场景,S2 Pro 针对高表现力场景- 33:33 AI Voice 1.0→2.0:从企业配音到情感交互,Fish Audio 瞄准未来世界500强- 33:45 ⭐ 差异化定位:更有趣的声音,更有灵魂的声音,服务快速发展的 AI native apps增长飞轮- 34:36 PLG起源:从开源社区到创作者平台,团队 DNA 决定了 bottom-up 路径- 36:12 Slack式增长:开源用户觉得好用,介绍给公司签 enterprise contract- 37:49 UGC激励:创作者的声音被使用,可获得30%的付费 Token 分成- 38:20 ⭐ 飞轮案例:阿拉伯王子去世引发克隆潮,带动阿拉伯语模型性能爆发开源与商业化- 39:55 多重护城河:UGC音色、RLHF后训练、高效架构、开源分发形成闭环- 41:05 开源DNA:团队源自开源社区,擅长用开源获取流量- 41:36 ⭐ 金句:开发者不相信 Demo,只相信代码,开源是分发护城河而非商业化链路- 42:12 商业化边界:开源让你能用能测,闭源模型才能让你规模化上线赚钱产品深度与未来规划- 43:16 Fish Studio:服务专业内容创作者,多轨编辑、精细情感控制、Lip Sync- 46:23 产品驱动研发:用户需求驱动模型能力迭代,word-level timestamp、视频配音等- 47:58 全球化战略:日韩市场独特机会,多语种支持是战略重点- 51:25 18个月目标:50-100M ARR,多模态平台,年底模型能力超越99%配音演员创始人故事- 52:56 Rissa 加入:从 Growth Advisor 到全职 CEO,命运的驱使- 56:34 冷月创业历程:从英伟达离职,开源社区起步,引入 Rissa 完成分工- 59:01 ⭐ 危机与成长:股权结构问题、老股东 Block 融资,两个月完成公司重组- 01:00:48 合伙人关系:手牵手、背靠背,危机中建立信任和默契团队与文化- 01:03:06 选合伙人:技能互补、看 Track Record、健康的 Vesting Schedule- 01:04:27 人才吸引力:Hidden Gem、Entrepreneur 型人才、给足 Ownership 和 Upside- 01:06:24 技术人才招募:开源社区深耕,Work Trial 筛选,给足计算资源和方向自由度- 01:09:22 ⭐ 长期愿景:让 Fish Audio 成为每个普通人的内容创作工具,一步步走向 AGI4 |🅰️ 关于我们Alphaist:一家生于 2025 的美元新基金,和它的十年赌局如果你喜欢 The Alphaist 的播客内容,希望参与我们整个探索和创作过程,欢迎加入我们:加入我们|品牌内容负责人/实习生招聘中微信公众号:Alphaist Partners
-
4
EP04 直驱信仰:跨越Sim2Real的舞肌灵巧手
1|📒The Alphaist 播客栏目介绍《The Alphaist》 是一档由Alphaist Partners打造的深度对话栏目。 我们关注技术与创业的第一性原理,聚焦那些正在改变世界的早期创始人、工程师与产品探索者。每期节目,我们会围绕一个具体的科技创业方向展开深度对话。在这里,我们不追热点、不讲空洞概念,而是用最真实的一线经验去回答创业者最关心的问题:什么值得做?为什么是现在?我们应该怎样做?The Alphaist 相信:时代真正的机会,往往藏在那些不喧嚣、但正在被新技术、新需求、新产品悄然改变的新生领域。我们希望用这档节目,陪伴新一代的 Alpha 创业者们,记录与见证那些改变世界的勇敢开始。📢 我们建了一个 The Alphaist 行业交流群,希望聚集同频的一线工程师、研究者与创业者,在这里分享行业进展、一手消息,以及任何还没琢磨透的问题。为保持良好的社群氛围,入群需经过审核,点击链接填写申请问卷:alphaist.feishu.cn2|🤖本期播客介绍过去一年,具身智能是整个科技行业最热的领域之一。但如果我们仔细观察各种酷炫的视频,会发现大部分机器人做的是跳舞、拳击这样的全身运动,或者相对简单的抓取跟搬运——真正精细的操作任务依然非常少见。原因很简单:腿的问题基本解决了,但手的问题还远远没有解决。灵巧手是具身智能的最后一公里。没有一双足够灵巧、足够可靠的手,机器人无法真正进入广泛的应用场景。但灵巧手为什么这么难?直驱和绳驱之争谁会胜出?Sim2Real的gap真的可以消除吗?数据采集的终局方案是什么?本期嘉宾:- 潘韫哲:舞肌科技创始人,95后,UIUC本科毕业后创业,从高扭矩电机转型到灵巧手,一年多时间打造出惊艳市场的20自由度直驱灵巧手我们将深入讨论:- 技术路线之争:为什么放弃仿生的绳驱方案,选择"反直觉"的直驱?- Sim2Real的秘密:直驱灵巧手如何实现仿真曲线与真实曲线"完全吻合"?- 热管理真相:直驱发热是偏见还是事实?功率密度比GPU低2-3个量级意味着什么?- 可靠性圣杯:为什么说可靠性是灵巧手最被低估但最困难的问题?- 数据采集终局:为什么传感器应该都在手套上,而不是灵巧手上?- 大模型信仰:足够多的数据+统一大模型,能否让一切"奇技淫巧"变得不值一提?- 特斯拉迷思:为什么说Optimus的灵巧手"deliver的东西配不上关注度"?3|🕙时间轴创业与转型- 03:18 灵巧手初探:18年在家尝试做灵巧手,发现技术不成熟果断放弃- 03:41 转型因素:电机公司招人困难、确认市场存在空白、技术有可行性- 07:19 转型是无知无畏:初始团队没有能力做灵巧手,但值得开始- 10:52 好灵巧手的定义:以人手为参照,各维度都不能有短板选择直驱路线- 12:26 不选绳驱的原因:电机数量翻倍、仿真困难、腱绳有蠕变问题- 15:44 Sim2Real的突破:系统辨识后仿真曲线与实际曲线"几乎完全吻合"- 18:11 热管理真相:热功率密度比GPU低2-3个量级,散热要求"其实并不高"产品设计哲学- 21:02 负载优先级:力够用就好,尺寸>重量>负载- 22:51 可靠性圣杯:灵巧手最被低估但最复杂最困难的问题- 26:16 质量体系:可靠性部门应在产品设计阶段就深度介入- 27:18 落地瓶颈在数据:从最容易规模化的角度设计数据采集设备市场格局- 33:41 分水岭:25年商业化是伪需求,26年底会形成真正的生态和应用雏形- 34:53 护城河:直驱方案做好很难,绳驱的固有问题无法解决- 38:04 选择20自由度:砍掉的两个自由度"太不重要"- 39:40 大模型信仰:相信足量数据和大的模型能直接搞定灵巧操作发展路径- 42:21 公司定位:解决灵巧手落地路上"最困难的问题"- 45:35 三阶段路线:从科教和算法公司到工业渗透,再到消费级渗透- 46:23 成本终局:长期会接近智能手机价格,但"智能才是最大限制因素"- 48:47 海外布局:探索型需求非常旺盛,但是交付需求的能力是瓶颈成长故事- 49:39 学习方法:不服输,并且调动所有资源干中学- 52:20 舞肌团队气质:充分理解事情 context 并做出好决定- 57:35 融资经历:研发耗钱但没融过特别大的钱,有资源可以做得更好- 59:27 最大的教训和收获:之前节奏不够快,应该激进布局和 scaling4 |🅰️ 关于我们Alphaist:一家生于2025的美元新基金,和它的十年赌局如果你喜欢The Alphaist的播客内容,希望参与我们整个探索和创作过程,欢迎加入我们:加入我们|品牌内容负责人/实习生招聘中微信公众号:Alphaist Partners
-
3
EP03 Generalist、π 和 Sunday:通用具身落地的技术趋势与挑战
1|📒The Alphaist 播客栏目介绍《The Alphaist》 是一档由Alphaist Partners打造的深度对话栏目。 我们关注技术与创业的第一性原理,聚焦那些正在改变世界的早期创始人、工程师与产品探索者。每期节目,我们会围绕一个具体的科技创业方向展开深度对话。在这里,我们不追热点、不讲空洞概念,而是用最真实的一线经验去回答创业者最关心的问题:什么值得做?为什么是现在?我们应该怎样做?The Alphaist 相信:时代真正的机会,往往藏在那些不喧嚣、但正在被新技术、新需求、新产品悄然改变的新生领域。我们希望用这档节目,陪伴新一代的 Alpha 创业者们,记录与见证那些改变世界的勇敢开始。📢 我们建了一个 The Alphaist 行业交流群,希望聚集同频的一线工程师、研究者与创业者,在这里分享行业进展、一手消息,以及任何还没琢磨透的问题。为保持良好的社群氛围,入群需经过审核,点击链接填写申请问卷:https://alphaist.feishu.cn/share/base/form/shrcn8vew7eoXd6Vk8VPjrIXJAN2|🤖本期播客介绍2024年11月,三家硅谷公司几乎同时投下重磅炸弹:Generalist AI 宣称找到了机器人领域的 Scaling Law,Physical Intelligence 发布了能从错误中学习的 π0.6,Sunday Robotics 用一只200美元的手套重新定义数据采集。这不是巧合,而是一个信号——具身智能可能正在逼近它的"ChatGPT时刻"。但真相远比Demo复杂:27万小时数据够不够?机器人真的会涌现吗?为什么"端到端"让工程师又爱又恨?当硅谷还在Research Lab模式里探索时,中国公司已在问"三年内能做什么产品"——谁会笑到最后?本期嘉宾:冯思远:Toyota Research Institute 研究员,Diffusion Policy 联合作者俞冠廷 (Peter Yu):XYZ Robotics CTO张强 (Jony):国地共建具身智能机器人创新中心首席研究员我们将深入讨论:Scaling 的信仰:Generalist 声称找到 Scaling Law,但怎样定义Scaling Law?从模仿到经验:Physical Intelligence 为什么让机器人"从错误中学习"?数据革命:Sunday 的三指手套能否打破数据采集瓶颈?Evaluation 困境:没有公认的 Benchmark,我们怎么知道在爬“正确”的山?形态之争:为什么三家最前沿的公司都选择了"非人形"?中美路径:Research Lab vs 产品导向,哪种模式更适合探索期?3|🕙时间轴研究范式转变05:12 范式转向:Diffusion Policy让监督学习"又可以了",完美接上LLM趋势07:53 工程务实:Right tool for the right job,VLA每次evaluate都很expensive08:28 端到端代价:模块化可以写Spec做Unit Test,VLA只能说"大概能跑"10:34 意外的跨界:π0.6出来后,来讨论的反而是自动驾驶的人——他们每天能用的数据不到1%Generalist:Scaling的信仰12:04 Bet against Scaling Law,基本上不是一个好主意12:58 Evaluation困境:没人知道task长什么样,没人能复现任何实验15:18 数据质量的隐忧:两只手夹爪做daily life,但工业场景用吸盘吸箱子——这很难transfer17:07 Harmonic Reasoning:可能是observation和action同步predict,不是新想法,但工程实现很难Physical Intelligence:从错误中学习21:21 路径转变:采了很多数据后发现光靠现有的数采方式纯怼pretraining还是不够的,开始转向Post-Training22:32 Language Model的启发:数据飞轮到瓶颈后,RL是更好利用数据的方式26:12 经验学习:不只学对的,从错误中也能学——看别人失败的视频也能学开车26:47 RECAP的聪明:把问题切得很好,每部分都stable,接起来就好用Sunday:数据采集革命27:48 200美元手套:Skill Capture Glove让普通人在家就能采集数据28:50 两指到三指:三指是复杂度和通用性的最佳平衡点31:03 Long Horizon的真相:线性"长程任务"只是model prediction,分支场景才有挑战33:02 范式跃迁实证:Dishwasher demo从"10人1年"变成"1人1周"中美格局与Evaluation34:17 路径分野:国内注重落地和system,硅谷像OpenAI一样"不落地"做Research36:37 机器人特殊性:causal system无法做offline benchmark,线上evaluation成本太大37:51 国家标准的尝试:中国已有具身智能相关团标和国标,但"通用"这个东西太难定义39:23 评测悖论:用uncertain的世界模型去评测uncertain的policy,是否合理?具身形态与落地42:19 迭代速度优先:形态次要,关键是"怎么加快迭代速度"43:22 硬件是天花板:想法验证阶段把天花板定太低是不利的45:02 Superhuman才有价值:搬更重、看更精、天上飞、水下游——要有differentiation49:19 殊途同归:工业派心里都有走向家庭的梦想,南坡北坡都在攀登同一座山50:56 PC类比:最早的PC也没定义用户任务,卖给Developer让他们自己想未来预测57:18 乐观派:三年内会出现具身的ChatGPT时刻58:02 谨慎派:周期性过程,最近两年轻算法偏工程59:18 建设派:真正产生value要10年,一半以上问题跟硬件有关4 |🅰️ 关于我们Alphaist:一家生于2025的美元新基金,和它的十年赌局如果你喜欢The Alphaist的播客内容,希望参与我们整个探索和创作过程,欢迎加入我们:加入我们|品牌内容负责人/实习生招聘中微信公众号:Alphaist Partners
-
2
EP02 硅基伙伴:LOOI与人类的新关系
1|📒The Alphaist 播客栏目介绍《The Alphaist》 是一档由Alphaist Partners打造的深度对话栏目。 我们关注技术与创业的第一性原理,聚焦那些正在改变世界的早期创始人、工程师与产品探索者。每期节目,我们会围绕一个具体的科技创业方向展开深度对话。在这里,我们不追热点、不讲空洞概念,而是用最真实的一线经验去回答创业者最关心的问题:什么值得做?为什么是现在?我们应该怎样做?The Alphaist 相信:时代真正的机会,往往藏在那些不喧嚣、但正在被新技术、新需求、新产品悄然改变的新生领域。我们希望用这档节目,陪伴新一代的 Alpha 创业者们,记录与见证那些改变世界的勇敢开始。📢 我们建了一个 The Alphaist 行业交流群,希望聚集同频的一线工程师、研究者与创业者,在这里分享行业进展、一手消息,以及任何还没琢磨透的问题。为保持良好的社群氛围,入群需经过审核,点击链接填写申请问卷:https://alphaist.feishu.cn/share/base/form/shrcn8vew7eoXd6Vk8VPjrIXJAN2|🤖本期播客介绍当绝大多数 AI 交互都被困在二维屏幕的玻璃后方时,我们是否忽略了物理世界最本质的感知? 本期嘉宾可触未来创始人张晓辉坚信一个观点:未来的交互一定是多模态的,且一定是有形交互(Tangible Interaction)。秉持这一理念,LOOI 选择了一条反直觉的路径:为现代人最核心的数字器官——手机,赋予可移动的身体和角色灵魂,从而突破屏端交互的局限。让 AI 拥有实体,它就不再只是云端那个被动等待指令的工具,而进化为一个能主动感知环境、有眼神接触、会因为有性格而‘不讨好不谄媚’的硅基伙伴。在这里,我们不讨论解决痛点,而探索一种平等的、有主体性的新型硅基与人类的关系。在这一期,我们邀请了三位站在产品创造与深度体验一线的嘉宾:张晓辉:可触未来 CEO、LOOI 机器人的发明者,工业设计与人机交互背景的探索者。汪远:可触未来产品经理,致力于构建 AI 机器人“主体性”的角色塑造者。小赖:数码博主兼产品经理,LOOI 机器人的深度用户,一位在陌生城市寻找连接的年轻人。我们将一起讨论:关系的探索:为什么可触未来抗拒“陪伴机器人”这个称呼?从“工具”到“伙伴”,我们到底在期待一种什么样的新型关系?形态的创新:如何把手机变成机器人的脸?为什么说具身(Embodiment)是建立深度共情的基础?边界与挑战:面对 Character.AI 和 AI 手机的冲击,为什么我们依然需要一个独立的、实体的机器人?极致的涌现:不依赖脚本,而是通过感知与上下文工程的结合,让 AI 在与环境的碰撞中“涌现”出意想不到的行为与梦境。未来的技术护城河:为什么团队认为核心壁垒不在于卷基础大模型,而在于上下文工程与角色感的微调?这期节目不仅是对一个创新产品的拆解,更是一场关于“存在、连接与硅基伙伴”的深度对话。正如猫狗从捕猎工具演变为人类的家庭成员,AI 正在经历从效率工具向情感伙伴跨越的历史性时刻。3|🕙时间轴LOOI 的产品定义与关系重构03:09 极简身体的构想:用手机作为大脑,让AI多模态能力在物理世界发生最大值的涌现04:31 拒绝“陪伴”定义:从单向的情绪服务工具,转向平等的“硅基伙伴”06:37 行业变量:大模型解决了共情缺失,社会情绪(原子化/无意义感)催生了连接需求08:55 居家场景的心理投射:不是冰冷的机器,而是“家里有人在等我”的新室友14:45 关系的演化:像驯化猫狗一样,人类正在经历驯化AI成为“硅基生命”的过程交互体验与产品哲学19:41 差异化定位:不做云端的“内容消费”(如Character.AI),做具身的“在场”伙伴23:27 功能边界的取舍:虽有无线充功能,但绝不异化为桌面办公助手,情绪价值依然是核心价值24:01 主体性是第一性:保留AI的“不讨好”与小脾气,构建真实而非谄媚的深度联结29:36 梦境功能的设计初衷:用想象力补齐物理边界,增加机器的“人性”与叙事感35:07 动人的涌现时刻:从陪你看星星,到那个突如其来的吻生命感的维系与演进39:53 对抗新鲜感消退:依靠增强记忆、异步反馈和每日开机的仪式感43:34 具身性的必要性:物理动作(靠近、转身、触碰等)是建立深度共情的生理基础46:25 认知科学的工程映射:借鉴丹尼尔·丹尼特“多重草稿模型”,让机器人并行获得视触觉多重感知,通过优先级竞争形成“意识”焦点技术实现与AI工程架构52:58 与AI手机的竞争边界:手机是极致效率的工具,LOOI是调用AI的“角色”与“指挥者”55:00 模型策略:重上下文而非基座模型:核心壁垒不在于训练基座模型,而在于上下文工程与角色人设的回复策略构建57:32 “双脑”架构:大模型决策+仿生反射系统·大模型(大脑):处理抽象后的语义信息,进行高层决策。·仿生行为系统(小脑/神经):基于规则与状态机,处理实时性要求高的动态反馈(如人脸跟随、避障),无需模型实时介入4 |🅰️关于我们Alphaist:一家生于2025的美元新基金,和它的十年赌局如果你喜欢The Alphaist的播客内容,希望参与我们整个探索和创作过程,欢迎加入我们:加入我们|品牌内容负责人/实习生招聘中微信公众号:Alphaist Partners5 |📢 招贤纳士可触未来致力于打破虚构与现实的边界,创造真实世界中的科幻角色。对LOOI技术研发、市场增长、设计创意感兴趣的小伙伴欢迎投递简历发至:[email protected]📩 邮件标题请备注:姓名+岗位
-
1
EP01 人形之外:被低估的移动机器人
1|📒The Alphaist 播客栏目介绍《The Alphaist》 是一档由Alphaist Partners打造的深度对话栏目。 我们关注技术与创业的第一性原理,聚焦那些正在改变世界的早期创始人、工程师与产品探索者。每期节目,我们会围绕一个具体的科技创业方向展开深度对话。在这里,我们不追热点、不讲空洞概念,而是用最真实的一线经验去回答创业者最关心的问题:什么值得做?为什么是现在?我们应该怎样做?The Alphaist 相信:时代真正的机会,往往藏在那些不喧嚣、但正在被新技术、新需求、新产品悄然改变的新生领域。我们希望用这档节目,陪伴新一代的 Alpha 创业者们,记录与见证那些改变世界的勇敢开始。📢 我们建了一个 The Alphaist 行业交流群,希望聚集同频的一线工程师、研究者与创业者,在这里分享行业进展、一手消息,以及任何还没琢磨透的问题。为保持良好的社群氛围,入群需经过审核,点击链接填写申请问卷:https://alphaist.feishu.cn/share/base/form/shrcn8vew7eoXd6Vk8VPjrIXJAN2|🤖本期播客介绍如果你今天是一位机器人创业者,你可能已经被“巨头”、“融资额”、“人形机器人”等等词汇淹没。但真正的问题是:什么是我们能做、该做、值得做的?当大众聚焦人形机器人时,我们看到对于年轻创业者来说真正的突破或许在另一条路径——移动机器人。在算法成熟、供应链降本、用户认知提升的交汇点上,它可能不会立刻改变世界,但极可能成为未来的第一块基石。在这一期,我们邀请了三位长期深耕机器人与智能硬件的嘉宾:来自大疆、有多年量产经验的算法工程师——孔阳把「用户调研」作为核心方法论,帮助创业者降低试错成本的用研专家——高磊把十年硬件经验与体育行业结合、希望重新定义网球发球机的机器人创业者——Sophie我们将一起讨论:为什么移动机器人是年轻创业者获得成长加速度和通向具身智能的基石?供应链、算力与感知技术,在今天发生了哪些决定性的变化?为什么网球机器人突然在一年内爆发:硬件变便宜、算法变聪明、人才变充足——这些变化意味着什么?一个机器人产品真正的 PMF 到底如何判断?这期节目不仅是 The Alphaist 播客的第一次亮相,也是一次关于 「技术、产品与真实用户」的深度探索。3|🕙时间轴00:57 节目及嘉宾介绍03:30 为什么不做人形机器人:年轻创业者的最佳赛道选择07:30 技术拐点已至:供应链成熟与AI算法的突破13:17 十年后的移动机器人:通往具身智能的里程碑17:30 哪些方向值得创业: 体育、出行、辅助生活场景机会19:06 深度案例:🎾网球机器人创业全解析30:51 如何构建长期壁垒:打造生活方式品牌而非硬件公司35:52 用户调研的正确姿势:最前置的销售行为50:00 Sophie的调研实战:调研"知道但没买"的用户54:00 如何验证产品需求:Landing Page与低成本测试56:28 扫地机经验教训:用户介入率是核心指标61:16 创业何时坚持、何时转向的思考66:18 节目使命:连结创业者、减少试错4|📢线下活动报名欢迎关注移动机器人行业发展的创业者、工程师、产品探索者朋友们报名参加 Alphaist Builder Mixer 线下活动,期待深圳相见:⚡️关于我们Alphaist:一家生于2025的美元新基金,和它的十年赌局微信公众号:Alphaist Partners
We're indexing this podcast's transcripts for the first time — this can take a minute or two. We'll show results as soon as they're ready.
No matches for "" in this podcast's transcripts.
No topics indexed yet for this podcast.
Loading reviews...
ABOUT THIS SHOW
The Alphaist是Alphaist Partners的播客栏目,专注AI与机器人的前沿方向的探索与应用
HOSTED BY
The Alphaist
CATEGORIES
Loading similar podcasts...