All Episodes
Seventy3 — 597 episodes
【第592期】大语言模型多智能体规划的可靠性界限
【第591期】推理模型成本反转现象:标价与实际开销的脱节
【第590期】内源性悖论:LLM智能体系统的自组织协调机制
【第589期】代码智能体:长文本处理的高效利器
【第588期】Meta-Harness:自动化端到端模型装具优化系统
【第587期】CAID:基于软件工程原语的异步多智能体协作
【第586期】AI智能体陷阱:自主系统的威胁架构与安全防御
【第585期】大模型情感概念与功能表征研究
【第584期】MEMCOLLAB:基于对比轨迹蒸馏的跨智能体协同记忆
【第583期】Attention Residuals:注意力残差破解深度稀释
【第582期】Claudini:利用AI代理自动研发LLM对抗攻击算法
【第581期】ARC-AGI-3:迈向通用人工智能的智能体评估基准
【第580期】智能体AI与社会性智力大爆发
【第579期】HyperAgents:AI自主重写源码进化
【第578期】FlashAttention-4:针对 Blackwell 架构的算法与内核协优设计
【第577期】Memex:基于索引经验记忆的长程大模型智能体量化策略
【第576期】KARL:通过强化学习构建知识型智能体
【第575期】尖峰、稀疏与汇聚:大模型异常激活解析
【第574期】SkillNet:构建与评估AI技能的开放式架构
【第573期】AutoHarness:自动合成大模型智能体代码外壳
【第572期】OpenDev:基于Rust的终端原生AI编码智能体架构
【第571期】AgentHub:人工智能代理注册与治理平台
【第570期】大模型智能体记忆检索与写入策略诊断研究
【第569期】Aegean:基于分布式共识的大模型多智能体推理框架
【第568期】Auton Agentic AI Framework:规范化自主智能体架构与治理
【第567期】Numina-Lean-Agent:通用数学形式化推理系统
【第566期】大语言模型多智能体系统的心理理论与内部信念评估
【第565期】语言统计对称性塑造模型表示几何
【第564期】Trace-Free+:课程学习驱动的LLM智能体工具接口优化归纳
【第563期】贝叶斯教学:提升大语言模型的概率推理能力
【第562期】ActionEngine:状态机驱动的程序化GUI智能体
【第561期】AgentConductor:强化学习驱动的多智能体代码生成拓扑演化
【第560期】Doc-to-LoRA:学习即时将上下文内化为模型参数
【第559期】PAHF:基于人类反馈的个性化智能体持续学习
【第558期】Trace-Free+:大语言模型智能体工具描述改写框架
【第557期】代码化上下文:大型代码库的 AI 智能体架构
【第556期】深度思维率:量化大模型推理效能的新维度
【第555期】编码代理中 AGENTS.md 上下文文件的效用评估
【第554期】从AGI到SAI:超越通用人工智能的专业化进路
【第553期】混乱之源:自主AI代理红队测试研究报告
【第552期】SKILL-INJECT:大模型智能体技能注入攻击基准测试
【第551期】AgentSkiller:面向通用智能体的全自动大规模合成数据框架
【第550期】AdaptEvolve:基于置信度自适应选择的进化智能体系统
【第549期】EchoJEPA:超声心动图潜在预测基础模型
【第548期】Agyn:基于多智能体协作的自主软件工程系统
【第547期】InftyThink+:基于强化学习的无限视野高效迭代推理框架
【第546期】SKILLRL:基于递归技能增强强化学习的智能体进化
【第545期】LLaDA2.1:通过令牌编辑加速文本扩散
【第544期】ALMA:通过元学习自动化智能体记忆设计
【第543期】智能体原语:多智能体系统的可复用潜空间构建模块
【第542期】A-RAG:层次化检索接口驱动的智能体RAG框架
【第541期】InfMem:超长文本智能体的系统2记忆控制策略
【第540期】基于策略拍卖的小型智能体规模化扩展
【第539期】xMemory:超越RAG的智能体解耦与聚合存储系统
【第538期】TinyLoRA:仅需13个参数的学习推理之旅
【第537期】AI攻克埃尔德什数学难题进展报告
【第536期】【shownotes彩蛋】让AI给自己当家教
【第535期】SDPO:通过自我蒸馏强化丰富反馈学习
【第534期】VibeTensor:AI智能体全生成的深度学习系统软件
【第533期】AI辅助对编程技能形成的冲击研究
【第532期】词元级过滤切除AI危险知识
【第531期】Kimi K2.5 技术报告:迈向通用智能体之路
【第530期】变形门罗币交易:规避反洗钱监管的技术挑战
【第529期】区块链系统信息隐私:攻击、保护与多层级评价综述
【第528期】AI编程智能体:效率提升与质量债的博弈
【第527期】MCP-SIM:自校正多智能体物理仿真框架
【第526期】Terminal-Bench 2.0:复杂命令行任务智能体基准测试
【第525期】OneFlow:基于单智能体基准重构多智能体工作流价值
【第524期】AI智能体认知压缩器:长程任务中的记忆控制
【第523期】推理模型的思想社会:CoT中的社交与协作行为研究
【第522期】TTT-Discover:通过测试时训练实现科学发现
【第521期】Mimblewimble加密货币协议的形式化安全分析
【第520期】SimpleMem:大语言模型智能体的高效终身记忆框架
【第519期】Focus智能体:LLM自主上下文压缩与内存管理
【第518期】AgeMem:大语言模型智能体统一记忆管理框架
【第517期】Dr. Zero:无训练数据的自进化搜索智能体
【第516期】DroPE:移除位置嵌入实现大语言模型零样本上下文扩展
【第515期】Meta_AI看视频学会通用动作
【第514期】量子时代区块链安全威胁与抗量子迁移策略
【第513期】TariScript:为Mimblewimble引入动态脚本
【第512期】Mimblewimble:一种可扩展且隐私的区块链支付系统方案
【第511期】深度增量学习:广义残差连接与几何变换映射
【第510期】研究计划生成模型的微调与跨领域评估
【第509期】GDPO:多奖励强化学习的解耦归一化策略优化
【第508期】SAGA:科学发现中的动态目标演化自主智能体
【第507期】mHC:流形约束超连接的大规模稳定训练
【第506期】深度序列模型中的几何记忆谜题
【第505期】TTT-E2E:长文本建模的端到端测试时训练模型
【第504期】Engram:大语言模型条件存储与扩展查表机制
【第503期】突破最短路径Dijkstra 算法的算法研究
【第502期】Polymarket无风险套利
【第501期】基于可验证奖励强化学习的未来事件预测
【第500期】平衡工作证明:多重哈希关联挖矿理论
【第499期】ZAMA:可编程自举助力深层神经网络全同态推理
【第498期】CryptoNote v2.0 - Monero 白皮书
【第497期】Tornado Cash:隐私解决方案白皮书
【第496期】Zerocash:基于zk-SNARKs的分散式匿名支付方案
【第495期】Self-play SWE-RL:基于自我博弈的软件工程智能体强化学习
【第494期】DeepCode:开放式AI自主编程框架
【第493期】迈向协同超级智能:AI与人类的协同演进
【第492期】智能体AI适配:智能体与工具的协同演化综述
【第491期】多智能体系统规模化扩展科学研究
【第490期】STRATUS:基于大语言模型的多智能体自主运维系统
【第489期】Puppeteer:基于强化学习的动态多智能体协同框架
【第488期】DeepSeek-V3.2:通过稀疏注意力和强化学习突破智能极限
【第487期】EGGROLL:基于低秩学习的大规模演化策略优化
【第486期】HunyuanOCR:通用端到端视觉语言模型技术报告
【第485期】大语言模型扩展的理论极限与约束综述
【第484期】LAMP:赋能经济决策的语言增强多智能体强化学习
【第483期】Seer:面向同步大型语言模型强化学习的在线上下文学习系统
【第482期】SAM3:Segment Anything with Concepts
【第481期】GPT-5已成科研共同作者
【第480期】AsyncThink:学习组织语言模型的智能体协作AI
【第479期】AlphaProof:深度强化学习形式化数学证明
【第478期】Intelligence Per Watt:本地人工智能的智能功耗效率测量
【第477期】代码大语言模型:训练、评估与应用
【第476期】多智能体经济:A2A协议增强与微支付
【第475期】bBoN:让AI操作赶上人
【第474期】苹果SALT:如何用笨老师教出顶尖AI
【第473期】DeepSeek稀疏注意力提升长上下文效率
【第472期】LLM-JEPA:大语言模型联结嵌入预测架构
【第471期】AI当同事:为什么我的AI你不许碰
【第470期】上下文学习:脆弱的统计学家
【第469期】K2-Think:小模型的大推理能力
【第468期】LiveMCP-101:多步工具调用的基准测试与分析
【第467期】强化学习中LLM的层次推理与HICRA
【第466期】AI自我进化_三定律与活组织
【第465期】AI如何“心算”:隐性推理三大范式
【第464期】视觉故事写作:可视化编辑叙事文本
【第463期】(NVIDIA)UDR:AI研究告别黑箱_人类制定策略
【第462期】Fhevm:全同态加密机密智能合约协议
【第461期】AI科学家如何独立完成颠覆性科研发现
【第460期】Memento:无须微调大模型的LLM智能体记忆学习范式
【第459期】Anemoi:基于A2A通信的半中心化多智能体系统
【第458期】OPENCUA:开放式计算机使用代理框架
【第457期】清华智谱破壁AI操作电脑三大难题
【第456期】OPPO如何用“智能体链”打败GPT-4
【第455期】A1:大语言模型驱动的智能合约漏洞利用系统
【第454期】面向盈利漏洞的智能合约模糊测试
【第453期】虚拟智能体经济体的构建与治理
【第452期】OpenAI:语言模型产生幻觉的统计根源
【第451期】AI有了外置记忆体如何持续进化
【第450期】OPPO智能体链:用低成本造出超级AI
【第449期】代理网络时代:从信息搜索到AI行动工厂
【第448期】智能体性能过剩是成本陷阱
【第447期】(Ledger)区块链供应链八成项目失败原因
【第446期】(Ledger)区块链如何解决跨境诉讼文书送达难题
【第445期】(Ledger)机器学习揭示DeFi协议家族指纹比功能更重要
【第444期】(Ledger)区块链知识评估困境与两把新尺子
【第443期】(Ledger)比特币十年网络结构演变与价格泡沫之谜
【第442期】(Ledger)稳定币四象限矩阵与风险生存图鉴
【第441期】(Ledger)DeFi是模仿还是创新_借贷超额抵押的真相
【第440期】(Ledger)二十一万美金保护五万仓位的市场中性策略
【第439期】(Ledger)区块链:从“智慧城市”到“生存基石”——揭秘难民营与贫困社区的信任重建与经济激活
【第438期】(Ledger)加密交易所数据审计:价值568亿美金的“未平仓合约”谎言与市场操纵内幕
【第437期】(Ledger)NFT市场揭秘:AI与人谁更值钱?数据告诉你“谁在卖”比“如何创”更重要
【第436期】(Ledger)NFT市场乱象终结?消费者“平均行为”竟能提前四个月预测行情走向(内含巨鲸与滞后机制)
【第435期】(Ledger)碳信用上链的未来:代币化、流动性与“异质性”困境的深度解析——基于剑桥大学研究报告
【第434期】(Ledger)击破B2B信任危机:区块链如何用“三重记账法”颠覆复式记账
【第433期】(Ledger)Terra_UST_算法稳定币崩盘内幕:首尔大学报告揭示“赎回惩罚”如何引爆死亡螺旋
【第432期】(Ledger)比特币闪电网络:为何绝大多数节点运营者“赔本赚吆喝”,却仍乐此不疲?
【第431期】(Ledger)太阳能挖矿是真绿色福音还是伪科学?——经济模型揭秘:规模、地点与比特币的千倍回报潜力
【第430期】(Ledger)加密币隐私攻防_Mimblewimble对决Zcash
【第429期】(Ledger)HLF-Kubed:轻量级K3s与Fabric联手,如何在树莓派上构建去中心化边缘集群监控
【第428期】(Ledger)Alice的秘密:Mimblewimble与Zerocash在“对手方勾结”下的身份风险
【第427期】(Ledger)破解加密联动性:大小币种同步与跨频耦合的投资组合策略
【第426期】(Ledger)加密货币的“网络效应”是神话还是现实?比特币、以太坊等六大币种竞争与市场集中度研究揭秘
【第425期】(Ledger)比特币交易的“野性”与“漏洞”:小时级别均值回归和连锁爆仓机制深度解析
【第424期】(Ledger)双区块链架构如何破解电子投票的“安全vs隐私”难题:一篇顶刊论文的深度解析
【第423期】(Ledger)比特币“异常天数”的秘密:挑战EMH,量化预测月度收益的0
【第422期】(Ledger)颠覆DeFi借贷:双向抵押如何将加密资产变“活钱”,LTV翻倍背后的新风险与平衡点
【第421期】(Ledger)揭秘加拿大央行报告:比特币泡沫破裂后(2018)谁在持有?知识越少越敢买?
【第420期】(Ledger)DIPS协议揭秘:如何让比特币挖矿“变有用”?节能、科研与“布勃卡”难题的博弈
【第419期】(Ledger)区块链颠覆铁路?从中心化到“火车自治”:智能合约如何重塑天价级安全控制系统与M2M经济
【第418期】(Ledger)区块链“易物机”揭秘:如何用智能合约解决“需求的双重巧合”难题?
【第417期】(Ledger)硬核解读RTT:如何用“实时目标调整”解决比特币难度滞后和出块波动难题
【第416期】(Ledger)比特币普及的“心魔”:如何用“聪”消除小数位恐惧与“整数偏见”
【第415期】(Ledger)区块链赋能未来社交:BEV-SNS如何重塑数据控制权与机器人共存的数字生态
【第414期】(Ledger)万亿物联网时代:以太坊“机器人经济学”如何重塑去中心化智慧城市服务与数据主权
【第413期】(Ledger)群体机器人“蜂巢思维”如何实现?DLT(分布式账本)技术破解协调、信任与监管六大核心挑战
【第412期】(Ledger)Robotchain:用Tezos区块链打造工厂机器人“黑匣子”可行吗?性能瓶颈大揭秘
【第411期】(Ledger)SwarmDAG:如何在网络分区下,用“分叉账本”保障机器人集群的高可用与最终一致性
【第410期】(Ledger)干掉“中央大脑”!去中心化通信如何用“数字护照”颠覆工业
【第409期】(Ledger)微弱算力上的太空雄心:BILL-E机器人如何用“有效性证明”驱动区块链
【第408期】(Ledger)区块链、机器人与AI:打造“信任共享大脑”的未来图景与三大现实瓶颈
【第407期】(Ledger)PPR+DG13:去中心化策展如何用“引文网络”甄别专家与“博弈论”保证真话
【第406期】(Ledger)预言机终极挑战:经济惩罚如何击败谢林点共谋?——深度解读去中心化预言机激励新范式
【第405期】(Ledger)DLT的悖论:去中心化技术如何驱动证券结算走向新垄断?成本、挑战与经济学终局分析
【第404期】(Ledger)比特币:委内瑞拉经济“求生指标”——如何用P2P交易数据揭示恶性通胀和真实汇率
【第403期】(Ledger)量子赋能区块链:PoE如何用“幽灵般的超距作用”取代挖矿,实现极致节能与物理级信任
【第402期】(Ledger)比特币交易费的“拍卖”博弈:矿工如何根据用户价值分布确定最优区块大小(BSL)
【第401期】(Ledger)用“经济风洞”测试加密货币:如何通过模拟机制设计出更稳定的数字货币?
【第400期】(Ledger)区块链“实时会计”:如何让Z分数和默顿模型升级,提前一个月预警公司违约风险?
【第399期】(Ledger)拆解区块链“乐高”:伦敦大学学院与苏黎世大学学者教你看透核心组件和设计权衡
【第398期】(Ledger)抛开法币波动:用“净币值NCV”深度剖析挖矿
【第397期】(Ledger)比特币的“币龄”秘密:平均休眠期如何揭示高价下的“老币”异动与长期持有者行为
【第396期】(Ledger)2027比特币危机:量子计算如何破解你的数字签名?
【第395期】(Ledger)区块链赋能的“情感协议”:如何用激励机制解决民调与专家预测失准的难题?
【第394期】(Ledger)从功能本质看清加密货币:交易、燃料、凭证三大分类与长期价值评估实战指南
【第393期】(Ledger)比特币“刻字”秘籍:从创世区块彩蛋到P2SH数据安全存储
【第392期】(Ledger)颠覆科研资助:权益证明(PoS)加密货币如何实现400_回报,重塑科学独立性?
【第391期】(Ledger)千年外交泥板:理解区块链的“协议”本质与信任工程
【第390期】(Ledger)加密货币:冰岛大学“笑脸币”SMLY实验,如何用区块链激励学生学习与公益?
【第389期】(Ledger)博弈论拆解比特币挖矿:成本定生死,奖励定力度,为何系统自带“抗垄断”基因?
【第388期】(Ledger)硬刚ASIC:深度解析Equihash如何用“内存困难”和“非对称性”对抗比特币挖矿中心化
【第387期】GraphSense:通用加密资产分析平台
【第386期】BlockSci揭秘:多签隐私陷阱、分叉关联与比特币交易速度的深层真相
【第385期】(Ledger)区块链与社会契约论:代码即法律,还是霍布斯式“技术利维坦”?
【第384期】(Ledger)Autonocoin:用“信念证明”和博弈机制,构建能自我进化的去中心化机构
【第383期】(Ledger)比特币价格“过山车”之谜:GCMG模型如何揭示高波动背后的结构性缺陷与矿工的“负门槛”博弈
【第382期】(Ledger)加密赌场“可证明公平”是谎言?矿工如何利用区块哈希操纵链上骰子游戏
【第381期】(Ledger)链下扩容与分片:Huntercoin的挑战与Game_Channels的去中心化游戏未来
【第380期】(Ledger)Nxt纯权益证明机制的数学剖析:大户优势、账户拆分与致命的“分支过程攻击”
【第379期】(Ledger)比特币挖矿博弈论:为何2016年理性矿工本应“挖空块”?
【第378期】(Ledger)比特币“子链”技术:破解慢交易、低容量,实现渐进式安全与即时支付体验的奥秘
【第377期】(Ledger)BIX证书:打破数字世界安全与匿名困境的创新之道
【第376期】(Ledger)门罗币Ring_CT深度解析:当数字货币拥有现金般的隐私,发送金额与身份如何隐匿?
【第375期】Apple_Intelligence_技术解密:端云双模型、数据隐私与极致优化,如何重塑AI未来?
【第374期】AI越“想”越糊涂?深度解析AI“推理反向扩展”现象与安全警示
【第373期】破解企业AI“水土不服”:AI“Routine”框架如何让大模型精准执行复杂业务流程?
【第372期】ChatGPT等大模型如何颠覆AIOps:从“救火”到“防火”的智能运维革命
【第371期】Agentic-R1:AI如何学会“思考”与“工具”的灵活切换?——卡内基梅隆双策略推理模型解析
【第370期】字节跳动&清华大学联手!MemAgent如何教会AI像人一样“记笔记”,突破超长文本记忆瓶颈
【第369期】大模型调优秘籍:半在线学习如何实现性能与效率双赢?
【第368期】AI真的懂世界,还是只会“高级预测”?用归纳偏见探测大模型的“理解深度”
【第367期】(中文)深度剖析AI“伪装对齐”:大模型是真听话,还是在演戏?
【第366期】(中文)H-Net与动态分块:AI模型如何“学会阅读”原始数据,告别传统分词限制?
【第365期】(中文)AI“黑客”A1:智能合约漏洞的发现者,还是攻防经济失衡的加速器?
【第364期】(中文)深度研究AI:你的专属智能研究员,如何挑战复杂信息深挖任务?
【第363期】(中文)AI智能体:四大安全风险,90%以上攻击成功率,你的每一次互动都可能是入口!
【第362期】(中文)CoT思维链:AI在“思考”还是在“编故事”?——深度解读《思维链不等于可解释性》
【第361期】(中文)AI科研全攻略:从文献理解到论文发表,AI如何颠覆科学研究全流程?
【第360期】(中文)DSRL:不改大模型,机器人也能从“笨”到“精”——解锁通用AI潜力的新钥匙
【第359期】(中文)AI智能体“团战”的潘多拉魔盒:互联互通背后的惊人安全风险与责任迷局
【第358期】(中文)超越想象的速度与智能:揭秘Inception_Labs颠覆性Mercury语言模型
【第357期】(中文)不靠强化学习?“认知工具”如何解锁LLM推理潜能,让GPT-4
【第356期】(中文)ALE-Bench:AI如何应对复杂算法工程挑战?人类专家与AI的差距在哪?
【第355期】(中文)斯坦福AI报告深度解读:AI是抢饭碗还是好帮手?职场人真实意愿与未来技能趋势大揭秘
【第354期】(中文)RAG+:让大语言模型从“知其然”到“知其所以然”
【第353期】(中文)代码考古:Code_Researcher如何深挖Linux内核BUG,实现惊人修复率?
【第352期】(中文)ComfyUI-R1:AI如何学会像专家一样自动化构建复杂创意工作流?
【第351期】(中文)MIT重磅:大模型如何“自我进化”?SEAL揭秘AI自学成才之路
【第350期】(中文)TableRAG:异构文档推理的检索增强生成框架
【第349期】(中文)强化预训练:下一词元推理
【第348期】(中文)V-JEPA 2:视频基础模型新里程碑
【第347期】(中文)OpenHands-Versa:通用问题解决编码代理
【第346期】(中文)LLM推理:知识与推理的协同作用
【第345期】(中文)ROBOT-R1: 强化具身推理的机器人控制
【第344期】(中文)小型语言模型:智能体AI的未来
【第343期】(中文)作为程序的图像编辑
【第342期】(中文)金融量化策略的多智能体框架
【第341期】(中文)R&D-Agent:自动化数据驱动AI解决方案构建
【第340期】(中文)ARPO:基于经验回放的GUI智能体策略优化
【第339期】(中文)达尔文哥德尔机器:自改进AI代理的演化
【第338期】(中文)用图像思考:GRIT实现MLLM具身推理
【第337期】(中文)大语言模型推理的陷阱
【第336期】(中文)视觉规划:只用图像思考
【第335期】(中文)AI Agents与Agentic AI:概念、应用与挑战
【第334期】(中文)AlphaEvolve: 科学与算法发现编码智能体
【第333期】(中文)连续思想机器
【第332期】(中文)OSUNIVERSE:多模态GUI导航AI基准
【第331期】(中文)CoT:大模型中的程序变量
【第330期】(中文)UniVLA: 通用机器人策略学习框架
【第329期】(中文)WebThinker:深度研究大型推理模型
【第328期】(中文)微调中的强化学习价值
【第327期】(中文)研讨式RAG:医学问答的新范式
【第326期】(中文)动态RAG:大模型反馈驱动的动态重排序
【第325期】(中文)UCGM:统一连续生成模型
【第324期】(中文)强化内外知识协同推理自适应搜索智能体
【第323期】(中文)生成式AI在动画领域的应用综述
【第322期】(中文)TrustGeoGen:可信几何问题求解引擎
【第321期】(中文)Mem0:构建具备可扩展长期记忆的AI代理
【第320期】(中文)DiT图像编辑:语境、LoRA与效率
【第319期】(中文)大语言模型驱动的手机GUI智能体综述
【第318期】(中文)BitNet v2: 原生4比特激活的大语言模型
【第317期】(中文)测试时强化学习:利用无标注数据训练LLM
【第316期】(中文)基于LLM代理的用户体验测试模拟系统
【第315期】(中文)UI-TARS:原生GUI智能体模型
【第314期】(中文)强化学习真的提升了大语言模型推理能力吗?
【第313期】(中文)PaperCoder:论文到代码的自动化框架
【第312期】(中文)UFO2: 桌面Agent操作系统
【第311期】(中文)认知工程:大模型思维能力进阶
【第310期】(中文)LearnAct:移动GUI智能体少样本学习框架
【第309期】(中文)BitNet b1.58 2B4T:1位大语言模型技术报告
【第308期】(中文)M1:迈向可扩展推理计算的Mamba模型
【第307期】(中文)通用任务微调提升GUI智能体性能
【第306期】(中文)MOSAIC:社交AI模拟与内容调控
【第305期】(中文)VLM-R1: 稳定通用视觉语言模型
【第304期】(中文)MCP安全审计:大模型安全漏洞与防御
【第303期】(中文)解读Bitcoin、Ethereum、Solana白皮书
【第302期】(中文)Bitnet.cpp:三值大语言模型推理加速系统
【第301期】(中文)REPA-E:端到端VAE与扩散模型训练
【第300期】(中文)NdLinear:多维深度学习新范式
【第299期】(中文)SWE-PolyBench:多语言代码智能体基准测试
【第298期】(中文)DocAgent:自动化代码文档生成的多智能体系统
【第297期】(中文)AgentA/B:基于LLM的自动化可扩展网页A/B测试
【第296期】(中文)d1: 扩散LLM的强化学习推理
【第295期】(中文)GUI-R1: GUI智能体的强化微调
【第294期】(中文)NoProp:无需反向传播或前向传播的神经网络训练方法
【第293期】(中文)LightPROF:知识图谱上大型语言模型的轻量推理框架
【第292期】(中文)AI Scientist-v2:代理树搜索自动化科学发现
【第291期】(中文)attention sinks:LLMs倾向于将大部分注意力集中在第一个token
【第290期】(中文)PLAY2PROMPT:LLM零样本优化
【第289期】(中文)Chain-of-Tools:利用海量工具增强推理
【第288期】(中文)统一嵌入空间:捕捉大脑语言处理
【第287期】(中文)AgentRxiv:迈向协作式自主研究
【第286期】(中文)扩散采样最佳步长
【第285期】(中文)UI-R1: 强化学习提升GUI智能体动作预测
【第284期】(中文)UniDisc :Unified Multimodal Discrete Diffusion
【第283期】(中文)A-MEM:基于Agent的内存系统
【第282期】(中文)DeepSeek 模型的关键创新技术回顾
【第281期】(中文)Cosmos-Reason1
【第280期】(中文)RQI:超分辨率图像评估新视角
【第279期】(中文)无反向传播的高效量化扩散模型个性化
【第278期】(中文)CLS-RL:一种基于规则的强化学习方法
【第277期】(中文)Fin-R1:金融推理大型语言模型
【第276期】(中文)Scale-wise Distillation
【第275期】InfiniteYou:身份保留图像生成
【第274期】Vision-R1
【第273期】Diffusion-4K:超高分辨率图像生成
【第272期】SimpleRL-Zoo:Zero RL推理能力
【第271期】FFN Fusion
【第270期】Bottleneck Sampling
【第269期】Video-T1:Test-Time Scaling for Video Generation
【第268期】FAR:Next-Frame Prediction
【第267期】RoboMIND:用于机器人操作的大型、多主体、高质量数据集
【第266期】OLMo 2
【第265期】ARQ: for LLM Instruction Following
【第264期】Block Diffusion Language Models
【第263期】SEARCH-R1: RL for Reasoning and Search in LLMs
【第262期】PLAN-AND-ACT:Long-Horizon Tasks Plan Agents
【第261期】LMM-R1: Reasoning Enhancement for LMM
【第260期】Vision-R1: Reasoning in Multimodal LLM
【第259期】Agentic Reward Modeling
【第258期】Forecasting Rare Language Model Behaviors
【第257期】UPFT:The First Few Tokens Are All You Need
【第256期】LightThinker: Thinking Step-by-Step Compression
【第255期】用FFT替代传统自注意力机制
【第254期】Thinking Faster by Drafting Less: Chain of Draft
【第253期】SECOND ME:AI-Native Memory Management
【第252期】Inductive Moment Matching for Generative Modeling
【第251期】YOLOE:Real-Time Seeing Anything with Open Prompts
【第250期】EasyControl:效率和灵活性指导的条件图像生成
【第249期】R1-Searcher: RL for Enhanced LLM Search Capabilities
【第248期】VisualThinker-R1-Zero: Multimodal Reasoning via RL
【第247期】Vision-R1:推理视觉大模型
【第246期】用LLM做Encoder,进行机器翻译
【第245期】固定文本长度做RAG
【第244期】TokenOCR:Token基本文本图像LLM
【第243期】AppAgentX:智能手机上的Agent
【第242期】MPO:Meta Plan Optimization
【第241期】LLaVE:一种新型视觉模型
【第240期】Optimal Brain Apoptosis
【第239期】SoS1:O1和R1模型可以解决Hilbert第17问题难度相当大问题
【第238期】xAR:Next-X Prediction
【第237期】PlanGEN:多智能体的计划生成框架
【第236期】NeoBERT:新一代BERT
【第235期】AI co-scientist:AI协作科学家
【第234期】Transformers without Normalization
【第233期】A-MEM:LLM Agent的记忆系统
【第232期】KV-Edit:精确保留背景信息的图像编辑方法
【第231期】DICEPTION:一种通用的视觉Diffusion模型
【第230期】olmOCR:PDF文档高质量提取模型
【第229期】Persona Hub:10亿个角色的数据合成方法
【第228期】从优化角度理解Duffusion模型
【第227期】NullFace:免于训练的面部匿名化方法
【第226期】SegAgent:像素级理解能力探究
【第225期】OmniMamba:基于 Mamba-2 的多模态模型
【第224期】过度思考带来的问题
【第223期】LLM对自我知识的认知程度研究
【第222期】HOMIE:人形机器人远程操作系统
【第221期】STP:Self-play LLM定理证明器
【第220期】SWE-RL:读开源代码学成软件工程师
【第219期】AgenticLU:通过Chain-of-Clarifications提升模型长文本回答能力
【第218期】MoBA:块注意力混合模型
【第217期】Open-Reasoner-Zero:开源的推理能力提升方法
【第216期】LLMSelector:选择不同模型做不同任务
【第215期】SWE-Lancer:评估AI在自由职业软件任务中的能力
【第214期】AI co-scientist:AI科学家助理
【第213期】SOLOMON:专业领域中增强LLM能力
【第212期】Self-Backtracking:自我回溯
【第211期】大型语言模型API中的提示缓存机制研究
【第210期】RLSP:Reinforcement Learning via Self-Play
【第209期】Brain2Qwerty:非侵入式脑机接口
【第208期】YOLOv12:注意力中心的实时目标检测模型
【第207期】PC-Agent:PC端的Multi-Agent框架
【第206期】“无噪声条件”模型 Kaiming He
【第205期】Agentic Reasoning:推理性代理框架
【第204期】OmniParser:纯视觉GUI Agent
【第203期】Zep:用临时知识图谱作Agent记忆
【第202期】MoBA:Mixture of Block Attention
【第201期】LIMR:训练数据智能选择
【第200期】用LLM做oi题目怎么样?
【第199期】LLaDA:Large Language Diffusion Models
【第198期】CODE I/O:通过预测代码输入输出进行推理
【第197期】ReasonFlux:层级强化学习进行推理
【第196期】递归深度Test-Time Compute
【第195期】AI大模型已经超过自我复制红线
【第194期】AI在经济各领域中的实际应用情况研究
【第193期】LM2:大型记忆模型
【第192期】Transformer架构的局限
【第191期】Value-Based RL可拓展性研究
【第190期】LLM推理中有前景的方法综述
【第189期】MaAS:优化代理超网(agentic supernet)的多智能体系统
【第188期】Self-MoA:多Agent会比单个Agent强吗?
【第187期】Syntriever:用合成数据训练retriever
【第186期】CoAT:MCTS+memory增强推理的框架
【第185期】RAG Foundry:简化RAG的开源框架
【第184期】Diffusion Planner:基于Transformer的闭环自动驾驶算法
【第183期】慢思考滚雪球错误如何利用
【第182期】庆祝更新半年文中有彩蛋 || Long CoT Reasoning in LLMs
【第181期】ASAP:两阶段框架弥合仿真与现实物理之间的差距
【第180期】LLM-AutoDiff:一个基于梯度的自动化提示工程
【第179期】s1: Simple test-time scaling
【第178期】spurious forgetting:大模型的虚假遗忘
【第177期】学习率Scheduler研究分析
【第176期】TokenVerse:文本到图像生成的新方法
【第175期】TensorLLM:使用多头自注意力提升模型能力
【第174期】MMOA-RAG:Multi-Agent RL for Enhanced RAG
【第173期】Docling:开源的文档转换工具包
【第172期】AI 安全性方面使用强化学习(RL)的挑战
【第171期】DivPO:Diverse Preference Optimization
【第170期】Chain of RAG
【第169期】LiT:Linear Diffusion Transformer
【第168期】多机器人系统中的“观察-计算-移动”方法
【第167期】GCBF+:安全的多智能体避障控制算法
【第166期】underthinking:模型思考不够深入的问题
【第165期】DeepSeek-R1 和 OpenAI 的 o3-mini 安全性比较
【第164期】CodeMonkeys:软件工程中一种test time compute方法
【第163期】Encoder-Decoder架构的SLM
【第162期】ICRL:一种通用问题解决方法
【第161期】VideoWorld:从无标签视频数据中学习复杂知识
【第160期】AI Red Teaming实践经验总结
【第159期】TheAgentCompany:评估 AI 代理在真实工作场景中执行任务的新基准
【第158期】图像生成CoT是什么样的
【第157期】DiffuEraser:利用稳定扩散技术修复视频
【第156期】Mobile-Agent-E:智能手机上的Agent
【第155期】IntellAgent:多智能体框架
【第154期】Agentic RAG survey
【第153期】Chain-of-Agents框架
【第152期】Kimi k1.5
【第151期】Humanity’s Last Exam
【第150期】DeepSeek-R1
【第149期】Mind Evolution:一种进化搜索策略
【第148期】Embodied-RAG:赋予机器人在复杂环境中更强的记忆和推理能力
【第147期】VideoRAG
【第146期】如何训练能量模型EBM
【第145期】扩散模型的Inference-Time Scaling
【第144期】Transformer-Squared:自适应LLM框架
【第143期】构建能够终身学习的大型语言模型(LLM)代理
【第142期】Titans:神经长期记忆模块
【第141期】O1 Replication Journey:Part 3
【第140期】CNCD:新类型发现
【第139期】多语种控制机器人的能力评估
【第138期】ParGo:弥合视觉与语言之间的鸿沟
【第137期】Agents, Sims and Assistants
【第136期】R3GAN:简化的生成对抗网络
【第135期】Search-o1:文档中的推理
【第134期】DPO Kernels:通过结合核方法来增强直接偏好优化
【第133期】Meta-CoT:朝着系统2推理的方向发展
【第132期】Agent Laboratory:科学研究助手
【第131期】Orient Anything:一种用于估计图像中物体方向的模型
【第130期】OS-Genesis:可为GUI Agent提供数据
【第129期】Sa2VA:Sam2+LLaVA
【第128期】MeCo:元数据调节与冷却
【第127期】隐式 PRM:过程奖励模型
【第126期】ICAL:VLM的上下文抽取学习
【第125期】GraphAgent:一种用于分析结构化(图形)和非结构化(文本)数据的自动化代理
【第124期】面向通用机器人控制的VLA模型
【第123期】Cache-augmented generation (CAG)
【第122期】HuatuoGPT-o1:医学推理大模型
【第121期】一种新型的蒙特卡罗符合性预测
【第120期】iTransformer:Inverted Transformers理解时间序列问题
【第119期】DRT-o1:一种旨在改进包含明喻和隐喻句子翻译的新型神经机器翻译模型
【第118期】Mulberry:使用CoMCTS做类o1的多模态大模型
【第117期】ExploreToM:一种用于生成复杂且多样化的心智理论
【第116期】LLM Inference-Time自我提升综述
【第115期】ModernBERT
【第114期】DeepSeek V3技术报告
【第113期】ASAL:使用LLM自动搜索人工生命
【第112期】Differentiable Cache Augmentation
【第111期】LearnLM:Gemini在教育场景的应用
【第110期】PC Agent:通过学习人类认知过程来执行复杂的数字化工作
【第109期】AutoFeedback:使用智能体做自动反馈系统
【第108期】PAE:能够自主学习新的网页导航技能
【第107期】SGD-SaI:替代Adam类优化方法
【第106期】ScaleOT:保护隐私的大型语言模型离站微调的新型框架
【第105期】MAXINFORL:最大化对底层任务信息增益的强化学习
【第104期】STAR:无梯度的进化优化算法
【第103期】开源和闭源大型语言模型的比较研究
【第102期】Byte Latent Transformer (BLT):用byte级替代token级
【第101期】Large Concept Models (LCMs)
【第100期】SLM更懂LLM提示词
【第99期】GREATER:一种对于小模型的提示词优化技术
【第98期】SPaR:通过搜索树改进LLM指令遵循
【第97期】SCBench:基于KV Cache的评估长上下文LLM基准
【第96期】AsyncLM:异步LLM函数调用
【第95期】Student-Informed Teacher Training
【第94期】AgentTrek:为GUI Agent生成高质量数据的pipeline
【第93期】TARFLOW:一种基于 Transformer 的正则化流
【第92期】Agentless:软件开发的Agent
【第91期】[Mask] is all you need
【第90期】SAT:Segment Any Text
【第89期】PRoC3S:一种新颖的机器人规划系统
【第88期】LLM Agent能否模拟人的信任行为?
【第87期】Coconut:连续Latent空间的LLM推理
【第86期】RLZero:"imagine", "project" and "imitate"
【第85期】GENMAC:用多智能体模式生成复杂动态视频
【第84期】FedBone:大规模多任务联邦学习
【第83期】Datalab:LLM Power BI 工作流
【第82期】ALAMA:LLM自动选择思考策略
【第81期】reverse thinking
【第80期】Navigation World Models:Yann LeCun的世界模型
【第79期】VisionZip:降低Visual token冗余度
【第78期】OSDFace:单步人脸重建
【第77期】VisVM:Vision Value Model
【第76期】OmniFlow:Any-to-Any多模态rectified flow
【第75期】cDPO:通过发掘critical tokens去修正回答
【第74期】苏格拉底游戏:AI Agent的脑内活动
【第73期】HiAR-ICL:LLM推理的ICL
【第72期】LLM-Brained GUI Agents: A Survey
【第71期】英伟达的audio大模型Fugatto
【第70期】O1 Replication Journey:Part 2
【第69期】O1 Replication Journey:Part 1
【第68期】stream-x算法,省去Experience Replay的在线强化学习
【第67期】BABY-AIGS:AI-Generated Science
【第66期】Anthropic研究:给LLM评估加点“统计学”
【第65期】Liquid Time-constant Networks:液体(神经)网络是什么?
【第64期】NeuroClips:从fMRI数据还原大脑中视频
【第63期】无论DPO还是PPO,Preference Feedback应该怎么用?
【第62期】sCMs:比Diffusion更快的图像生成算法
【第61期】大模型的「推理」是在做什么?
【第60期】RLTools:基于C++的开源强化学习工具
【第59期】SymDPO:多模态In-context learning提升技巧
【第58期】AM-RADIO,融合多种视觉大模型
【第57期】降低数值精度影响LLM数学推理能力
【第56期】o1的self-correction是一种In context Alignment
【第55期】RLInspect
【第54期】Impacts of AI on Innovation
【第53期】Toward Optimal Search and Retrieval for RAG
【第52期】DINO-WM:LeCun 的世界模型
【第51期】研究表明4bit量化能使反学习失效
【第50期】精度的Scaling Laws
【第49期】Responsibility in Multi-Agent Systems
【第48期】测试时训练TTT(test-time training)
【第47期】LoRA vs Full Fine-tuning
【第46期】大模型的数据会用完吗?
【第45期】SeqComm:多智能体通讯机制
【第44期】MIPRA解读
【第43期】Reward Centering
【第42期】SELA:使用MCTS增强LLM
【第41期】Multimodal RAG
【第40期】LLM使用bag of heuristics求解数学问题
【第39期】AFlow自动生成工作流
【第38期】OpenAI的论文:SimpleQA
【第37期】认知的几何特征
【第36期】HIL-SERL
【第35期】DriveDreamer4D
【第34期】Heterogeneous Pre-trained Transformers
【第33期】多项式激活函数
【第32期】TapeAgents:AI Agent+log
【第31期】给prompt加一个角色有用吗?
【第30期】Diffusion Evolution Algorithm
【第29期】Contextual Document Embeddings
【第28期】AEVB解读
【第27期】BERT解读
【第26期】ELMo解读
【第25期】CoVe解读
【第24期】BPE解读
【第23期】Diffusion World Model解读
【第22期】Diffusion-Q Learning解读
【第21期】DPPO解读
【第20期】Diffusion Policy解读
【第19期】Augmented Physics
【第18期】Geometry-Informed Neural Networks
【第17期】REPA解读
【第16期】GSM-Symbolic苹果研究人员表示AI模型可能不具有推理能力
【第15期】Truthfulness Encodings
【第14期】Intelligence at the Edge of Chaos
【第13期】n-gram解读
【第12期】GloVe解读
【第11期】CBOW解读
加餐005-ROSA
【第10期】Skip-gram解读
加餐004-MLP-KAN解读
【第九期】Seq2seq解读
加餐003-FAN (Fourier Analysis Network)
加餐002-Differential Transformer
【第八期】RNN Encoder-Decoder解读
【第七期】GRU original解读
【第六期】GRU-RNN解读
加餐001-Were RNNs All We Needed?
【第五期】Movie Gen
【第四期】LSTM original解读
【第三期】LSTM解读
【第二期】Transformer: Attention is All you Need
【第一期】NeRF解读