-
41
-
40
-
39
-
38
-
37
-
36
-
35
-
34
-
33
-
32
-
31
-
30
-
29
-
28
-
27
-
26
-
25
-
24
-
23
C06-RAG落地全栈优化深入浅出精解
面向RAG(检索增强生成)系统的落地难点,提出了覆盖“查询理解—动态扩展—知识治理—图谱推理”的全栈优化技术框架,明确指出索引构建、精准召回与上下文感知生成三大环节的关键痛点并给出工程化解决路径。查询层通过五类Query结构化改写与三层联网搜索决策,解决口语化表述与时效性缺失问题;召回层则以MultiQueryRetriever、离散+向量混合索引与Small-to-Big轻量索引为核心,辅以BGE-Rerank或Cohere Rerank重排序提升相关性。知识库治理实现问题生成、对话知识沉淀、健康度检查与版本管理四大闭环,使检索准确率和迭代可测化;进一步通过GraphRAG构建分层知识图谱并支持Global/Local Query,实现跨文档复杂推理能力的显著增强
-
22
C05-RAG工程精解播客
针对大模型落地中存在的知识时效性差、幻觉频发、垂直领域适配成本高的痛点,本文系统梳理RAG技术的全栈实现框架与落地方法论• 从数据预处理、混合检索、可控生成三大核心环节展开,详解语义分块策略、Embedding选型、质量防护等关键技术点• 配套给出覆盖全链路的RAG质量优化体系,可直接指导生产环境下RAG系统的搭建、调优与落地
-
21
C04-深入浅出解析向量检索核心原理.mp3
Embedding 负责低成本高效率粗筛,LLM 负责高成本深度的最终逻辑推理,这才是最合理的 AI 架构。向量是给机器用来算距离的坐标,元数据是给大模型拿去阅读的课本,两者缺一不可。Embedding 理解为人类自然语言与计算机数学空间的桥梁,AI 领域很多底层逻辑就不再神秘。传统数据库是精确匹配查关键字,向量数据库是模糊匹配查多维空间里的近邻。专业模型做底层推荐排序,大模型只充当超级特征提取器,真正做到专业的人干专业的事。向量是给机器做相关度距离的坐标,元数据给大模型阅读的课本纸上的来终觉浅,觉知此事要躬行AI 是如何理解人类世界的: embedding
-
20
AI轻松学-08-解析稀疏专家混合大模型
Sparsely-Gated Mixture-of-Experts(MoE),作为一种条件计算组件以大幅提升神经网络参数容量而几乎不增加每例计算开销。
-
19
AI轻松学-07-深入浅出解析RAG
Facebook AI Research 等团队提出并系统化地介绍了Retrieval-Augmented Generation(RAG),将预训练的序列到序列生成模型(本文以 BART-large 为生成器)与基于密集向量索引的检索器(DPR)结合,形成可端到端微调的混合记忆生成模型。文中提出两种边缘化检索文档的变体——RAG-Sequence(对整条输出使用同一文档)与 RAG-Token(每个生成词可条件于不同文档),并说明了训练、解码与检索器协同优化的实现细节。结果显示 RAG 在若干公开数据集上达到了或超过了当时的最先进水平,同时生成内容更具事实性、具体性与多样性。论文还展示了可通过“热交换”文档索引更新模型知识的实用优势,并讨论了检索学习、检索崩溃与社会影响等问题,表明将参数化记忆与非参数化文本存储结合是提升知识型 NLP 任务能力的有效途径。
-
18
AI轻松学-06-强化学习之DPO解析
该论文由斯坦福研究团队提出并验证了Direct Preference Optimization (DPO),旨在用人类偏好直接微调语言模型,而无需先训练显式奖励模型或使用复杂的不稳定RL算法(如PPO)。作者通过对Bradley–Terry/Plackett–Luce偏好模型做变量替换,证明可以把隐含的奖励函数用策略的对数概率比表示,从而将偏好学习问题转化为一个简单的二元交叉熵极大似然问题,得到闭式的最优策略并导出权重化的更新形式以避免模型退化。实验证明在情感控制、TL;DR摘要和单步对话等任务上,DPO在奖励—KL权衡、自动评估(GPT-4)与人工评判下均能与或优于基于PPO的RLHF,同时训练更稳定、实现更简单且计算开销更低。文章还讨论了方法的理论性质、与RLHF中actor-critic不稳定性的关系,并指出了泛化、规模化与评价提示敏感性等后续研究方向。
-
17
AI轻松学-04-OpenAI GPT-2与GPT-3
OpenAI 团队先后提出 GPT-2 与 GPT-3 两个大模型:前者基于 15 亿参数 Transformer 在 WebText 语料上训练,验证了模型扩容可显著提升零样本多任务学习性能;后者为 1750 亿参数的自回归模型,其上下文学习能力随规模大幅增强,无需微调仅靠任务示例就能在多项任务上达到甚至媲美同期微调 SOTA 效果
-
16
AI轻松学-05-探讨DeepSeek-R1
DeepSeek-R1通过大规模纯强化学习(RL)激发大型语言模型(LLM)推理能力的研究与工程实现,核心是无需人工标注的推理轨迹即可让模型自发发展出长链式思维、自我反省与验证等策略。论文首先介绍了基于 Group Relative Policy Optimization(GRPO) 的训练框架与基于规则的精确奖励设计,在数学、编程与逻辑题上用可验证的结果(如 AIME、Codeforces)作为回报,引导模型生成带有 … 的长推理过程并显著提升通过率与一致性。随后提出多阶段流水线 DeepSeek-R1:以纯RL训练得到的 R1-Zero 为起点,结合冷启动长 CoT 数据、拒绝采样、监督微调(SFT)及基于模型的偏好/安全奖励,平衡推理能力与可读性、语言一致性与安全性。
-
15
AI轻松学-02-浅析大模型 Scaling Law
多位研究人员在 Transformer 语言模型上系统地实证研究了损失随模型规模、数据量与训练计算量的标度律,发现交叉熵损失在这三类尺度因子上均呈明确的幂律下降,且该规律跨越数个量级且对网络形状(深度/宽度/头数)影响很弱。给出若干具体幂律关系式(如 L(N), L(D), L(C_min) 及联合形式 L(N,D)、L(N,S)),并证明过拟合、临停步数与临界批量大小等指标也服从可预测的函数形式,从而导出在固定计算预算下最佳的模型/批量/步数/数据分配策略.
-
14
AI轻松学-03-开源大模型 Llama 3
由 Llama Team, AI @ Meta 提出,介绍了新一代基础语言模型系列 Llama 3, 文中重点描述了通过扩大训练数据(约15T令牌)、显著增加计算量(约3.8×10^25 FLOPs)与精细化的数据治理来提升质量,并基于缩放律选择了接近计算最优的 405B 架构,同时通过分阶段预训练(含扩展至128K上下文)与多轮后训练(SFT、DPO)实现对话对齐与能力增强。整体而言展示 Llama 3 在性能、可用性与开放性方面的进展,为研究社区提供可复现的旗舰模型并推动多模态与安全方向的后续研究。
-
13
AI轻松学-04-Open AI Instruct GPT
OpenAI 的研究团队提出并验证了一种通过人类反馈微调语言模型的方法(即 InstructGPT),旨在让模型更好地“遵循指令”并与用户意图对齐。先收集标注文档(示范输出)并进行监督微调(SFT),再收集模型输出排序数据训练奖励模型(RM),最后用基于该奖励的PPO强化学习(并引入预训练数据混合的PPO-ptx)进一步优化模型行为
-
12
AI轻松学-01-Transformer的深度解析
由Google Brain等团队提出并详细描述了Transformer这一基于注意力机制的全新序列转换模型,核心在于用多头自注意力(Multi-Head Attention)取代传统的循环或卷积层,从而实现对输入输出序列全局依赖的建模并显著提高并行化能力。模型结构由编码器与解码器各自堆叠的自注意力子层和逐位置前馈网络组成,辅以残差连接、层归一化、位置编码 , 奠定了后续基于注意力的模型发展。
No matches for "" in this podcast's transcripts.
No topics indexed yet for this podcast.
Loading reviews...
Loading similar podcasts...