EPISODE · May 2, 2026 · 5 MIN
@code_kartik:LangChain團隊在2026年2月透過優化harness,將其開源程式開發Agent「deepagents-cli」在「Terminal-Bench 2.0…
from EasyVibeCoding Podcast · host Kartik
LangChain團隊在2026年2月透過優化harness,將其開源程式開發Agent「deepagents-cli」在「Terminal-Bench 2.0」排行從30名以外躍升至前5名,得分從52.8%暴增13.7點至66.5%。底層模型始終是GPT-5.2-Codex未變,僅改進harness,此結果凸顯應用AI最大轉變:模型不再是產品,harness才是。 harness定義與核心轉變 harness是包覆LLM的一切機制,將其從token產生器轉化為可運作Agent,包括工具調度、脈絡管理、沙盒隔離、規劃迴圈、子Agent協調、評估、觀測性,以及判斷工作「完成」的驗證邏輯。2026年3月「Claude Code」原始碼短暫外洩,顯示其TypeScript程式碼約513,000行,而實際模型API呼叫僅數行,其餘皆為harness。Mitchell Hashimoto於2026年初創造此詞,直言:Agent犯錯時,即工程化解決方案確保其永不再犯,此修復永存於harness。 模型商品化與harness累積優勢 前沿模型正收斂:工具使用、長脈絡、推理、結構化輸出皆已成熟,價格崩跌,「Cursor」的「Composer 2」比「Opus 4.6」便宜10倍,基準測試相當。Karpathy於2026年2月公開廢棄「vibe coding」一詞,重命名為Agentic程式開發,因程式撰寫已非瓶頸。 反之,harness具累積效應:每失敗皆轉為永久修復,如lint規則、hook、子Agent或脈絡模式,適用所有未來執行與模型。模型發布僅重置原始智慧基準,harness投資則持續增值。Stanford的「IRIS Lab」搭配「Claude Opus」與演進harness,在「Terminal-Bench」擊敗所有手工設計系統;「Factory.ai」的「Droid」以相同模型、不同harness達最先進水準;OpenAI「Frontier」團隊僅3至7名工程師,以百萬行生產程式碼、零手工程式碼,單Agent自主運行逾6小時,領先工程師總結:「人類導向,Agent執行。」難題從寫程式碼轉為設計環境。 現成框架不足之處 「LangChain」、「CrewAI」、「AI SDK」僅為起點,每款嚴肅Agent產品皆疊加自訂harness,如「Claude Code」、「Cursor」、「Devin」、「Sourcegraph Amp」、「Factory Droid」、「Replit Agent」、「Vercel v0」、「Hermes Agent」、「OpenClaw」,皆具特定領域調校。具體原因包括: 脈絡視窗需精細管理,「Cursor」團隊花數週調校各模型行為。 工具須為LLM量身設計,非人類,「Replit」發現函數呼叫在參數複雜度遇天花板,改用限制Python DSL,達90%以上有效呼叫率。 評估須綁定產品,非通用基準。 大規模token成本關鍵,前沿實驗室在此有結構性衝突,因harness優化減少token損害其單位經濟。 另有供應商鎖定風險:建基單一供應商runtime即為供應商選擇。 生產harness架構概要 生產harness約分七層: Agent迴圈(如ReAct、plan-execute、generate-test-repair)。 專為LLM打造的工具層。 具漸進揭露的脈絡與記憶管理。 具權限閘道的沙盒執行。 多Agent協調。 評估與追蹤。 提示與模型路由。 所有成功harness共性:推理層信任LLM,工具邊界嚴格強制。 建置harness時機建議 原型階段勿自建,使用「Claude Code」、「Cursor」或「Codex」直接出貨。轉生產單一領域時,透過擴展點自訂,如「AGENTS.md」、hook、MCP伺服器、子Agent定義,先建評估套件再寫自訂程式碼。 自建門檻為數學嚴峻時:自訂評估顯示stock與custom間持續15+點差距、單任務經濟關鍵、需權限與審計追蹤(stock harness無提供)、或領域缺現成工具。 2025年眾隊競相建Agent,2026年贏家為投資周邊支架者。模型賦予智慧,harness造就產品,依此建置。 原文:https://easyvibecoding.app/curated/1116
What this episode covers
LangChain團隊在2026年2月透過優化harness,將其開源程式開發Agent「deepagents-cli」在「Terminal-Bench 2.0」排行從30名以外躍升至前5名,得分從52.8%暴增13.7點至66.5%。底層模型始終是GPT-5.2-Codex未變,僅改進harness,此結果凸顯應用AI最大轉變:模型不再是產品,harness才是。 harness定義與核心轉變 harness是包覆LLM的一切機制,將其從token產生器轉化為可運作Agent,包括工具調度、脈絡管理、沙盒隔離、規劃迴圈、子Agent協調、評估、觀測性,以及判斷工作「完成」的驗證邏輯。2026年3月「Claude Code」原始碼短暫外洩,顯示其TypeScript程式碼約513,000行,而實際模型API呼叫僅數行,其餘皆為harness。Mitchell Hashimoto於2026年初創造此詞,直言:Agent犯錯時,即工程化解決方案確保其永不再犯,此修復永存於harness。 模型商品化與harness累積優勢 前沿模型正收斂:工具使用、長脈絡、推理、結構化輸出皆已成熟,價格崩跌,「Cursor」的「Composer 2」比「Opus 4.6」便宜10倍,基準測試相當。Karpathy於2026年2月公開廢棄「vibe coding」一詞,重命名為Agentic程式開發,因程式撰寫已非瓶頸。 反之,harness具累積效應:每失敗皆轉為永久修復,如lint規則、hook、子Agent或脈絡模式,適用所有未來執行與模型。模型發布僅重置原始智慧基準,harness投資則持續增值。Stanford的「IRIS Lab」搭配「Claude Opus」與演進harness,在「Terminal-Bench」擊敗所有手工設計系統;「Factory.ai」的「Droid」以相同模型、不同harness達最先進水準;OpenAI「Frontier」團隊僅3至7名工程師,以百萬行生產程式碼、零手工程式碼,單Agent自主運行逾6小時,領先工程師總結:「人類導向,Agent執行。」難題從寫程式碼轉為設計環境。 現成框架不足之處 「LangChain」、「CrewAI」、「AI SDK」僅為起點,每款嚴肅Agent產品皆疊加自訂harness,如「Claude Code」、「Cursor」、「Devin」、「Sourcegraph Amp」、「Factory Droid」、「Replit Agent」、「Vercel v0」、「Hermes Agent」、「OpenClaw」,皆具特定領域調校。具體原因包括: 脈絡視窗需精細管理,「Cursor」團隊花數週調校各模型行為。 工具須為LLM量身設計,非人類,「Replit」發現函數呼叫在參數複雜度遇天花板,改用限制Python DSL,達90%以上有效呼叫率。 評估須綁定產品,非通用基準。 大規模token成本關鍵,前沿實驗室在此有結構性衝突,因harness優化減少token損害其單位經濟。 另有供應商鎖定風險:建基單一供應商runtime即為供應商選擇。 生產harness架構概要 生產harness約分七層: Agent迴圈(如ReAct、plan-execute、generate-test-repair)。 專為LLM打造的工具層。 具漸進揭露的脈絡與記憶管理。 具權限閘道的沙盒執行。 多Agent協調。 評估與追蹤。 提示與模型路由。 所有成功harness共性:推理層信任LLM,工具邊界嚴格強制。 建置harness時機建議 原型階段勿自建,使用「Claude Code」、「Cursor」或「Codex」直接出貨。轉生產單一領域時,透過擴展點自訂,如「AGENTS.md」、hook、MCP伺服器、子Agent定義,先建評估套件再寫自訂程式碼。 自建門檻為數學嚴峻時:自訂評估顯示stock與custom間持續15+點差距、單任務經濟關鍵、需權限與審計追蹤(stock harness無提供)、或領域缺現成工具。 2025年眾隊競相建Agent,2026年贏家為投資周邊支架者。模型賦予智慧,harness造就產品,依此建置。 原文:https://easyvibecoding.app/curated/1116
NOW PLAYING
@code_kartik:LangChain團隊在2026年2月透過優化harness,將其開源程式開發Agent「deepagents-cli」在「Terminal-Bench 2.0…
No transcript for this episode yet
Similar Episodes
Mar 26, 2026 ·1m
Jan 2, 2026 ·47m
Dec 21, 2025 ·46m