@code_kartik:LangChain團隊在2026年2月透過優化harness,將其開源程式開發Agent「deepagents-cli」在「Terminal-Bench 2.0… episode artwork

EPISODE · May 2, 2026 · 5 MIN

@code_kartik:LangChain團隊在2026年2月透過優化harness,將其開源程式開發Agent「deepagents-cli」在「Terminal-Bench 2.0…

from EasyVibeCoding Podcast · host Kartik

LangChain團隊在2026年2月透過優化harness,將其開源程式開發Agent「deepagents-cli」在「Terminal-Bench 2.0」排行從30名以外躍升至前5名,得分從52.8%暴增13.7點至66.5%。底層模型始終是GPT-5.2-Codex未變,僅改進harness,此結果凸顯應用AI最大轉變:模型不再是產品,harness才是。 harness定義與核心轉變 harness是包覆LLM的一切機制,將其從token產生器轉化為可運作Agent,包括工具調度、脈絡管理、沙盒隔離、規劃迴圈、子Agent協調、評估、觀測性,以及判斷工作「完成」的驗證邏輯。2026年3月「Claude Code」原始碼短暫外洩,顯示其TypeScript程式碼約513,000行,而實際模型API呼叫僅數行,其餘皆為harness。Mitchell Hashimoto於2026年初創造此詞,直言:Agent犯錯時,即工程化解決方案確保其永不再犯,此修復永存於harness。 模型商品化與harness累積優勢 前沿模型正收斂:工具使用、長脈絡、推理、結構化輸出皆已成熟,價格崩跌,「Cursor」的「Composer 2」比「Opus 4.6」便宜10倍,基準測試相當。Karpathy於2026年2月公開廢棄「vibe coding」一詞,重命名為Agentic程式開發,因程式撰寫已非瓶頸。 反之,harness具累積效應:每失敗皆轉為永久修復,如lint規則、hook、子Agent或脈絡模式,適用所有未來執行與模型。模型發布僅重置原始智慧基準,harness投資則持續增值。Stanford的「IRIS Lab」搭配「Claude Opus」與演進harness,在「Terminal-Bench」擊敗所有手工設計系統;「Factory.ai」的「Droid」以相同模型、不同harness達最先進水準;OpenAI「Frontier」團隊僅3至7名工程師,以百萬行生產程式碼、零手工程式碼,單Agent自主運行逾6小時,領先工程師總結:「人類導向,Agent執行。」難題從寫程式碼轉為設計環境。 現成框架不足之處 「LangChain」、「CrewAI」、「AI SDK」僅為起點,每款嚴肅Agent產品皆疊加自訂harness,如「Claude Code」、「Cursor」、「Devin」、「Sourcegraph Amp」、「Factory Droid」、「Replit Agent」、「Vercel v0」、「Hermes Agent」、「OpenClaw」,皆具特定領域調校。具體原因包括: 脈絡視窗需精細管理,「Cursor」團隊花數週調校各模型行為。 工具須為LLM量身設計,非人類,「Replit」發現函數呼叫在參數複雜度遇天花板,改用限制Python DSL,達90%以上有效呼叫率。 評估須綁定產品,非通用基準。 大規模token成本關鍵,前沿實驗室在此有結構性衝突,因harness優化減少token損害其單位經濟。 另有供應商鎖定風險:建基單一供應商runtime即為供應商選擇。 生產harness架構概要 生產harness約分七層: Agent迴圈(如ReAct、plan-execute、generate-test-repair)。 專為LLM打造的工具層。 具漸進揭露的脈絡與記憶管理。 具權限閘道的沙盒執行。 多Agent協調。 評估與追蹤。 提示與模型路由。 所有成功harness共性:推理層信任LLM,工具邊界嚴格強制。 建置harness時機建議 原型階段勿自建,使用「Claude Code」、「Cursor」或「Codex」直接出貨。轉生產單一領域時,透過擴展點自訂,如「AGENTS.md」、hook、MCP伺服器、子Agent定義,先建評估套件再寫自訂程式碼。 自建門檻為數學嚴峻時:自訂評估顯示stock與custom間持續15+點差距、單任務經濟關鍵、需權限與審計追蹤(stock harness無提供)、或領域缺現成工具。 2025年眾隊競相建Agent,2026年贏家為投資周邊支架者。模型賦予智慧,harness造就產品,依此建置。 原文:https://easyvibecoding.app/curated/1116

LangChain團隊在2026年2月透過優化harness,將其開源程式開發Agent「deepagents-cli」在「Terminal-Bench 2.0」排行從30名以外躍升至前5名,得分從52.8%暴增13.7點至66.5%。底層模型始終是GPT-5.2-Codex未變,僅改進harness,此結果凸顯應用AI最大轉變:模型不再是產品,harness才是。 harness定義與核心轉變 harness是包覆LLM的一切機制,將其從token產生器轉化為可運作Agent,包括工具調度、脈絡管理、沙盒隔離、規劃迴圈、子Agent協調、評估、觀測性,以及判斷工作「完成」的驗證邏輯。2026年3月「Claude Code」原始碼短暫外洩,顯示其TypeScript程式碼約513,000行,而實際模型API呼叫僅數行,其餘皆為harness。Mitchell Hashimoto於2026年初創造此詞,直言:Agent犯錯時,即工程化解決方案確保其永不再犯,此修復永存於harness。 模型商品化與harness累積優勢 前沿模型正收斂:工具使用、長脈絡、推理、結構化輸出皆已成熟,價格崩跌,「Cursor」的「Composer 2」比「Opus 4.6」便宜10倍,基準測試相當。Karpathy於2026年2月公開廢棄「vibe coding」一詞,重命名為Agentic程式開發,因程式撰寫已非瓶頸。 反之,harness具累積效應:每失敗皆轉為永久修復,如lint規則、hook、子Agent或脈絡模式,適用所有未來執行與模型。模型發布僅重置原始智慧基準,harness投資則持續增值。Stanford的「IRIS Lab」搭配「Claude Opus」與演進harness,在「Terminal-Bench」擊敗所有手工設計系統;「Factory.ai」的「Droid」以相同模型、不同harness達最先進水準;OpenAI「Frontier」團隊僅3至7名工程師,以百萬行生產程式碼、零手工程式碼,單Agent自主運行逾6小時,領先工程師總結:「人類導向,Agent執行。」難題從寫程式碼轉為設計環境。 現成框架不足之處 「LangChain」、「CrewAI」、「AI SDK」僅為起點,每款嚴肅Agent產品皆疊加自訂harness,如「Claude Code」、「Cursor」、「Devin」、「Sourcegraph Amp」、「Factory Droid」、「Replit Agent」、「Vercel v0」、「Hermes Agent」、「OpenClaw」,皆具特定領域調校。具體原因包括: 脈絡視窗需精細管理,「Cursor」團隊花數週調校各模型行為。 工具須為LLM量身設計,非人類,「Replit」發現函數呼叫在參數複雜度遇天花板,改用限制Python DSL,達90%以上有效呼叫率。 評估須綁定產品,非通用基準。 大規模token成本關鍵,前沿實驗室在此有結構性衝突,因harness優化減少token損害其單位經濟。 另有供應商鎖定風險:建基單一供應商runtime即為供應商選擇。 生產harness架構概要 生產harness約分七層: Agent迴圈(如ReAct、plan-execute、generate-test-repair)。 專為LLM打造的工具層。 具漸進揭露的脈絡與記憶管理。 具權限閘道的沙盒執行。 多Agent協調。 評估與追蹤。 提示與模型路由。 所有成功harness共性:推理層信任LLM,工具邊界嚴格強制。 建置harness時機建議 原型階段勿自建,使用「Claude Code」、「Cursor」或「Codex」直接出貨。轉生產單一領域時,透過擴展點自訂,如「AGENTS.md」、hook、MCP伺服器、子Agent定義,先建評估套件再寫自訂程式碼。 自建門檻為數學嚴峻時:自訂評估顯示stock與custom間持續15+點差距、單任務經濟關鍵、需權限與審計追蹤(stock harness無提供)、或領域缺現成工具。 2025年眾隊競相建Agent,2026年贏家為投資周邊支架者。模型賦予智慧,harness造就產品,依此建置。 原文:https://easyvibecoding.app/curated/1116

NOW PLAYING

@code_kartik:LangChain團隊在2026年2月透過優化harness,將其開源程式開發Agent「deepagents-cli」在「Terminal-Bench 2.0…

0:00 5:23

No transcript for this episode yet

We transcribe on demand. Request one and we'll notify you when it's ready — usually under 10 minutes.

That Hoarder: Overcome Compulsive Hoarding That Hoarder Hoarding disorder is stigmatised and people who hoard feel vast amounts of shame. This podcast began life as an audio diary, an anonymous outlet for somebody with this weird condition. That Hoarder speaks about her experiences living with compulsive hoarding, she interviews therapists, academics, researchers, children of hoarders, professional organisers and influencers, and she shares insight and tips for others with the problem. Listened to by people who hoard as well as those who love them and those who work with them, Overcome Compulsive Hoarding with That Hoarder aims to shatter the stigma, share the truth and speak openly and honestly to improve lives. The Small Business Startup School – Business Notes | Financial Literacy | Retail Psychology – For Professionals & Entrepreneurs The Small Business Startup School Inc. Starting or buying a small business? While personal circumstances may vary, business patterns remain timeless. On The Small Business Startup School, we explore strategies, insights, and practical solutions to help entrepreneurs confidently navigate their journey.Hosted by Ola Williams—a retail entrepreneur, fintech founder, and financial coach with over two decades of experience—this podcast marries financial awareness and retail psychology with optimism to deliver actionable takeaways.Join us to learn, grow, and connect as we uncover the keys to business success.Let’s continue to learn together and be encouraged to keep on connecting! DIOSA. Carolina Sanper This podcast is a sacred space created by Carolina Sanper where you connect with your inner wisdom and embody your magnetic feminine power.It is the realization that the mystical realm is where you plant the seeds of your desired reality.It is a portal to your true essence: awareness, presence, and receiving with ease. Welcome home, DIOSA. 🖤 XXX Tech by SOVRYN Dr. Brian Sovryn The crossroads between technology, sensuality, and metaphysics - and the longest running anarchist podcast in the world! Brought to you by Dr. Brian Sovryn.

Frequently Asked Questions

How long is this episode of EasyVibeCoding Podcast?

This episode is 5 minutes long.

When was this EasyVibeCoding Podcast episode published?

This episode was published on May 2, 2026.

What is this episode about?

LangChain團隊在2026年2月透過優化harness,將其開源程式開發Agent「deepagents-cli」在「Terminal-Bench 2.0」排行從30名以外躍升至前5名,得分從52.8%暴增13.7點至66.5%。底層模型始終是GPT-5.2-Codex未變,僅改進harness,此結果凸顯應用AI最大轉變:模型不再是產品,harness才是。 harness定義與核心轉變 ...

Is there a transcript available for this episode?

Yes, a full transcript is available for this episode. You can read the complete transcript on the episode page.

Can I download this EasyVibeCoding Podcast episode?

Yes, you can download this episode by clicking the download button on the episode player, or subscribe to the podcast in your preferred podcast app for automatic downloads.
URL copied to clipboard!