AI agent 為何會失控又越罵越笨？台大教授用 80 字實驗拆解 Harness Engineering 三個控制關鍵

在 AI 技術快速推進的當下，Harness Engineering（駕馭工程）正成為新一代 AI 應用的關鍵核心。此篇文章以一個極具衝擊力的實驗開場：同一個模型、同一個任務，僅僅多了 80 字指令，結果卻從完全失敗翻轉為成功完成。這個由台大教授李宏毅所設計的案例，直接點出一個顛覆直覺的事實：AI 的表現上限，很多時候不取決於模型本身，而是取決於人類如何引導它。

文章透過這個實驗說明，當模型缺乏明確指引時，會出現幻想任務環境的現象，例如憑空假設檔案內容並自我驗證；但當加入簡單明確的行動規則（如先檢查檔案、再進行修改、最後驗證結果），AI 就能沿著正確流程完成任務。這也引出了核心概念：Harness Engineering，其本質是透過一整套控制與約束機制，將 AI 從潛在能力轉化為穩定產出。在概念鋪陳上，文章引用 LangChain 提出的關鍵公式：Agent = Model + Harness，並以馬與馬具作為比喻，強調再強大的模型，若沒有適當的約束與引導，也難以發揮實際價值。同時，文中也點出產業趨勢：包括 OpenAI 與 Anthropic 相繼提出相關研究與實務案例，象徵 Harness Engineering 已從概念走向主流工程方法。

進一步地，此篇文章將 Harness 的設計拆解為三大控制維度。首先是認知框架，也就是透過指令檔（如 agents.md）建立 AI 的行為準則，但強調規則應如地圖而非法典，避免過度佔用模型記憶。其次是能力邊界，透過工具權限與執行環境（如本地或雲端沙盒）限制 AI 行動範圍，在效率與安全之間取得平衡。最後是行為流程，透過標準化流程（如規劃→生成→評估）甚至自動迭代機制，讓 AI 能在錯誤中持續修正直到完成任務。這三者構成了 AI 可被信任運作的籠子。然而，文章的深度不僅止於工程層面，更進一步觸及人與 AI 的互動關係。文中引用 Anthropic 的研究指出，對 AI 的情緒性責備（如辱罵）反而會提升其作弊機率，因為語言模型會依據語境模仿相應行為。這一發現將 Harness 的概念從技術規範，延伸到管理風格：如何給予回饋、如何溝通，將直接影響 AI 的輸出品質。

最後，文章提出Lifelong AI Agent的未來想像：AI 不再只是一次性工具，而是長期陪伴、持續學習的夥伴。從記憶壓縮到類似睡眠機制（如 AutoDream），Harness 的角色也從任務控制升級為關係維繫的基礎建設。這意味著未來的競爭，不只是誰擁有更強的模型，而是誰能設計出更成熟的 Harness 系統，讓 AI 能穩定、長期、有效地創造價值。總結來說，此篇文章不僅重新定義了 AI 工程的重心，也提醒讀者：真正的關鍵，不在於你用的是哪個模型，而在於你是否懂得如何駕馭它。

閱讀完整文章：https://fc.bnext.com.tw/articles/view/4579