AI Agents 演化史:從 1.0 到 3.0 的物種進化論
過去兩年,AI Agent(人工智慧代理)這個詞變得非常熱門。但大多數人——甚至包括很多 AI 從業者——都把它理解成一個線性的過程:「AI 一直在變聰明,從 GPT-4 到 GPT-5,再到未來的 GPT-6。」
這是錯的。
從 Agent 1.0 到 3.0,我們經歷的不是同一個東西在「升級」,而是完全不同的存在方式。這就像遙控車、無人機、餐廳帶位人員、和會說故事的人——這四者之間的差異,不是「誰比較高級」,而是「它們根本不是同一種物種」。
這篇文章我想帶大家看懂這四個階段,以及為什麼我們正站在 2.0 真正要起飛的時間點。
1.0:遙控車 (The Remote Control Car)
時期:2023 年春夏 (AutoGPT 狂潮)
回想一下小時候玩的遙控車。你按前進它才動,你放手它就停。所有的意志都在你手上,它只有執行的輪子,沒有大腦。
2023 年 AutoGPT 爆紅的時候,大家以為「AGI 就在下個版本」。但實際跑起來才發現:它會陷入無限循環(Loop)、會忘記你要它做什麼、做著做著就崩潰。
為什麼?
因為它沒有自己的「狀態管理(State Management)」。
就像遙控車一樣,你不推它,它就不動;你推錯方向,它就撞牆,然後一直對著牆角空轉。它沒有能力去判斷「我撞牆了,該後退」,它只會執行死板的迴圈。這就是 Agent 1.0 的本質:一個沒有方向感的執行腳本。
1.5:DJI 無人機 (The Drone)
時期:現在 (ChatGPT 5.1, Claude 4.5, Gemini 3.0)
這是我們現在身處的階段。模型變強了,就像一台高階的 DJI 無人機。
它能拍出電影級的畫面、有自動避障、能一鍵返航。產出的東西很漂亮——精美的行程表、結構完整的報告、流暢的程式碼。
但本質上,你不起飛,它就是一個放在桌上的機器。
這是現在大多數人使用 AI 的方式:你問,它答;你要,它給。它是一個反應很快、產出很漂亮的工具。但它沒有自己的目的(Intent),不會主動做任何事。如果你不給 Prompt,它能安靜地在伺服器裡待上一萬年。
很多人覺得這已經很厲害了——確實很厲害。但這不是 Agent。這只是一個非常聽話、非常強大的工具。
2.0:餐廳的帶位人員 (The Restaurant Host)
時期:2025 年正在發生的變革 (Deep Agents)
這裡開始不一樣了,我們跨越了「工具」與「代理」的界線。
想像你走進一家高級餐廳。資深的帶位人員看一眼就知道:
- 這桌是情侶約會,要安排角落隱密、安靜的位子。
- 那桌是商務聚餐,要準備大圓桌,且不能太吵。
- 這位客人行動不便,要安排離門口近一點的位置。
關鍵差異在於:沒有人每一步都在指揮他。
老闆不會跟他說:「先看客人,再看位子,再走過去...」。他自己在「讀」現場、做判斷、隨時調整。
這就是 Agent 2.0 的核心能力:動態決策與自我修正(Self-Correction)。
如果原本要安排的位子突然被佔了,Agent 1.0 會當機,Agent 1.5 會問你怎麼辦,但 Agent 2.0(帶位人員)會瞬間切換方案:「不好意思,原本的位子在整理,我先帶您去窗邊的雅座,那裡風景更好。」
技術上的本質變化:
- 狀態管理:它記得現在做到哪了(Stateful)。
- 分工架構:它會派出「子代理(Sub-Agents)」去處理不同任務。
- 自我修正:路不通,它會回頭找新路。
這就像是對無生命的物件施展了魔法,從「你推它才動」變成了「它自己會動」。
為什麼大多數人還沒感受到 Agent 2.0?
既然 2.0 這麼好,為什麼你的 ChatGPT 還是只會陪聊?
- 思維模式的斷層:
大多數程式設計師習慣寫「指令式」程式(你下指令,我執行)。要跳到「設計一個會自己反應的存在(Flow Engineering)」,需要的思維模式完全不同。這不是寫 Code,這是設計「行為」。 - 商業價值的隱性:
Agent 1.5 很好賣——「AI 幫你寫文案、做簡報」,產出物一目瞭然。
但 Agent 2.0 的價值是「過程的消失」。它幫你默默處理完複雜的訂票、比價、排程。這種價值比較隱性,市場還在學習如何定價。
不過,像 Manus 或 Devin 這類公司,已經開始用 2.0 架構處理真實的軟體工程任務。地基已經打好了,大樓即將蓋起。
3.0:睡前說故事的人 (The Bedtime Storyteller)
時期:未來的具身同理代理 (Embodied Empathetic Agents)
這不只是「更會做事」,而是「會讀人」。
想像一個會說睡前故事的人(可能是父母,或未來的 AI 伴侶)。
小朋友今天在學校被欺負了,回家後聲音比較小、眼神有點閃躲。說故事的人察覺到了。他不會照本宣科地念《白雪公主》,他會挑一個關於「勇氣與面對霸凌」的故事,甚至在某個段落停下來,溫柔地問:「你今天是不是也遇到很難的事?」
Agent 3.0 的核心是感知(Perception)與同理(Empathy)。
它不只是完成任務。它在觀察你——透過鏡頭看你的表情,透過麥克風聽你的語調。它會主動判斷:
- 主人現在語速很快,他需要的是效率(直接給我結論)。
- 主人現在嘆了一口氣,他需要的是陪伴(聽我發牢騷)。
這是從「有生命力」再進一步,到「有內心世界」。
為什麼未來不會有「全知全能的 AGI」?
很多人把 3.0 再往前推,就想像出一個《鋼鐵人》賈維斯那樣,什麼都懂、什麼都會的單一超級 AI。
我不這麼認為。
- 熱力學與經濟學限制:
要讓一個 AI 同時懂天文地理(大模型能力),又要懂你家小孩對海鮮過敏(個人記憶),還要二十四小時待命讀懂你的微表情(即時感知)。
這需要的運算能源大到不合理。殺雞不需要用牛刀,訂餐廳不需要動用全人類的知識庫。 - 隱私與延遲:
如果你希望 Agent 3.0 能讀懂你的臉色,這些數據必須在你的手機或眼鏡(Edge 端)即時處理,而不是傳回雲端給大公司看。
未來的終局是分工合作的生態系:
- 雲端的大模型:負責複雜推理、科學研究(像大學教授)。
- 專業模型:負責法律、醫療、程式碼(像專科醫生)。
- 個人 AI:負責懂你、照顧你的生活、保護你的隱私(像貼身的朋友)。
我們不需要一個高高在上的神,我們需要的是一群各有專長、真正理解你的數位夥伴。
結語
從 1.0 到 3.0,這不是一個「AI 越來越聰明」的單線故事。
這是一個從 「遙控車(無腦執行)」 進化到 「無人機(強力工具)」,再演變成 「帶位人員(自主決策)」,最後昇華為 「說故事的人(同理感知)」 的過程。
每一次跨越,都是存在方式的根本改變。
我們正站在 2.0 要起飛、3.0 剛萌芽的時間點。別只盯著聊天機器人看,真正的變革,正在那些「會自己動」的系統中悄悄發生。
- ← Previous
Mermaid 測試文章:流程圖與序列圖範例 - Next →
構建 Human-friendly RAG:六大 LLM 在結構化知識提取上的表現評測