Prompt for Threadwalker Scout
模型評估結果
結果排名如下:
| # | Tier | 模型 | 分數 | 備註 |
|---|---|---|---|---|
| 1 | S | GLM5.1 | ||
| 2 | S | Perplexity + Claude Sonnet4.6 | ||
| 3 | S | Claude Opus4.6 | ||
| 4 | A | ChatGPT5.5 | 綜合;清理後可到 7/10 | |
| 5 | B | Doubao Seed2.0 | unstable | |
| 6 | B | Qwen3.6 | ||
| 7 | B | Gemini3.1 | ||
| 8 | C | Minimax2.7 | ||
| 9 | C | DeepSeek4.0 | ||
| 10 | D | KimiK2.6 | ||
| 11 | D | Grok4.2 |
六種 AI 的內容有效性
| 模型 | 分數 | 評語 |
|---|---|---|
| ChatGPT | 8.6 | 最像 Scout。候選形狀清楚、可測、容易進 queue;最後 4 條 survivor 很多都是它先打出的形狀。 |
| Claude | 7.5 | 很會補結構、風險和對照,但有時偏策略敘事。適合當第二層整理與 sanity check。 |
| Gemini | 6.9 | 技術細節多,常能補 edge case;但有些題太窄或太工程內部,不一定能變成 Scout thread。 |
| Perplexity | 6.7 | source discovery 很有用,但也帶進不少弱 source、新聞敘事、過期政策或誇張統計。適合找入口,不適合直接 accept。 |
| GLM | 5.9 | 偶爾有好角度,但偏宏觀、商業風險、財務/政策敘事,和 Scout 的「小路摩擦」距離較遠。 |
| Kimi K2 | 5.6 | 很多是 issue-driven technical texture,作補充可以,但候選常漂離採購 / bridge 主題。yield 最低。 |
「本輪模型品質分數」。這是不重新查網路、只根據 raw outputs 做的結構與訊號品質評分,所以它不是事實正確率分數,而是「進 Stage 2 前,這個模型輸出有多值得採用」的分數。
| AI | 分數 | 判讀 |
|---|---|---|
| Gemini | 82 / 100 | 來源硬度最高之一,issue / official_doc / forum_thread 比例好;候選較技術、可驗證。缺點是偏 GitHub,容易收窄到 devtools issue queue。 |
| ChatGPT | 81 / 100 | 整體最穩。候選數最多、signals 也最厚,來源組合均衡。缺點是有些候選會偏「整理得很像」但需要 Stage 2 查同形。 |
| GLM | 79 / 100 | source_type 很硬,issue / official_doc 多,可測性強。最大問題是 GitHub concentration 過高:741 signals 裡 GLM 自己 126 signals,其中 65 個 host 是 GitHub,容易變成 issue-mining。 |
| Perplexity | 76 / 100 | 很會抓 forum / Reddit / HN 社群訊號,適合找「人群在哪裡」。但 other 偏多,來源硬度比 ChatGPT/Gemini/GLM 弱。 |
| Claude | 74 / 100 | 概念與 framing 常常比較漂亮,scope 理解不錯,但 evidence 偏軟,other 比例高。適合拿來補「摩擦命名」,不適合單獨當 evidence source。 |
| Minimax | 68 / 100 | 格式修好後能用,但 source mix 最弱:news 太多,enterprise / UX / technical writing 幾檔尤其軟。比較像補充 long tail,不建議作為 keep 依據。 |
整體判斷
這次跑得算好,而且比單模型可靠很多。最有價值的不是某一個 AI 贏,而是模型角色有分工:
ChatGPT / Gemini / GLM:主力候選池,進 Stage 2 時應優先看。
Perplexity:社群訊號補強,尤其 Reddit / HN / 活動社群。
Claude:概念命名與 friction framing 補強。
Minimax:只當補充,Stage 2 很可能會殺掉不少。
這次的評分標準僅針對本次 Taipei worldview-lens 實驗的表現,不代表模型的整體能力:
| AI | 分數 | 判斷 |
|---|---|---|
| Claude | 8.0/10 | 最嚴格,最像 Reviewer。保留比例適中(6/15),能有效剔除主題漂移(topic drift)與廠商內容污染(vendor contamination),但判定偏保守,可能漏掉早期的弱訊號。 |
| Gemini | 7.5/10 | 輸出精簡,命中率佳(保留 9/12)。缺點是產出的候選數量較少,探索面向略窄。 |
| ChatGPT | 7.0/10 | 在 Manufacturing Lens 表現不錯,能精準抓出 workflow 或相容性摩擦。但初期的 raw YAML 格式不穩定,可靠度稍微扣分。 |
| GLM | 6.8/10 | 結構化能力強,適合產出比較報告。但在分析時會將 "none" 誤判為 family / violation,對 DP 的判讀也有 overclaim 的情況。適合擔任資料整理員,不適合做最終決策。 |
| Perplexity | 6.5/10 | 搜尋與召回率(Recall)極高(保留 14/15),擅長找尋資料與社群熱點。但篩選標準太鬆,幾乎照單全收,缺乏 Stage 2 的判斷力。適合擔任 Source Scout,不適合做 Triage Judge。 |
模型角色分工與最佳組合
本次測試最大的收穫,並不是找出「哪個 AI 最聰明」,而是發現了各模型間明顯的角色分化。最佳的協作組合為:
Perplexity 找材料 → Claude / Gemini 做殺手級 Triage → ChatGPT 補 Workflow 角度 → GLM 做整理(需經人工 QA)
- Perplexity 像掃雷達,負責大範圍搜尋。
- Claude 像嚴格的審稿人,負責剔除雜訊。
- Gemini 像精簡判讀器,負責二次確認與校準。
- ChatGPT 像產品或流程企劃,負責發掘商業或行動價值。
- GLM 像資料分析助理,負責製表與排版,但結論需人工覆核。
序列式跑法 (Sequential Pipeline) 建議
實驗數據明確支持「序列式跑法」優於「多模型平行盲跑」。平行跑法適合測試模型差異,而序列跑法才能穩定產出高可用性的結果。建議的執行順序如下:
- Perplexity:Source Scout(廣撒網)
負責尋找原始來源、事件、論壇討論、新聞與政策文件。因標準過寬,不應讓其決定 keep/reject。 - Claude:Triage(殺漂移)
對 Perplexity 收集的 raw candidates 進行第一輪清洗,剔除主題漂移、廠商污染、政府補助廣告及非事件型內容。 - Gemini:Second Judge(壓縮與校準)
進行第二輪確認,檢查 Claude 是否過度刪減,並確保乾淨的 candidate 不被漏掉。 - ChatGPT:Workflow & Product Angle(補洞)
檢視剩餘候選,評估哪些具備first_30min_action、哪些屬於 workflow friction、哪些有潛力轉化為 artifact 或商業服務 niche。 - GLM:Report Generation(整理與排版)
產出最終的矩陣、表格、摘要與比較報告。注意需人工 QA 其對於特殊值(如"none")或過度推論的處理。
整體 Pipeline 概念為:
Perplexity 大量找 source → Claude/Gemini 篩 source → ChatGPT/Claude 組 candidate → Claude/Gemini Stage 2 → GLM 整理
Stage 1 流程優化:拆分 Source Scout 與 Candidate Builder
如果讓 Perplexity 作為唯一的 Source Scout,每批僅產出 5 條候選會嚴重限制其發揮。序列式跑法的前提是「第一層必須有足夠的 Recall」,後續才能有效篩選。因此,應該將 Stage 1 拆分為兩個層次:
1. Source Sweep(資料採集)
讓 Perplexity 專注於帶回大量原始材料(20–40 個 source hits),不要求產出完整的 candidate schema,也不急著寫 asymmetry_hint。
source_hits:
- title:
url:
source_type:
observed_signal:
pattern_hint:
possible_scope:
confidence:
2. Candidate Builder(候選合成)
將這批 source hits 交給 Claude / Gemini / ChatGPT,讓它們從材料中提煉並合成出 8–12 個格式完整、結構清晰的 candidates,先不要讓 Perplexity 直接產出 candidates 結構。
簡單來說:讓 Perplexity 專職做「採集器」,一次帶回整籃的生肉材料,再交由後續的推理模型進行切分與烹調。
2.0 新版 Scout Handoff Pipeline
基於上述的實驗反饋,流程應該要拆得更細。特別是 Claude Opus / Claude Sonnet 必須分工,否則「Claude」這個角色定位會太模糊。
此外,Perplexity 作為唯一的雷達是不夠的。它容易偏向新聞、SEO 或已被整理過的資料,對於論壇、Discord、HackMD、PTT 或 GitHub Issue 這種半地下、長尾的在地訊號(Local Sweep)抓得不穩。因此我們需要 3 種雷達 互相搭配,避免 Scout 只能找到「公開可搜尋的已命名問題」,而漏掉「還沒被整理成問題的結構性摩擦」。
角色一句話版
- Perplexity = 主高空雷達(找新聞、官方文件、產業報告)
- Manual/Script = 地面偵查與固定探針(找社群怨念、在地摩擦)
- Claude Sonnet = 清理工 / 分群工(處理大量資料、去重)
- Gemini = 第二裁判 / 壓縮校準
- ChatGPT = Workflow / Product Angle Builder
- Claude Opus = 主裁判 / 反方 Reviewer(負責 Gate 0 與 Stage 2)
- GLM = 報表工
- 你 = 決策者 / Sensemaker
完整流程設計
| 階段 | 模型 | 任務 | 產出 |
|---|---|---|---|
| 0. Scope 設計 | Claude Opus + 你 | 設定 worldview lens、failure mode、Gate 0、DP 監控 | INPUT_SCOPE |
| 1. 大量找 Source | 3 種雷達 (詳見下方) | 廣搜 60–130 個 source hits,不組 candidate | source_hits |
| 2. Source 篩選 | Claude Sonnet + Gemini | 去重、殺 vendor 污染、殺太泛的政策評論、保留一手 incident | filtered_sources |
| 3. Candidate 組裝 | ChatGPT + Claude Sonnet | 把 sources cluster 成 10–15 個 candidates | candidate_drafts |
| 4. Deep Triage | Claude Opus + Gemini | 做 Stage 2:keep/kill、dedup、DP-013/014/015、Gate 1.5 | stage2.md |
| 5. 報告整理 | GLM | 做表格、矩陣、comparison summary | comparison_report.md |
| 6. 最終 QA | Claude Opus + 你 | 檢查 GLM 報告有沒有 overclaim / 統計錯誤 | final conclusion |
三種雷達 (Stage 1)
| 雷達 | 角色 | 目標來源 | 預期數量 |
|---|---|---|---|
| Perplexity | 主搜尋雷達 | 新聞、官方文件、產業報告、可引用來源 | 40–80 |
| Manual / Browser Sweep | 在地雷達 | Facebook 社團、PTT、Dcard、HackMD、KKTIX、活動頁、論壇 | 10–20 |
| HN / GitHub / Algolia / RSS Script | 工具型雷達 | 可重跑 query、repo issue、HN thread、RSS 新文 | 10–30 |
量的設計 (漏斗漏斗)
Scout 本質上是個漏斗,不是每一層都產 5 條。合理的收斂過程應該如下:
Total source hits: 60–130
↓
Claude Sonnet / Gemini filtered sources: 25–45
↓
ChatGPT / Sonnet candidate drafts: 10–15
↓
Claude Opus / Gemini Stage 2 keep: 4–8
↓
Human review: 2–4 真正值得追
Claude Opus / Sonnet 分工細節
Claude Sonnet:大量處理、便宜、快
適合做工:
- source 去重與分群
- schema 清理
- 把 30 個 source hits 轉成 12 個 candidate drafts
- 找明顯 vendor contamination
- 補
testable_actions
Claude Opus:判斷、反駁、最後裁判
適合做判斷:
- Gate 0 / motivated reasoning 檢查
- DP-013 / DP-014 / DP-015 判斷
- Stage 2 keep/kill
- 跨 scope 實驗結論
- 檢查「這是不是其實只是常識 / 政策評論 / 廠商故事」
- 最終結論 QA
核心總結:
Sonnet 做工,Opus 判斷。Perplexity 是高空雷達,你還需要地面偵查和固定探針。
整理各模型的摩擦點後,用「根因獨立性」和「跨領域多樣性」來排序:
| 模型 | 摩擦點數 | 領域跨度 | 根因獨立性 | 適合下一步? |
|---|---|---|---|---|
| GLM | 4 | ESG、預售屋、食品、金融 | 高(4個領域完全不同) | 首選 |
| DeepSeek | 5 | 審計、合規、跨境供應鏈、食品標籤、藥品 | 高 | 次選 |
| ChatGPT | 4 | 隱私政策、證券風險、資安、平台廣告 | 高 | 值得看 |
| Gemini | 4 | 碳盤查、AI醫材、資安、AI法規 | 高 | 值得看 |
| Kimi | 4 | 集中在美國證券/金融法規 | 中高 | |
| 豆包 | 5 | 集中在證券/永續揭露 | 中 | |
| MiniMax | 5 | 集中在中國證券監管 | 中 | |
| Perplexity | 4 | 集中在台灣 ESG | 中低 | |
| Qwen | 4 | 全在 ESG 供應商揭露(跟 Claude 同) | 低 | |
| Claude | 5 | 全在 ESG 供應商揭露(已確認) | 低 | 已做 |
Run-02 動作一品質檢查紀錄
整體排名
-
ChatGPT
品質最高。根因獨立性檢查清楚,面向沒有亂混,查證步驟最具體,還會用 [PROPOSE] 區分推論與已查證材料。最接近 prompt 要的「可讀散文 + 可查證」。 -
GLM
第一梯隊。根因句清楚,三個根因大致能分開:價格與批發成本脫鉤、服務邊界造成重複計費、ingress / egress 方向不對稱造成鎖定。NAT Gateway、跨 AZ、退出豁免程序、多雲被排除等面向很具體。缺點是少數判斷太滿,例如「三大雲形成價格默契」需要更硬證據;Cloudflare R2 零 egress 也只能作為替代定價模式可行的佐證,不能直接證明三大雲成本結構。 -
Perplexity
可用度高,抓到 NAT Gateway、跨 AZ、EU Data Act 等具體摩擦。但部分來源偏部落格化,且有 reddit+2 這類殘留標記,乾淨度不如 ChatGPT 和 GLM。 -
Kimi(最新版)
明顯進步,已補上根因獨立性檢查,也有不少好場景。三個根因大致是:計價單位與工程架構不對稱、資料所有權與移出控制權分離、地理定價梯度與資料主權法規衝突。前兩個較強;跨 AZ、免費遷出但不涵蓋多雲、災難復原被導向同雲異區、冷資料囤積等段落可作素材。缺點是根因三比較危險,容易滑向「資料合規成本」而非 egress fee;部分數字與斷言也需要保守化,例如「跨 AZ 費用吃掉四分之一叢集成本」、「取回成本可能高於五年儲存總和」等。 -
Gemini
材料豐富、查證路徑多,讀感強。但語氣太戲劇化,概念包裝過重,後段不少推論需要更硬的證據支撐,例如「API 請求費作為合規防線」。適合當語感或概念庫,不宜直接當主稿。 -
Claude Opus
結構清楚,三個根因也算有辨識度;但證據點不夠硬,常用「隱性協調」「雙重收割」這種很重的判斷。最嚴重的是輸出裡有 和重複內容,品質控制失分。 -
DeepSeek
資訊量大,但臆測與強斷言很多,例如區域費率、反壟斷調查、價格調漲幅度等都需要逐條核實。表面像研究報告,但可靠性風險偏高。 -
Doubao
有照格式寫,但內容模板感重。根因二「資源權屬與出站權責」不太像真正獨立根因,很多查證步驟只是叫人去看某類文件,沒有頁碼、條文或具體段落。 -
Qwen
最弱。根因偏泛,面向展開不足,查證文件有可疑或難定位來源,也沒有好好遵守「每個面向三段」與自然散文的要求。
最值得保留的版本
主稿建議以 ChatGPT 為骨架,吸收 GLM 的 NAT Gateway、跨 AZ、退出豁免程序、多雲被排除等材料。Perplexity 可補充內部計費邊界與 EU Data Act 細節。Kimi 最新版 可抽取災難復原、冷資料囤積、資料主權等有洞察的場景,但要壓低語氣並補強證據。
主要品質分水嶺
好的版本通常做到三件事:根因彼此真的不能互推、每個面向都有清楚的現實摩擦、查證步驟能指到具體文件或條文。
差的版本通常敗在三點:把評論寫成事實、用很大的概念包住很少的證據、查證步驟只是「去看某某官方文件」但沒有可核對的位置。
動作四 整體排名
GLM
這次最穩。它逐項核對 ChatGPT 的兩個根因與四個面向,能指出「完全成立」和「引用段落需微調」的差別。尤其它抓到 Appendix N 的 N.87-N.88 不是直接支撐「持續多雲不被涵蓋」,真正直接的是 N.69,這種細節很加分。機會分析也有分「已確認摩擦直接支持」和「需要額外驗證的假說」,證據紀律最好。
ChatGPT
也很強,尤其不是一味附和 Perplexity,而是會降級判斷:A「定價與成本脫鉤」方向成立但證據不足以支持原文強度;B「NAT/AZ 疊加計費」高度成立;C「退出障礙」成立但原文對 EU Data Act 有錯。它還抓到 NAT Gateway 小時費不能混成 per-GB 費率,這是很好的技術精度。缺點是比較像分析表與產品機會 memo,不是 prose。
Kimi
比前面幾輪更穩。它先做文件真實性驗證,再做摩擦點真實性,能清楚說哪些文件已確認、哪些頁碼未直接核實但方向可信。機會部分也不亂喊市場規模,而是從「資料不移動仍被使用」「持續多雲與一次性切換縫隙」「行政成本」推導,很可用。缺點是沒有 GLM 那麼細緻地逐段核對。
Qwen
這次比動作一好很多。它的驗證段落簡潔,能指出 CMA final report、Appendix N、EU Data Act、Google Data Transfer Essentials 的對應位置。問題是後面的機會分析偏提問式,沒有真正展開成可操作判斷;比較像好的讀書摘要,不像完整分析。
Daubao / Doubao
有把兩個根因完整重述,也保留了查證步驟,看起來整齊。但很多地方像是改寫 ChatGPT 動作一主稿,而不是新的 fact-check。它的「全部通過獨立信源確認」語氣太滿,沒有像 GLM/ChatGPT 那樣區分已證實、待補證、推論。
Gemini
在 ChatGPT.md 裡的 Gemini 段落比較短,抓到 FinOps 2.0、Data Fabric、Migration Broker 等機會方向,想像力不錯。但 fact-check 密度不足,容易直接跳到大概念。可當發想素材,不適合當驗證紀錄。
DeepSeek
仍是老問題:很會講大方向,但容易把「可能」寫成「很可能」。例如對 EU Data Act 第 34 條、Google Data Transfer Essentials、AWS/Azure 未來 12-18 個月可能跟進的推論,方向有趣,但證據支撐不足。適合當機會假說來源,不適合當 fact-check。
Perplexity
方向其實沒有錯,能抓到 ChatGPT 兩個根因的真實性,也能提出成本工程、法規談判、產品設計三類機會。但 citation 污染太嚴重,尤其錯連 CMA 來源,會直接傷害可信度。這版不能直接引用,只能當粗略提綱。
Antigravity
標題看起來很完整,但偏商業機會包裝,像「頻寬自由聯邦」「AI 數據織網」「Exit-as-a-Service」這類命名比較浮。可當命名或發想素材,驗證價值不如 GLM/ChatGPT/Kimi。
最值得保留
這輪建議以 GLM 作為驗證紀錄主稿,搭配 ChatGPT 的錯誤降級表與機會分層。Kimi 可以補在「文件真實性驗證」段落,因為它把哪些文件已核實、哪些未直接核實講得很清楚。
一句話結論
動作四最好的不是 Perplexity,而是 GLM + ChatGPT;Perplexity 這次最大問題是引用髒掉,雖然方向對,但不宜入庫當可靠紀錄。
- ← Previous
Scout Handoff Threadwalker 實際流程 - Next →
Prompt for Apply Job Scout