Ian Chou's Blog

Prompt for Threadwalker Scout

模型評估結果

結果排名如下:

# Tier 模型 分數 備註
1 S GLM5.1
7–7.5
2 S Perplexity + Claude Sonnet4.6
7.5
3 S Claude Opus4.6
7
4 A ChatGPT5.5
6
綜合;清理後可到 7/10
5 B Doubao Seed2.0
5
unstable
6 B Qwen3.6
4.5
7 B Gemini3.1
4
8 C Minimax2.7
3.5–4
9 C DeepSeek4.0
3.5
10 D KimiK2.6
2
11 D Grok4.2
2

六種 AI 的內容有效性

模型 分數 評語
ChatGPT 8.6 最像 Scout。候選形狀清楚、可測、容易進 queue;最後 4 條 survivor 很多都是它先打出的形狀。
Claude 7.5 很會補結構、風險和對照,但有時偏策略敘事。適合當第二層整理與 sanity check。
Gemini 6.9 技術細節多,常能補 edge case;但有些題太窄或太工程內部,不一定能變成 Scout thread。
Perplexity 6.7 source discovery 很有用,但也帶進不少弱 source、新聞敘事、過期政策或誇張統計。適合找入口,不適合直接 accept。
GLM 5.9 偶爾有好角度,但偏宏觀、商業風險、財務/政策敘事,和 Scout 的「小路摩擦」距離較遠。
Kimi K2 5.6 很多是 issue-driven technical texture,作補充可以,但候選常漂離採購 / bridge 主題。yield 最低。

「本輪模型品質分數」。這是不重新查網路、只根據 raw outputs 做的結構與訊號品質評分,所以它不是事實正確率分數,而是「進 Stage 2 前,這個模型輸出有多值得採用」的分數。

AI 分數 判讀
Gemini 82 / 100 來源硬度最高之一,issue / official_doc / forum_thread 比例好;候選較技術、可驗證。缺點是偏 GitHub,容易收窄到 devtools issue queue。
ChatGPT 81 / 100 整體最穩。候選數最多、signals 也最厚,來源組合均衡。缺點是有些候選會偏「整理得很像」但需要 Stage 2 查同形。
GLM 79 / 100 source_type 很硬,issue / official_doc 多,可測性強。最大問題是 GitHub concentration 過高:741 signals 裡 GLM 自己 126 signals,其中 65 個 host 是 GitHub,容易變成 issue-mining。
Perplexity 76 / 100 很會抓 forum / Reddit / HN 社群訊號,適合找「人群在哪裡」。但 other 偏多,來源硬度比 ChatGPT/Gemini/GLM 弱。
Claude 74 / 100 概念與 framing 常常比較漂亮,scope 理解不錯,但 evidence 偏軟,other 比例高。適合拿來補「摩擦命名」,不適合單獨當 evidence source。
Minimax 68 / 100 格式修好後能用,但 source mix 最弱:news 太多,enterprise / UX / technical writing 幾檔尤其軟。比較像補充 long tail,不建議作為 keep 依據。

整體判斷

這次跑得算好,而且比單模型可靠很多。最有價值的不是某一個 AI 贏,而是模型角色有分工:

ChatGPT / Gemini / GLM:主力候選池,進 Stage 2 時應優先看。
Perplexity:社群訊號補強,尤其 Reddit / HN / 活動社群。
Claude:概念命名與 friction framing 補強。
Minimax:只當補充,Stage 2 很可能會殺掉不少。


這次的評分標準僅針對本次 Taipei worldview-lens 實驗的表現,不代表模型的整體能力

AI 分數 判斷
Claude 8.0/10 最嚴格,最像 Reviewer。保留比例適中(6/15),能有效剔除主題漂移(topic drift)與廠商內容污染(vendor contamination),但判定偏保守,可能漏掉早期的弱訊號。
Gemini 7.5/10 輸出精簡,命中率佳(保留 9/12)。缺點是產出的候選數量較少,探索面向略窄。
ChatGPT 7.0/10 在 Manufacturing Lens 表現不錯,能精準抓出 workflow 或相容性摩擦。但初期的 raw YAML 格式不穩定,可靠度稍微扣分。
GLM 6.8/10 結構化能力強,適合產出比較報告。但在分析時會將 "none" 誤判為 family / violation,對 DP 的判讀也有 overclaim 的情況。適合擔任資料整理員,不適合做最終決策。
Perplexity 6.5/10 搜尋與召回率(Recall)極高(保留 14/15),擅長找尋資料與社群熱點。但篩選標準太鬆,幾乎照單全收,缺乏 Stage 2 的判斷力。適合擔任 Source Scout,不適合做 Triage Judge。

模型角色分工與最佳組合

本次測試最大的收穫,並不是找出「哪個 AI 最聰明」,而是發現了各模型間明顯的角色分化。最佳的協作組合為:

Perplexity 找材料 → Claude / Gemini 做殺手級 Triage → ChatGPT 補 Workflow 角度 → GLM 做整理(需經人工 QA)

序列式跑法 (Sequential Pipeline) 建議

實驗數據明確支持「序列式跑法」優於「多模型平行盲跑」。平行跑法適合測試模型差異,而序列跑法才能穩定產出高可用性的結果。建議的執行順序如下:

  1. Perplexity:Source Scout(廣撒網)
    負責尋找原始來源、事件、論壇討論、新聞與政策文件。因標準過寬,不應讓其決定 keep/reject。
  2. Claude:Triage(殺漂移)
    對 Perplexity 收集的 raw candidates 進行第一輪清洗,剔除主題漂移、廠商污染、政府補助廣告及非事件型內容。
  3. Gemini:Second Judge(壓縮與校準)
    進行第二輪確認,檢查 Claude 是否過度刪減,並確保乾淨的 candidate 不被漏掉。
  4. ChatGPT:Workflow & Product Angle(補洞)
    檢視剩餘候選,評估哪些具備 first_30min_action、哪些屬於 workflow friction、哪些有潛力轉化為 artifact 或商業服務 niche。
  5. GLM:Report Generation(整理與排版)
    產出最終的矩陣、表格、摘要與比較報告。注意需人工 QA 其對於特殊值(如 "none")或過度推論的處理。

整體 Pipeline 概念為:
Perplexity 大量找 source → Claude/Gemini 篩 source → ChatGPT/Claude 組 candidate → Claude/Gemini Stage 2 → GLM 整理

Stage 1 流程優化:拆分 Source Scout 與 Candidate Builder

如果讓 Perplexity 作為唯一的 Source Scout,每批僅產出 5 條候選會嚴重限制其發揮。序列式跑法的前提是「第一層必須有足夠的 Recall」,後續才能有效篩選。因此,應該將 Stage 1 拆分為兩個層次:

1. Source Sweep(資料採集)

讓 Perplexity 專注於帶回大量原始材料(20–40 個 source hits),不要求產出完整的 candidate schema,也不急著寫 asymmetry_hint

source_hits:
  - title:
    url:
    source_type:
    observed_signal:
    pattern_hint:
    possible_scope:
    confidence:

2. Candidate Builder(候選合成)

將這批 source hits 交給 Claude / Gemini / ChatGPT,讓它們從材料中提煉並合成出 8–12 個格式完整、結構清晰的 candidates,先不要讓 Perplexity 直接產出 candidates 結構

簡單來說:讓 Perplexity 專職做「採集器」,一次帶回整籃的生肉材料,再交由後續的推理模型進行切分與烹調。


2.0 新版 Scout Handoff Pipeline

基於上述的實驗反饋,流程應該要拆得更細。特別是 Claude Opus / Claude Sonnet 必須分工,否則「Claude」這個角色定位會太模糊。

此外,Perplexity 作為唯一的雷達是不夠的。它容易偏向新聞、SEO 或已被整理過的資料,對於論壇、Discord、HackMD、PTT 或 GitHub Issue 這種半地下、長尾的在地訊號(Local Sweep)抓得不穩。因此我們需要 3 種雷達 互相搭配,避免 Scout 只能找到「公開可搜尋的已命名問題」,而漏掉「還沒被整理成問題的結構性摩擦」。

角色一句話版

完整流程設計

階段 模型 任務 產出
0. Scope 設計 Claude Opus + 你 設定 worldview lens、failure mode、Gate 0、DP 監控 INPUT_SCOPE
1. 大量找 Source 3 種雷達 (詳見下方) 廣搜 60–130 個 source hits,不組 candidate source_hits
2. Source 篩選 Claude Sonnet + Gemini 去重、殺 vendor 污染、殺太泛的政策評論、保留一手 incident filtered_sources
3. Candidate 組裝 ChatGPT + Claude Sonnet 把 sources cluster 成 10–15 個 candidates candidate_drafts
4. Deep Triage Claude Opus + Gemini 做 Stage 2:keep/kill、dedup、DP-013/014/015、Gate 1.5 stage2.md
5. 報告整理 GLM 做表格、矩陣、comparison summary comparison_report.md
6. 最終 QA Claude Opus + 你 檢查 GLM 報告有沒有 overclaim / 統計錯誤 final conclusion

三種雷達 (Stage 1)

雷達 角色 目標來源 預期數量
Perplexity 主搜尋雷達 新聞、官方文件、產業報告、可引用來源 40–80
Manual / Browser Sweep 在地雷達 Facebook 社團、PTT、Dcard、HackMD、KKTIX、活動頁、論壇 10–20
HN / GitHub / Algolia / RSS Script 工具型雷達 可重跑 query、repo issue、HN thread、RSS 新文 10–30

量的設計 (漏斗漏斗)

Scout 本質上是個漏斗,不是每一層都產 5 條。合理的收斂過程應該如下:

Total source hits: 60–130
↓
Claude Sonnet / Gemini filtered sources: 25–45
↓
ChatGPT / Sonnet candidate drafts: 10–15
↓
Claude Opus / Gemini Stage 2 keep: 4–8
↓
Human review: 2–4 真正值得追

Claude Opus / Sonnet 分工細節

Claude Sonnet:大量處理、便宜、快
適合做工:

Claude Opus:判斷、反駁、最後裁判
適合做判斷:

核心總結:
Sonnet 做工,Opus 判斷。Perplexity 是高空雷達,你還需要地面偵查和固定探針。


整理各模型的摩擦點後,用「根因獨立性」和「跨領域多樣性」來排序:

模型 摩擦點數 領域跨度 根因獨立性 適合下一步?
GLM 4 ESG、預售屋、食品、金融 高(4個領域完全不同) 首選
DeepSeek 5 審計、合規、跨境供應鏈、食品標籤、藥品 次選
ChatGPT 4 隱私政策、證券風險、資安、平台廣告 值得看
Gemini 4 碳盤查、AI醫材、資安、AI法規 值得看
Kimi 4 集中在美國證券/金融法規 中高
豆包 5 集中在證券/永續揭露
MiniMax 5 集中在中國證券監管
Perplexity 4 集中在台灣 ESG 中低
Qwen 4 全在 ESG 供應商揭露(跟 Claude 同)
Claude 5 全在 ESG 供應商揭露(已確認) 已做

Run-02 動作一品質檢查紀錄

整體排名

  1. ChatGPT
    品質最高。根因獨立性檢查清楚,面向沒有亂混,查證步驟最具體,還會用 [PROPOSE] 區分推論與已查證材料。最接近 prompt 要的「可讀散文 + 可查證」。

  2. GLM
    第一梯隊。根因句清楚,三個根因大致能分開:價格與批發成本脫鉤、服務邊界造成重複計費、ingress / egress 方向不對稱造成鎖定。NAT Gateway、跨 AZ、退出豁免程序、多雲被排除等面向很具體。缺點是少數判斷太滿,例如「三大雲形成價格默契」需要更硬證據;Cloudflare R2 零 egress 也只能作為替代定價模式可行的佐證,不能直接證明三大雲成本結構。

  3. Perplexity
    可用度高,抓到 NAT Gateway、跨 AZ、EU Data Act 等具體摩擦。但部分來源偏部落格化,且有 reddit+2 這類殘留標記,乾淨度不如 ChatGPT 和 GLM。

  4. Kimi(最新版)
    明顯進步,已補上根因獨立性檢查,也有不少好場景。三個根因大致是:計價單位與工程架構不對稱、資料所有權與移出控制權分離、地理定價梯度與資料主權法規衝突。前兩個較強;跨 AZ、免費遷出但不涵蓋多雲、災難復原被導向同雲異區、冷資料囤積等段落可作素材。缺點是根因三比較危險,容易滑向「資料合規成本」而非 egress fee;部分數字與斷言也需要保守化,例如「跨 AZ 費用吃掉四分之一叢集成本」、「取回成本可能高於五年儲存總和」等。

  5. Gemini
    材料豐富、查證路徑多,讀感強。但語氣太戲劇化,概念包裝過重,後段不少推論需要更硬的證據支撐,例如「API 請求費作為合規防線」。適合當語感或概念庫,不宜直接當主稿。

  6. Claude Opus
    結構清楚,三個根因也算有辨識度;但證據點不夠硬,常用「隱性協調」「雙重收割」這種很重的判斷。最嚴重的是輸出裡有 和重複內容,品質控制失分。

  7. DeepSeek
    資訊量大,但臆測與強斷言很多,例如區域費率、反壟斷調查、價格調漲幅度等都需要逐條核實。表面像研究報告,但可靠性風險偏高。

  8. Doubao
    有照格式寫,但內容模板感重。根因二「資源權屬與出站權責」不太像真正獨立根因,很多查證步驟只是叫人去看某類文件,沒有頁碼、條文或具體段落。

  9. Qwen
    最弱。根因偏泛,面向展開不足,查證文件有可疑或難定位來源,也沒有好好遵守「每個面向三段」與自然散文的要求。

最值得保留的版本

主稿建議以 ChatGPT 為骨架,吸收 GLM 的 NAT Gateway、跨 AZ、退出豁免程序、多雲被排除等材料。Perplexity 可補充內部計費邊界與 EU Data Act 細節。Kimi 最新版 可抽取災難復原、冷資料囤積、資料主權等有洞察的場景,但要壓低語氣並補強證據。

主要品質分水嶺

好的版本通常做到三件事:根因彼此真的不能互推、每個面向都有清楚的現實摩擦、查證步驟能指到具體文件或條文。

差的版本通常敗在三點:把評論寫成事實、用很大的概念包住很少的證據、查證步驟只是「去看某某官方文件」但沒有可核對的位置。


動作四 整體排名

GLM
這次最穩。它逐項核對 ChatGPT 的兩個根因與四個面向,能指出「完全成立」和「引用段落需微調」的差別。尤其它抓到 Appendix N 的 N.87-N.88 不是直接支撐「持續多雲不被涵蓋」,真正直接的是 N.69,這種細節很加分。機會分析也有分「已確認摩擦直接支持」和「需要額外驗證的假說」,證據紀律最好。

ChatGPT
也很強,尤其不是一味附和 Perplexity,而是會降級判斷:A「定價與成本脫鉤」方向成立但證據不足以支持原文強度;B「NAT/AZ 疊加計費」高度成立;C「退出障礙」成立但原文對 EU Data Act 有錯。它還抓到 NAT Gateway 小時費不能混成 per-GB 費率,這是很好的技術精度。缺點是比較像分析表與產品機會 memo,不是 prose。

Kimi
比前面幾輪更穩。它先做文件真實性驗證,再做摩擦點真實性,能清楚說哪些文件已確認、哪些頁碼未直接核實但方向可信。機會部分也不亂喊市場規模,而是從「資料不移動仍被使用」「持續多雲與一次性切換縫隙」「行政成本」推導,很可用。缺點是沒有 GLM 那麼細緻地逐段核對。

Qwen
這次比動作一好很多。它的驗證段落簡潔,能指出 CMA final report、Appendix N、EU Data Act、Google Data Transfer Essentials 的對應位置。問題是後面的機會分析偏提問式,沒有真正展開成可操作判斷;比較像好的讀書摘要,不像完整分析。

Daubao / Doubao
有把兩個根因完整重述,也保留了查證步驟,看起來整齊。但很多地方像是改寫 ChatGPT 動作一主稿,而不是新的 fact-check。它的「全部通過獨立信源確認」語氣太滿,沒有像 GLM/ChatGPT 那樣區分已證實、待補證、推論。

Gemini
ChatGPT.md 裡的 Gemini 段落比較短,抓到 FinOps 2.0、Data Fabric、Migration Broker 等機會方向,想像力不錯。但 fact-check 密度不足,容易直接跳到大概念。可當發想素材,不適合當驗證紀錄。

DeepSeek
仍是老問題:很會講大方向,但容易把「可能」寫成「很可能」。例如對 EU Data Act 第 34 條、Google Data Transfer Essentials、AWS/Azure 未來 12-18 個月可能跟進的推論,方向有趣,但證據支撐不足。適合當機會假說來源,不適合當 fact-check。

Perplexity
方向其實沒有錯,能抓到 ChatGPT 兩個根因的真實性,也能提出成本工程、法規談判、產品設計三類機會。但 citation 污染太嚴重,尤其錯連 CMA 來源,會直接傷害可信度。這版不能直接引用,只能當粗略提綱。

Antigravity
標題看起來很完整,但偏商業機會包裝,像「頻寬自由聯邦」「AI 數據織網」「Exit-as-a-Service」這類命名比較浮。可當命名或發想素材,驗證價值不如 GLM/ChatGPT/Kimi。

最值得保留
這輪建議以 GLM 作為驗證紀錄主稿,搭配 ChatGPT 的錯誤降級表與機會分層。Kimi 可以補在「文件真實性驗證」段落,因為它把哪些文件已核實、哪些未直接核實講得很清楚。

一句話結論
動作四最好的不是 Perplexity,而是 GLM + ChatGPT;Perplexity 這次最大問題是引用髒掉,雖然方向對,但不宜入庫當可靠紀錄。