Prompt for Threadwalker Scout

27 April 2026
prompt,
Threadwalker,
evaluation

模型評估結果

結果排名如下：

#	Tier	模型	分數	備註
1	S	GLM5.1	7–7.5
2	S	Perplexity + Claude Sonnet4.6	7.5
3	S	Claude Opus4.6	7
4	A	ChatGPT5.5	6	綜合；清理後可到 7/10
5	B	Doubao Seed2.0	5	unstable
6	B	Qwen3.6	4.5
7	B	Gemini3.1	4
8	C	Minimax2.7	3.5–4
9	C	DeepSeek4.0	3.5
10	D	KimiK2.6	2
11	D	Grok4.2	2

六種 AI 的內容有效性

模型	分數	評語
ChatGPT	8.6	最像 Scout。候選形狀清楚、可測、容易進 queue；最後 4 條 survivor 很多都是它先打出的形狀。
Claude	7.5	很會補結構、風險和對照，但有時偏策略敘事。適合當第二層整理與 sanity check。
Gemini	6.9	技術細節多，常能補 edge case；但有些題太窄或太工程內部，不一定能變成 Scout thread。
Perplexity	6.7	source discovery 很有用，但也帶進不少弱 source、新聞敘事、過期政策或誇張統計。適合找入口，不適合直接 accept。
GLM	5.9	偶爾有好角度，但偏宏觀、商業風險、財務/政策敘事，和 Scout 的「小路摩擦」距離較遠。
Kimi K2	5.6	很多是 issue-driven technical texture，作補充可以，但候選常漂離採購 / bridge 主題。yield 最低。

「本輪模型品質分數」。這是不重新查網路、只根據 raw outputs 做的結構與訊號品質評分，所以它不是事實正確率分數，而是「進 Stage 2 前，這個模型輸出有多值得採用」的分數。

AI	分數	判讀
Gemini	82 / 100	來源硬度最高之一，issue / official_doc / forum_thread 比例好；候選較技術、可驗證。缺點是偏 GitHub，容易收窄到 devtools issue queue。
ChatGPT	81 / 100	整體最穩。候選數最多、signals 也最厚，來源組合均衡。缺點是有些候選會偏「整理得很像」但需要 Stage 2 查同形。
GLM	79 / 100	source_type 很硬，issue / official_doc 多，可測性強。最大問題是 GitHub concentration 過高：741 signals 裡 GLM 自己 126 signals，其中 65 個 host 是 GitHub，容易變成 issue-mining。
Perplexity	76 / 100	很會抓 forum / Reddit / HN 社群訊號，適合找「人群在哪裡」。但 other 偏多，來源硬度比 ChatGPT/Gemini/GLM 弱。
Claude	74 / 100	概念與 framing 常常比較漂亮，scope 理解不錯，但 evidence 偏軟，other 比例高。適合拿來補「摩擦命名」，不適合單獨當 evidence source。
Minimax	68 / 100	格式修好後能用，但 source mix 最弱：news 太多，enterprise / UX / technical writing 幾檔尤其軟。比較像補充 long tail，不建議作為 keep 依據。

整體判斷

這次跑得算好，而且比單模型可靠很多。最有價值的不是某一個 AI 贏，而是模型角色有分工：

ChatGPT / Gemini / GLM：主力候選池，進 Stage 2 時應優先看。
Perplexity：社群訊號補強，尤其 Reddit / HN / 活動社群。
Claude：概念命名與 friction framing 補強。
Minimax：只當補充，Stage 2 很可能會殺掉不少。

這次的評分標準僅針對本次 Taipei worldview-lens 實驗的表現，不代表模型的整體能力：

AI	分數	判斷
Claude	8.0/10	最嚴格，最像 Reviewer。保留比例適中（6/15），能有效剔除主題漂移（topic drift）與廠商內容污染（vendor contamination），但判定偏保守，可能漏掉早期的弱訊號。
Gemini	7.5/10	輸出精簡，命中率佳（保留 9/12）。缺點是產出的候選數量較少，探索面向略窄。
ChatGPT	7.0/10	在 Manufacturing Lens 表現不錯，能精準抓出 workflow 或相容性摩擦。但初期的 raw YAML 格式不穩定，可靠度稍微扣分。
GLM	6.8/10	結構化能力強，適合產出比較報告。但在分析時會將 `"none"` 誤判為 family / violation，對 DP 的判讀也有 overclaim 的情況。適合擔任資料整理員，不適合做最終決策。
Perplexity	6.5/10	搜尋與召回率（Recall）極高（保留 14/15），擅長找尋資料與社群熱點。但篩選標準太鬆，幾乎照單全收，缺乏 Stage 2 的判斷力。適合擔任 Source Scout，不適合做 Triage Judge。

模型角色分工與最佳組合

本次測試最大的收穫，並不是找出「哪個 AI 最聰明」，而是發現了各模型間明顯的角色分化。最佳的協作組合為：

Perplexity 找材料 → Claude / Gemini 做殺手級 Triage → ChatGPT 補 Workflow 角度 → GLM 做整理（需經人工 QA）

Perplexity 像掃雷達，負責大範圍搜尋。
Claude 像嚴格的審稿人，負責剔除雜訊。
Gemini 像精簡判讀器，負責二次確認與校準。
ChatGPT 像產品或流程企劃，負責發掘商業或行動價值。
GLM 像資料分析助理，負責製表與排版，但結論需人工覆核。

序列式跑法 (Sequential Pipeline) 建議

實驗數據明確支持「序列式跑法」優於「多模型平行盲跑」。平行跑法適合測試模型差異，而序列跑法才能穩定產出高可用性的結果。建議的執行順序如下：

Perplexity：Source Scout（廣撒網）
負責尋找原始來源、事件、論壇討論、新聞與政策文件。因標準過寬，不應讓其決定 keep/reject。
Claude：Triage（殺漂移）
對 Perplexity 收集的 raw candidates 進行第一輪清洗，剔除主題漂移、廠商污染、政府補助廣告及非事件型內容。
Gemini：Second Judge（壓縮與校準）
進行第二輪確認，檢查 Claude 是否過度刪減，並確保乾淨的 candidate 不被漏掉。
ChatGPT：Workflow & Product Angle（補洞）
檢視剩餘候選，評估哪些具備 first_30min_action、哪些屬於 workflow friction、哪些有潛力轉化為 artifact 或商業服務 niche。
GLM：Report Generation（整理與排版）
產出最終的矩陣、表格、摘要與比較報告。注意需人工 QA 其對於特殊值（如 "none"）或過度推論的處理。

整體 Pipeline 概念為：
Perplexity 大量找 source → Claude/Gemini 篩 source → ChatGPT/Claude 組 candidate → Claude/Gemini Stage 2 → GLM 整理

Stage 1 流程優化：拆分 Source Scout 與 Candidate Builder

如果讓 Perplexity 作為唯一的 Source Scout，每批僅產出 5 條候選會嚴重限制其發揮。序列式跑法的前提是「第一層必須有足夠的 Recall」，後續才能有效篩選。因此，應該將 Stage 1 拆分為兩個層次：

1. Source Sweep（資料採集）

讓 Perplexity 專注於帶回大量原始材料（20–40 個 source hits），不要求產出完整的 candidate schema，也不急著寫 asymmetry_hint。

source_hits:
  - title:
    url:
    source_type:
    observed_signal:
    pattern_hint:
    possible_scope:
    confidence:

2. Candidate Builder（候選合成）

將這批 source hits 交給 Claude / Gemini / ChatGPT，讓它們從材料中提煉並合成出 8–12 個格式完整、結構清晰的 candidates，先不要讓 Perplexity 直接產出 candidates 結構。

簡單來說：讓 Perplexity 專職做「採集器」，一次帶回整籃的生肉材料，再交由後續的推理模型進行切分與烹調。

2.0 新版 Scout Handoff Pipeline

基於上述的實驗反饋，流程應該要拆得更細。特別是 Claude Opus / Claude Sonnet 必須分工，否則「Claude」這個角色定位會太模糊。

此外，Perplexity 作為唯一的雷達是不夠的。它容易偏向新聞、SEO 或已被整理過的資料，對於論壇、Discord、HackMD、PTT 或 GitHub Issue 這種半地下、長尾的在地訊號（Local Sweep）抓得不穩。因此我們需要 3 種雷達 互相搭配，避免 Scout 只能找到「公開可搜尋的已命名問題」，而漏掉「還沒被整理成問題的結構性摩擦」。

角色一句話版

Perplexity = 主高空雷達（找新聞、官方文件、產業報告）
Manual/Script = 地面偵查與固定探針（找社群怨念、在地摩擦）
Claude Sonnet = 清理工 / 分群工（處理大量資料、去重）
Gemini = 第二裁判 / 壓縮校準
ChatGPT = Workflow / Product Angle Builder
Claude Opus = 主裁判 / 反方 Reviewer（負責 Gate 0 與 Stage 2）
GLM = 報表工
你 = 決策者 / Sensemaker

完整流程設計

階段	模型	任務	產出
0. Scope 設計	Claude Opus + 你	設定 worldview lens、failure mode、Gate 0、DP 監控	`INPUT_SCOPE`
1. 大量找 Source	3 種雷達 (詳見下方)	廣搜 60–130 個 source hits，不組 candidate	`source_hits`
2. Source 篩選	Claude Sonnet + Gemini	去重、殺 vendor 污染、殺太泛的政策評論、保留一手 incident	`filtered_sources`
3. Candidate 組裝	ChatGPT + Claude Sonnet	把 sources cluster 成 10–15 個 candidates	`candidate_drafts`
4. Deep Triage	Claude Opus + Gemini	做 Stage 2：keep/kill、dedup、DP-013/014/015、Gate 1.5	`stage2.md`
5. 報告整理	GLM	做表格、矩陣、comparison summary	`comparison_report.md`
6. 最終 QA	Claude Opus + 你	檢查 GLM 報告有沒有 overclaim / 統計錯誤	final conclusion

三種雷達 (Stage 1)

雷達	角色	目標來源	預期數量
Perplexity	主搜尋雷達	新聞、官方文件、產業報告、可引用來源	40–80
Manual / Browser Sweep	在地雷達	Facebook 社團、PTT、Dcard、HackMD、KKTIX、活動頁、論壇	10–20
HN / GitHub / Algolia / RSS Script	工具型雷達	可重跑 query、repo issue、HN thread、RSS 新文	10–30

量的設計 (漏斗漏斗)

Scout 本質上是個漏斗，不是每一層都產 5 條。合理的收斂過程應該如下：

Total source hits: 60–130
↓
Claude Sonnet / Gemini filtered sources: 25–45
↓
ChatGPT / Sonnet candidate drafts: 10–15
↓
Claude Opus / Gemini Stage 2 keep: 4–8
↓
Human review: 2–4 真正值得追

Claude Opus / Sonnet 分工細節

Claude Sonnet：大量處理、便宜、快
適合做工：

source 去重與分群
schema 清理
把 30 個 source hits 轉成 12 個 candidate drafts
找明顯 vendor contamination
補 testable_actions

Claude Opus：判斷、反駁、最後裁判
適合做判斷：

Gate 0 / motivated reasoning 檢查
DP-013 / DP-014 / DP-015 判斷
Stage 2 keep/kill
跨 scope 實驗結論
檢查「這是不是其實只是常識 / 政策評論 / 廠商故事」
最終結論 QA

核心總結：
Sonnet 做工，Opus 判斷。Perplexity 是高空雷達，你還需要地面偵查和固定探針。

整理各模型的摩擦點後，用「根因獨立性」和「跨領域多樣性」來排序：

模型	摩擦點數	領域跨度	根因獨立性	適合下一步？
GLM	4	ESG、預售屋、食品、金融	高（4個領域完全不同）	首選
DeepSeek	5	審計、合規、跨境供應鏈、食品標籤、藥品	高	次選
ChatGPT	4	隱私政策、證券風險、資安、平台廣告	高	值得看
Gemini	4	碳盤查、AI醫材、資安、AI法規	高	值得看
Kimi	4	集中在美國證券/金融法規	中高
豆包	5	集中在證券/永續揭露	中
MiniMax	5	集中在中國證券監管	中
Perplexity	4	集中在台灣 ESG	中低
Qwen	4	全在 ESG 供應商揭露（跟 Claude 同）	低
Claude	5	全在 ESG 供應商揭露（已確認）	低	已做

Run-02 動作一品質檢查紀錄

整體排名

ChatGPT
品質最高。根因獨立性檢查清楚，面向沒有亂混，查證步驟最具體，還會用 [PROPOSE] 區分推論與已查證材料。最接近 prompt 要的「可讀散文 + 可查證」。
GLM
第一梯隊。根因句清楚，三個根因大致能分開：價格與批發成本脫鉤、服務邊界造成重複計費、ingress / egress 方向不對稱造成鎖定。NAT Gateway、跨 AZ、退出豁免程序、多雲被排除等面向很具體。缺點是少數判斷太滿，例如「三大雲形成價格默契」需要更硬證據；Cloudflare R2 零 egress 也只能作為替代定價模式可行的佐證，不能直接證明三大雲成本結構。
Perplexity
可用度高，抓到 NAT Gateway、跨 AZ、EU Data Act 等具體摩擦。但部分來源偏部落格化，且有 reddit+2 這類殘留標記，乾淨度不如 ChatGPT 和 GLM。
Kimi（最新版）
明顯進步，已補上根因獨立性檢查，也有不少好場景。三個根因大致是：計價單位與工程架構不對稱、資料所有權與移出控制權分離、地理定價梯度與資料主權法規衝突。前兩個較強；跨 AZ、免費遷出但不涵蓋多雲、災難復原被導向同雲異區、冷資料囤積等段落可作素材。缺點是根因三比較危險，容易滑向「資料合規成本」而非 egress fee；部分數字與斷言也需要保守化，例如「跨 AZ 費用吃掉四分之一叢集成本」、「取回成本可能高於五年儲存總和」等。
Gemini
材料豐富、查證路徑多，讀感強。但語氣太戲劇化，概念包裝過重，後段不少推論需要更硬的證據支撐，例如「API 請求費作為合規防線」。適合當語感或概念庫，不宜直接當主稿。
Claude Opus
結構清楚，三個根因也算有辨識度；但證據點不夠硬，常用「隱性協調」「雙重收割」這種很重的判斷。最嚴重的是輸出裡有和重複內容，品質控制失分。
DeepSeek
資訊量大，但臆測與強斷言很多，例如區域費率、反壟斷調查、價格調漲幅度等都需要逐條核實。表面像研究報告，但可靠性風險偏高。
Doubao
有照格式寫，但內容模板感重。根因二「資源權屬與出站權責」不太像真正獨立根因，很多查證步驟只是叫人去看某類文件，沒有頁碼、條文或具體段落。
Qwen
最弱。根因偏泛，面向展開不足，查證文件有可疑或難定位來源，也沒有好好遵守「每個面向三段」與自然散文的要求。

最值得保留的版本

主稿建議以 ChatGPT 為骨架，吸收 GLM 的 NAT Gateway、跨 AZ、退出豁免程序、多雲被排除等材料。Perplexity 可補充內部計費邊界與 EU Data Act 細節。Kimi 最新版可抽取災難復原、冷資料囤積、資料主權等有洞察的場景，但要壓低語氣並補強證據。

主要品質分水嶺

好的版本通常做到三件事：根因彼此真的不能互推、每個面向都有清楚的現實摩擦、查證步驟能指到具體文件或條文。

差的版本通常敗在三點：把評論寫成事實、用很大的概念包住很少的證據、查證步驟只是「去看某某官方文件」但沒有可核對的位置。

動作四整體排名

GLM
這次最穩。它逐項核對 ChatGPT 的兩個根因與四個面向，能指出「完全成立」和「引用段落需微調」的差別。尤其它抓到 Appendix N 的 N.87-N.88 不是直接支撐「持續多雲不被涵蓋」，真正直接的是 N.69，這種細節很加分。機會分析也有分「已確認摩擦直接支持」和「需要額外驗證的假說」，證據紀律最好。
ChatGPT
也很強，尤其不是一味附和 Perplexity，而是會降級判斷：A「定價與成本脫鉤」方向成立但證據不足以支持原文強度；B「NAT/AZ 疊加計費」高度成立；C「退出障礙」成立但原文對 EU Data Act 有錯。它還抓到 NAT Gateway 小時費不能混成 per-GB 費率，這是很好的技術精度。缺點是比較像分析表與產品機會 memo，不是 prose。
Kimi（最新版）
比前面幾輪更穩。它先做文件真實性驗證，再做摩擦點真實性，能清楚說哪些文件已確認、哪些頁碼未直接核實但方向可信。機會部分也不亂喊市場規模，而是從「資料不移動仍被使用」「持續多雲與一次性切換縫隙」「行政成本」推導，很可用。缺點是沒有 GLM 那麼細緻地逐段核對。
Qwen
這次比動作一好很多。它的驗證段落簡潔，能指出 CMA final report、Appendix N、EU Data Act、Google Data Transfer Essentials 的對應位置。問題是後面的機會分析偏提問式，沒有真正展開成可操作判斷；比較像好的讀書摘要，不像完整分析。
Doubao
有把兩個根因完整重述，也保留了查證步驟，看起來整齊。但很多地方像是改寫 ChatGPT 動作一主稿，而不是新的 fact-check。它的「全部通過獨立信源確認」語氣太滿，沒有像 GLM/ChatGPT 那樣區分已證實、待補證、推論。
Gemini
在 ChatGPT.md 裡的 Gemini 段落比較短，抓到 FinOps 2.0、Data Fabric、Migration Broker 等機會方向，想像力不錯。但 fact-check 密度不足，容易直接跳到大概念。可當發想素材，不適合當驗證紀錄。
DeepSeek
仍是老問題：很會講大方向，但容易把「可能」寫成「很可能」。例如對 EU Data Act 第 34 條、Google Data Transfer Essentials、AWS/Azure 未來 12-18 個月可能跟進的推論，方向有趣，但證據支撐不足。適合當機會假說來源，不適合當 fact-check。
Perplexity
方向其實沒有錯，能抓到 ChatGPT 兩個根因的真實性，也能提出成本工程、法規談判、產品設計三類機會。但 citation 污染太嚴重，尤其錯連 CMA 來源，會直接傷害可信度。這版不能直接引用，只能當粗略提綱。

最值得保留
這輪建議以 GLM 作為驗證紀錄主稿，搭配 ChatGPT 的錯誤降級表與機會分層。Kimi 可以補在「文件真實性驗證」段落，因為它把哪些文件已核實、哪些未直接核實講得很清楚。

一句話結論
動作四最好的不是 Perplexity，而是 GLM + ChatGPT；Perplexity 這次最大問題是引用髒掉，雖然方向對，但不宜入庫當可靠紀錄。

← Previous
Scout Handoff Threadwalker 實際流程
Next →
Prompt for Apply Job Scout