Ian Chou's Blog

Prompt for Apply Job Scout

模型評估結果

這樣評分,按「能不能產出可行 scout candidate」來看:

# Tier 模型 分數 評語
1 B+ Perplexity
8.4
最穩。source 具體、GitHub/forum/docs 比例高,CrewAI、Dify、Composio 都能進 shortlist。
2 B+ Claude
8.3
最貼近你現在的「US devtools → 台灣/中文 bridge」scope。Bedrock Claude TW 很強。
3 B+ Kimi K2
8.2
中文/亞太摩擦抓得好,Langfuse、Dify、Firecrawl、Vercel AI SDK 都很具體。
4 B ChatGPT
7.6
技術洞察強,Agno/Mastra 候選不錯,但格式和 citation hygiene 有問題。
5 B- Qwen
7.0
有幾條很實:LangChain FeishuDoc、Vercel Gateway、OpenLLMetry。但會混淆中文/中國/台灣。
6 B- GLM
6.9
thesis 感不錯,Skyvern 可用;但不少候選太宏觀、source 不夠一手。
7 C+ MiniMax
6.5
抓到 Agoda code review governance 這條好線,但很多像中文教學/培訓內容。
8 C+ DeepSeek
6.3
idea spread 可以,但常用同一篇文章拆成多個 signal,候選可信度偏鬆。
9 C Doubao
6.0
方向對,但常過度宣稱 KPI,source 弱,很多像市場報告式推論。
10 C Grok
5.8
FeishuDoc 那條有用,但輸出格式壞太嚴重,ADK 線也不夠站得住。
11 C Felo
5.7
它的方向貼近你現在的 scope,但品質不穩。
12 C- Gemini
5.2
很多 candidate-shaped guess,source 常是泛連結或假設型說法。
13 D+ MiMo
4.8
太 macro,像趨勢摘要,不太會落到具體 owner/thread/artifact。

前三名:Perplexity、Claude、Kimi K2。

Perplexity 最像可靠 scout;Claude 最貼近你的台灣橋接主題;Kimi K2 最會挖中文/亞太 GitHub issue 摩擦。

最該警惕:Gemini、MiMo。

它們不是完全沒用,但比較適合拿來產生 search seed,不適合直接收候選。


AI 分數 評語
ChatGPT 8.2 / 10 最穩。來源多數真實、近期,且不少直接貼近 CrewAI eval/testing 摩擦。缺點是把 eval 擴到 Flow、governance、DeepEval docs,需要人工收束。
Qwen 7.6 / 10 很貼 CrewAI docs/testing,抓到 crewai test metrics、provider support、training docs 等細節。缺點是沒有檢查新版 docs 是否已補上,導致幾個 claim 過時。
Claude 7.3 / 10 artifact 想法最漂亮,特別是 tool fabrication eval、Inspect bridge、eval-first onboarding。但 source discipline 較弱,幾個 primary issue 是 closed / old / off-scope。
Perplexity 7.0 / 10 C2 很準,直接產生目前主 thread;但其他候選發散到 localization、OpenAI SDK、台灣 adoption。YAML 品質也差,有缺引號問題。
Kimi K2 6.8 / 10 很會抓相鄰生態訊號,例如 ArkSim、Promptfoo acquisition、LangChain survey。缺點是 scope control 偏鬆,常把 n8n/LangChain/Promptfoo 產業訊號混成 CrewAI thread。
GLM 6.3 / 10 thesis 感強,能找到 promptfoo multi-turn、DeepEval-CrewAI integration 這類好方向;但 currentness 檢查弱,幾個 issue 已 closed 或不在 90 天內。

我的排序:

  1. ChatGPT
  2. Qwen
  3. Claude
  4. Perplexity
  5. Kimi K2
  6. GLM

如果只看「最終留下可用內容」,Perplexity 因為產出 C2,實際貢獻很大;但如果看整批平均品質,ChatGPT 和 Qwen 比較穩。Claude 最適合拿來激發 artifact 形狀,Kimi/GLM 比較適合當 re-scout lead 來源,不能直接入庫。


top-30 多樣性結果

Model top-30 各模型 max score 各模型 ≥13
ChatGPT 12(cap) 14 71
Perplexity 8 12 0
GLM 5 12 0
Kimi K2 4 12 0
Gemini 1 12 0
Claude 0 11 0
Qwen 0 11 0

這次第五批的實用排名:

rank model 評價
1 ChatGPT 命中最多強候選,artifact 形狀清楚
2 GLM 命中最乾淨的台灣/繁中文件缺口
3 Kimi K2 技術洞察強,適合 security / verify-first 題
4 Gemini 補強與整理能力強,但原始候選多偏推論
5 Perplexity 來源多,但候選較常停在政策/宏觀層
6 Claude 保守、結構穩,但這批可轉卡命中少

這不是一般能力排名,只是 第五批 AI datacenter firmware / HBOM buyer acceptance 這個題目下的表現

1. ChatGPT
這批最有產出。最後 12 條裡有 3 條來自 ChatGPT,而且其中 3 條都進 Ready / Keep:

優點是會把來源轉成「artifact 可以怎麼做」:worksheet、RACI、acceptance map。缺點是原始 YAML 格式一度髒,需要 cleanup。

2. GLM
數量少一點,但品質很尖。最強的 nicst-sbom-no-hbom-001 就是 GLM 來的,而且它幾乎是這批最乾淨的一條:NICST first-party source、CycloneDX source、artifact 形狀明確。

也命中:

GLM 的優點是很會找「文件體系中的空白」。缺點是有些 raw 區塊格式/範圍會漂,需要挑。

3. Kimi K2
Kimi 比較像 security research scout。命中:

它強在技術事件、CVE、產品變更這種「有牙齒」的訊號。但也容易需要 verify-first,因為 security advisory 會變動。

4. Gemini
Gemini 原始候選不是最乾淨,但後續補強很有用。進 shortlist 的 maybe 多:

它擅長把 thesis 補成結構,例如 CISA + Wiwynn + Inventec/VicOne 這種推論鏈。缺點是比較容易偏 macro,需要保留 taiwan_layer_unproven

5. Perplexity
這批 Perplexity 沒有進最後 12 條來源,主要是因為它找到的資訊較多,但候選常停在「政策、趨勢、採購框架」層,artifact ownership 沒那麼尖。

但它仍有價值:適合第一輪搜 source、找政策背景、補 citation。

6. Claude
Claude 這批比較保守,最後沒有候選進 12 條。它的優點是會提醒風險、限制與推論邊界;缺點是在這種需要「找可敲門 artifact」的 scouting 任務裡,輸出不如 ChatGPT/GLM/Kimi 有攻擊性。

我的總結
如果下一批還是類似題目,我會這樣分工:

這批真正值得開 thread 的第一名,還是 nicst-sbom-no-hbom-001。它是 GLM 的勝利。