Prompt for Apply Job Scout

模型評估結果

這樣評分，按「能不能產出可行 scout candidate」來看：

#	Tier	模型	分數	評語
1	B+	Perplexity	8.4	最穩。source 具體、GitHub/forum/docs 比例高，CrewAI、Dify、Composio 都能進 shortlist。
2	B+	Claude	8.3	最貼近你現在的「US devtools → 台灣/中文 bridge」scope。Bedrock Claude TW 很強。
3	B+	Kimi K2	8.2	中文/亞太摩擦抓得好，Langfuse、Dify、Firecrawl、Vercel AI SDK 都很具體。
4	B	ChatGPT	7.6	技術洞察強，Agno/Mastra 候選不錯，但格式和 citation hygiene 有問題。
5	B-	Qwen	7.0	有幾條很實：LangChain FeishuDoc、Vercel Gateway、OpenLLMetry。但會混淆中文/中國/台灣。
6	B-	GLM	6.9	thesis 感不錯，Skyvern 可用；但不少候選太宏觀、source 不夠一手。
7	C+	MiniMax	6.5	抓到 Agoda code review governance 這條好線，但很多像中文教學/培訓內容。
8	C+	DeepSeek	6.3	idea spread 可以，但常用同一篇文章拆成多個 signal，候選可信度偏鬆。
9	C	Doubao	6.0	方向對，但常過度宣稱 KPI，source 弱，很多像市場報告式推論。
10	C	Grok	5.8	FeishuDoc 那條有用，但輸出格式壞太嚴重，ADK 線也不夠站得住。
11	C	Felo	5.7	它的方向貼近你現在的 scope，但品質不穩。
12	C-	Gemini	5.2	很多 candidate-shaped guess，source 常是泛連結或假設型說法。
13	D+	MiMo	4.8	太 macro，像趨勢摘要，不太會落到具體 owner/thread/artifact。

前三名：Perplexity、Claude、Kimi K2。

Perplexity 最像可靠 scout；Claude 最貼近你的台灣橋接主題；Kimi K2 最會挖中文/亞太 GitHub issue 摩擦。

最該警惕：Gemini、MiMo。

它們不是完全沒用，但比較適合拿來產生 search seed，不適合直接收候選。

AI	分數	評語
ChatGPT	8.2 / 10	最穩。來源多數真實、近期，且不少直接貼近 CrewAI eval/testing 摩擦。缺點是把 eval 擴到 Flow、governance、DeepEval docs，需要人工收束。
Qwen	7.6 / 10	很貼 CrewAI docs/testing，抓到 `crewai test` metrics、provider support、training docs 等細節。缺點是沒有檢查新版 docs 是否已補上，導致幾個 claim 過時。
Claude	7.3 / 10	artifact 想法最漂亮，特別是 tool fabrication eval、Inspect bridge、eval-first onboarding。但 source discipline 較弱，幾個 primary issue 是 closed / old / off-scope。
Perplexity	7.0 / 10	C2 很準，直接產生目前主 thread；但其他候選發散到 localization、OpenAI SDK、台灣 adoption。YAML 品質也差，有缺引號問題。
Kimi K2	6.8 / 10	很會抓相鄰生態訊號，例如 ArkSim、Promptfoo acquisition、LangChain survey。缺點是 scope control 偏鬆，常把 n8n/LangChain/Promptfoo 產業訊號混成 CrewAI thread。
GLM	6.3 / 10	thesis 感強，能找到 promptfoo multi-turn、DeepEval-CrewAI integration 這類好方向；但 currentness 檢查弱，幾個 issue 已 closed 或不在 90 天內。

我的排序：

如果只看「最終留下可用內容」，Perplexity 因為產出 C2，實際貢獻很大；但如果看整批平均品質，ChatGPT 和 Qwen 比較穩。Claude 最適合拿來激發 artifact 形狀，Kimi/GLM 比較適合當 re-scout lead 來源，不能直接入庫。

Model	top-30	各模型 max score	各模型 ≥13
ChatGPT	12（cap）	14	71
Perplexity	8	12	0
GLM	5	12	0
Kimi K2	4	12	0
Gemini	1	12	0
Claude	0	11	0
Qwen	0	11	0

這次第五批的實用排名：

rank	model	評價
1	ChatGPT	命中最多強候選，artifact 形狀清楚
2	GLM	命中最乾淨的台灣/繁中文件缺口
3	Kimi K2	技術洞察強，適合 security / verify-first 題
4	Gemini	補強與整理能力強，但原始候選多偏推論
5	Perplexity	來源多，但候選較常停在政策/宏觀層
6	Claude	保守、結構穩，但這批可轉卡命中少

這不是一般能力排名，只是 第五批 AI datacenter firmware / HBOM buyer acceptance 這個題目下的表現。

1. ChatGPT
這批最有產出。最後 12 條裡有 3 條來自 ChatGPT，而且其中 3 條都進 Ready / Keep：

優點是會把來源轉成「artifact 可以怎麼做」：worksheet、RACI、acceptance map。缺點是原始 YAML 格式一度髒，需要 cleanup。

2. GLM
數量少一點，但品質很尖。最強的 nicst-sbom-no-hbom-001 就是 GLM 來的，而且它幾乎是這批最乾淨的一條：NICST first-party source、CycloneDX source、artifact 形狀明確。

也命中：

GLM 的優點是很會找「文件體系中的空白」。缺點是有些 raw 區塊格式/範圍會漂，需要挑。

3. Kimi K2
Kimi 比較像 security research scout。命中：

它強在技術事件、CVE、產品變更這種「有牙齒」的訊號。但也容易需要 verify-first，因為 security advisory 會變動。

4. Gemini
Gemini 原始候選不是最乾淨，但後續補強很有用。進 shortlist 的 maybe 多：

它擅長把 thesis 補成結構，例如 CISA + Wiwynn + Inventec/VicOne 這種推論鏈。缺點是比較容易偏 macro，需要保留 taiwan_layer_unproven。

5. Perplexity
這批 Perplexity 沒有進最後 12 條來源，主要是因為它找到的資訊較多，但候選常停在「政策、趨勢、採購框架」層，artifact ownership 沒那麼尖。

但它仍有價值：適合第一輪搜 source、找政策背景、補 citation。

6. Claude
Claude 這批比較保守，最後沒有候選進 12 條。它的優點是會提醒風險、限制與推論邊界；缺點是在這種需要「找可敲門 artifact」的 scouting 任務裡，輸出不如 ChatGPT/GLM/Kimi 有攻擊性。

我的總結
如果下一批還是類似題目，我會這樣分工：

這批真正值得開 thread 的第一名，還是 nicst-sbom-no-hbom-001。它是 GLM 的勝利。