Prompt for Apply Job Scout
模型評估結果
這樣評分,按「能不能產出可行 scout candidate」來看:
| # | Tier | 模型 | 分數 | 評語 |
|---|---|---|---|---|
| 1 | B+ | Perplexity | 最穩。source 具體、GitHub/forum/docs 比例高,CrewAI、Dify、Composio 都能進 shortlist。 | |
| 2 | B+ | Claude | 最貼近你現在的「US devtools → 台灣/中文 bridge」scope。Bedrock Claude TW 很強。 | |
| 3 | B+ | Kimi K2 | 中文/亞太摩擦抓得好,Langfuse、Dify、Firecrawl、Vercel AI SDK 都很具體。 | |
| 4 | B | ChatGPT | 技術洞察強,Agno/Mastra 候選不錯,但格式和 citation hygiene 有問題。 | |
| 5 | B- | Qwen | 有幾條很實:LangChain FeishuDoc、Vercel Gateway、OpenLLMetry。但會混淆中文/中國/台灣。 | |
| 6 | B- | GLM | thesis 感不錯,Skyvern 可用;但不少候選太宏觀、source 不夠一手。 | |
| 7 | C+ | MiniMax | 抓到 Agoda code review governance 這條好線,但很多像中文教學/培訓內容。 | |
| 8 | C+ | DeepSeek | idea spread 可以,但常用同一篇文章拆成多個 signal,候選可信度偏鬆。 | |
| 9 | C | Doubao | 方向對,但常過度宣稱 KPI,source 弱,很多像市場報告式推論。 | |
| 10 | C | Grok | FeishuDoc 那條有用,但輸出格式壞太嚴重,ADK 線也不夠站得住。 | |
| 11 | C | Felo | 它的方向貼近你現在的 scope,但品質不穩。 | |
| 12 | C- | Gemini | 很多 candidate-shaped guess,source 常是泛連結或假設型說法。 | |
| 13 | D+ | MiMo | 太 macro,像趨勢摘要,不太會落到具體 owner/thread/artifact。 |
前三名:Perplexity、Claude、Kimi K2。
Perplexity 最像可靠 scout;Claude 最貼近你的台灣橋接主題;Kimi K2 最會挖中文/亞太 GitHub issue 摩擦。
最該警惕:Gemini、MiMo。
它們不是完全沒用,但比較適合拿來產生 search seed,不適合直接收候選。
| AI | 分數 | 評語 |
|---|---|---|
| ChatGPT | 8.2 / 10 | 最穩。來源多數真實、近期,且不少直接貼近 CrewAI eval/testing 摩擦。缺點是把 eval 擴到 Flow、governance、DeepEval docs,需要人工收束。 |
| Qwen | 7.6 / 10 | 很貼 CrewAI docs/testing,抓到 crewai test metrics、provider support、training docs 等細節。缺點是沒有檢查新版 docs 是否已補上,導致幾個 claim 過時。 |
| Claude | 7.3 / 10 | artifact 想法最漂亮,特別是 tool fabrication eval、Inspect bridge、eval-first onboarding。但 source discipline 較弱,幾個 primary issue 是 closed / old / off-scope。 |
| Perplexity | 7.0 / 10 | C2 很準,直接產生目前主 thread;但其他候選發散到 localization、OpenAI SDK、台灣 adoption。YAML 品質也差,有缺引號問題。 |
| Kimi K2 | 6.8 / 10 | 很會抓相鄰生態訊號,例如 ArkSim、Promptfoo acquisition、LangChain survey。缺點是 scope control 偏鬆,常把 n8n/LangChain/Promptfoo 產業訊號混成 CrewAI thread。 |
| GLM | 6.3 / 10 | thesis 感強,能找到 promptfoo multi-turn、DeepEval-CrewAI integration 這類好方向;但 currentness 檢查弱,幾個 issue 已 closed 或不在 90 天內。 |
我的排序:
- ChatGPT
- Qwen
- Claude
- Perplexity
- Kimi K2
- GLM
如果只看「最終留下可用內容」,Perplexity 因為產出 C2,實際貢獻很大;但如果看整批平均品質,ChatGPT 和 Qwen 比較穩。Claude 最適合拿來激發 artifact 形狀,Kimi/GLM 比較適合當 re-scout lead 來源,不能直接入庫。
top-30 多樣性結果
| Model | top-30 | 各模型 max score | 各模型 ≥13 |
|---|---|---|---|
| ChatGPT | 12(cap) | 14 | 71 |
| Perplexity | 8 | 12 | 0 |
| GLM | 5 | 12 | 0 |
| Kimi K2 | 4 | 12 | 0 |
| Gemini | 1 | 12 | 0 |
| Claude | 0 | 11 | 0 |
| Qwen | 0 | 11 | 0 |
這次第五批的實用排名:
| rank | model | 評價 |
|---|---|---|
| 1 | ChatGPT | 命中最多強候選,artifact 形狀清楚 |
| 2 | GLM | 命中最乾淨的台灣/繁中文件缺口 |
| 3 | Kimi K2 | 技術洞察強,適合 security / verify-first 題 |
| 4 | Gemini | 補強與整理能力強,但原始候選多偏推論 |
| 5 | Perplexity | 來源多,但候選較常停在政策/宏觀層 |
| 6 | Claude | 保守、結構穩,但這批可轉卡命中少 |
這不是一般能力排名,只是 第五批 AI datacenter firmware / HBOM buyer acceptance 這個題目下的表現。
1. ChatGPT
這批最有產出。最後 12 條裡有 3 條來自 ChatGPT,而且其中 3 條都進 Ready / Keep:
gmi-redfish-inventory-001blackduck-gcom-vex-raci-001delta-firmware-sbom-map-001
優點是會把來源轉成「artifact 可以怎麼做」:worksheet、RACI、acceptance map。缺點是原始 YAML 格式一度髒,需要 cleanup。
2. GLM
數量少一點,但品質很尖。最強的 nicst-sbom-no-hbom-001 就是 GLM 來的,而且它幾乎是這批最乾淨的一條:NICST first-party source、CycloneDX source、artifact 形狀明確。
也命中:
onekey-advantech-zhtw-gap-001
GLM 的優點是很會找「文件體系中的空白」。缺點是有些 raw 區塊格式/範圍會漂,需要挑。
3. Kimi K2
Kimi 比較像 security research scout。命中:
supermicro-patch-bypass-001onekey-cybersec-taipei-localization-001github-copilot-usage-billing-procurement-friction-001
它強在技術事件、CVE、產品變更這種「有牙齒」的訊號。但也容易需要 verify-first,因為 security advisory 會變動。
4. Gemini
Gemini 原始候選不是最乾淨,但後續補強很有用。進 shortlist 的 maybe 多:
tw-odm-vex-refresh-001tw-fin-gpu-integrity-001tw-fsc-ai-infra-audit-001tw-fsc-ai-risk-001
它擅長把 thesis 補成結構,例如 CISA + Wiwynn + Inventec/VicOne 這種推論鏈。缺點是比較容易偏 macro,需要保留 taiwan_layer_unproven。
5. Perplexity
這批 Perplexity 沒有進最後 12 條來源,主要是因為它找到的資訊較多,但候選常停在「政策、趨勢、採購框架」層,artifact ownership 沒那麼尖。
但它仍有價值:適合第一輪搜 source、找政策背景、補 citation。
6. Claude
Claude 這批比較保守,最後沒有候選進 12 條。它的優點是會提醒風險、限制與推論邊界;缺點是在這種需要「找可敲門 artifact」的 scouting 任務裡,輸出不如 ChatGPT/GLM/Kimi 有攻擊性。
我的總結
如果下一批還是類似題目,我會這樣分工:
- ChatGPT / GLM:主力找可轉 artifact 的候選
- Kimi K2:專門挖 CVE、firmware、security advisory
- Gemini:做補強、合併、風險標記
- Perplexity:做來源廣搜
- Claude:做保守 review / rejection risk pass
這批真正值得開 thread 的第一名,還是 nicst-sbom-no-hbom-001。它是 GLM 的勝利。
- ← Previous
Prompt for Threadwalker Scout