最近呢段時間,我唔止係轉模型,而係一路喺「模型 + agent 工具」之間搵一個最啱自己日常開發嘅組合。
實際路線係:
- OpenClaw + Qwen3.5
- OpenClaw + Minimax2.7
- Hermes OAuth + Minimax2.7
- Hermes OAuth + GPT-5.5
- Codex + GPT-5.5
OpenClaw + Qwen3.5
最初係用 OpenClaw 接 Qwen3.5。開頭其實冇乜大問題,日常問答、簡單 coding、整理資料都做到。
Qwen3.5 嘅優點係反應快,中文理解都 OK,作為起步工具係舒服嘅。配合 OpenClaw 之後,開始有少少 agent workflow 嘅感覺,唔再淨係「問一句答一句」。
但用耐咗,問題慢慢浮現:
- 複雜 repo 任務要人手補好多位
- 上下文長咗之後容易飄
- OpenClaw 後期每次 update 都好似會帶嚟新問題
最初 OpenClaw 係順嘅,但去到後面,每個 update 都令人有少少不安:今日修一樣,聽日又壞另一樣。工具本身嘅穩定性開始變成成本。
OpenClaw + Minimax2.7
之後我將 OpenClaw 接去 Minimax2.7。
呢一步最大感覺係:Minimax2.7 coding 係好過 Qwen3.5。
佢寫 code、理解需求、處理比較長嘅任務,都比 Qwen3.5 紮實。尤其係寫 blog、整理脈絡、幫手拆工程步驟,Minimax2.7 明顯順手啲。
但問題係,OpenClaw 本身後期仍然唔穩。即使底層模型換咗,agent layer 如果每次 update 都有新狀況,成個 workflow 都會受影響。
所以呢個階段嘅結論係:
- Minimax2.7 比 Qwen3.5 更適合 coding
- 但 OpenClaw 後期穩定性令我想搵替代方案
Hermes OAuth + Minimax2.7
跟住轉去 Hermes OAuth 接 Minimax2.7。
Hermes OAuth 俾我嘅第一感覺係:穩定。
同 OpenClaw 後期嗰種「每次 update 都驚有嘢壞」相比,Hermes OAuth 用落平實好多。未必每個位都驚艷,但至少 workflow 係順,工具本身唔會成日搶焦點。
Minimax2.7 喺 Hermes OAuth 入面繼續發揮得幾好:
- coding 比 Qwen3.5 好
- 長文整理舒服
- 一般 debug / blog / repo analysis 都夠用
如果只係追求「穩定可用」,Hermes OAuth + Minimax2.7 其實已經係一個唔錯嘅組合。
Hermes OAuth + GPT-5.5
但人總係會想追求更好。
所以之後我轉咗 GPT-5.5 plus plan,想睇下高一級模型喺 coding、長上下文、工程判斷上會唔會再穩啲。
Hermes OAuth 接 GPT-5.5 之後,質素的確有提升:
- 理解複雜任務快啲
- 對 repo / git / preview / production 呢類流程更敏感
- 回答同執行之間更有連貫性
但另一個問題好快出現:token 用量好似倒水咁。
Hermes OAuth 接 GPT-5.5 時,感覺每做一輪任務都消耗得好快。對於長時間 coding、反覆改 blog、睇 git history、再推 preview 呢類 workflow,token 成本變成好明顯嘅負擔。
所以呢個組合雖然強,但用落唔夠舒服。
Codex + GPT-5.5
最後就轉到 Codex 接 GPT-5.5。
Codex 最啱我嘅地方,唔係單純「模型聰明」,而係佢比較貼近日常工程流程:
- 會讀 repo
- 會睇 git status
- 會分 preview / production
- 會知道臨時 clone 用完要清理
- 會做完再驗證
- 遇到 push / branch / server 問題時,可以沿住問題處理落去
今日其實就係一個好例子。
我哋做咗:
- 寫 MiniGame
- push MiniGame repo
- 將 MiniGame 放入 Blog
- 先上 preview
- 修 sidebar spacing
- promote preview 去 production
- 根據 CRM App history 寫 blog
- 再修 blog 時間同首頁 sidebar
呢啲唔係單一 prompt 可以解決嘅任務,而係一串連續工作。Codex + GPT-5.5 嘅感覺就係:比較能夠陪住條線行到底。
幾個組合嘅感覺
簡單總結:
- OpenClaw + Qwen3.5:起步 OK,但複雜 coding 唔夠穩
- OpenClaw + Minimax2.7:模型進步咗,coding 好過 Qwen3.5,但 OpenClaw 後期 update 問題多
- Hermes OAuth + Minimax2.7:穩定舒服,係一個實用組合
- Hermes OAuth + GPT-5.5:能力更強,但 token 消耗太快
- Codex + GPT-5.5:暫時最啱工程 workflow,由 repo 到 git 到 preview 都順手
今日嘅結論
以前我會比較邊個模型答得聰明啲。
而家我更關心:邊個組合可以穩定完成一件事。
模型能力當然重要,但 agent layer、工具整合、token 成本、錯誤恢復能力,全部都會影響日常使用感。
今次由 OpenClaw 到 Hermes OAuth,再到 Codex,最大嘅感覺係:AI coding 工具真正好用與否,唔係睇單次回答,而係睇佢能唔能夠陪你由「諗法」一路行到「commit、preview、production」。