最近呢段時間,我唔止係轉模型,而係一路喺「模型 + agent 工具」之間搵一個最啱自己日常開發嘅組合。

實際路線係:

  1. OpenClaw + Qwen3.5
  2. OpenClaw + Minimax2.7
  3. Hermes OAuth + Minimax2.7
  4. Hermes OAuth + GPT-5.5
  5. Codex + GPT-5.5

OpenClaw + Qwen3.5

最初係用 OpenClaw 接 Qwen3.5。開頭其實冇乜大問題,日常問答、簡單 coding、整理資料都做到。

Qwen3.5 嘅優點係反應快,中文理解都 OK,作為起步工具係舒服嘅。配合 OpenClaw 之後,開始有少少 agent workflow 嘅感覺,唔再淨係「問一句答一句」。

但用耐咗,問題慢慢浮現:

  • 複雜 repo 任務要人手補好多位
  • 上下文長咗之後容易飄
  • OpenClaw 後期每次 update 都好似會帶嚟新問題

最初 OpenClaw 係順嘅,但去到後面,每個 update 都令人有少少不安:今日修一樣,聽日又壞另一樣。工具本身嘅穩定性開始變成成本。

OpenClaw + Minimax2.7

之後我將 OpenClaw 接去 Minimax2.7。

呢一步最大感覺係:Minimax2.7 coding 係好過 Qwen3.5

佢寫 code、理解需求、處理比較長嘅任務,都比 Qwen3.5 紮實。尤其係寫 blog、整理脈絡、幫手拆工程步驟,Minimax2.7 明顯順手啲。

但問題係,OpenClaw 本身後期仍然唔穩。即使底層模型換咗,agent layer 如果每次 update 都有新狀況,成個 workflow 都會受影響。

所以呢個階段嘅結論係:

  • Minimax2.7 比 Qwen3.5 更適合 coding
  • 但 OpenClaw 後期穩定性令我想搵替代方案

Hermes OAuth + Minimax2.7

跟住轉去 Hermes OAuth 接 Minimax2.7。

Hermes OAuth 俾我嘅第一感覺係:穩定。

同 OpenClaw 後期嗰種「每次 update 都驚有嘢壞」相比,Hermes OAuth 用落平實好多。未必每個位都驚艷,但至少 workflow 係順,工具本身唔會成日搶焦點。

Minimax2.7 喺 Hermes OAuth 入面繼續發揮得幾好:

  • coding 比 Qwen3.5 好
  • 長文整理舒服
  • 一般 debug / blog / repo analysis 都夠用

如果只係追求「穩定可用」,Hermes OAuth + Minimax2.7 其實已經係一個唔錯嘅組合。

Hermes OAuth + GPT-5.5

但人總係會想追求更好。

所以之後我轉咗 GPT-5.5 plus plan,想睇下高一級模型喺 coding、長上下文、工程判斷上會唔會再穩啲。

Hermes OAuth 接 GPT-5.5 之後,質素的確有提升:

  • 理解複雜任務快啲
  • 對 repo / git / preview / production 呢類流程更敏感
  • 回答同執行之間更有連貫性

但另一個問題好快出現:token 用量好似倒水咁

Hermes OAuth 接 GPT-5.5 時,感覺每做一輪任務都消耗得好快。對於長時間 coding、反覆改 blog、睇 git history、再推 preview 呢類 workflow,token 成本變成好明顯嘅負擔。

所以呢個組合雖然強,但用落唔夠舒服。

Codex + GPT-5.5

最後就轉到 Codex 接 GPT-5.5。

Codex 最啱我嘅地方,唔係單純「模型聰明」,而係佢比較貼近日常工程流程:

  • 會讀 repo
  • 會睇 git status
  • 會分 preview / production
  • 會知道臨時 clone 用完要清理
  • 會做完再驗證
  • 遇到 push / branch / server 問題時,可以沿住問題處理落去

今日其實就係一個好例子。

我哋做咗:

  • 寫 MiniGame
  • push MiniGame repo
  • 將 MiniGame 放入 Blog
  • 先上 preview
  • 修 sidebar spacing
  • promote preview 去 production
  • 根據 CRM App history 寫 blog
  • 再修 blog 時間同首頁 sidebar

呢啲唔係單一 prompt 可以解決嘅任務,而係一串連續工作。Codex + GPT-5.5 嘅感覺就係:比較能夠陪住條線行到底。

幾個組合嘅感覺

簡單總結:

  • OpenClaw + Qwen3.5:起步 OK,但複雜 coding 唔夠穩
  • OpenClaw + Minimax2.7:模型進步咗,coding 好過 Qwen3.5,但 OpenClaw 後期 update 問題多
  • Hermes OAuth + Minimax2.7:穩定舒服,係一個實用組合
  • Hermes OAuth + GPT-5.5:能力更強,但 token 消耗太快
  • Codex + GPT-5.5:暫時最啱工程 workflow,由 repo 到 git 到 preview 都順手

今日嘅結論

以前我會比較邊個模型答得聰明啲。

而家我更關心:邊個組合可以穩定完成一件事。

模型能力當然重要,但 agent layer、工具整合、token 成本、錯誤恢復能力,全部都會影響日常使用感。

今次由 OpenClaw 到 Hermes OAuth,再到 Codex,最大嘅感覺係:AI coding 工具真正好用與否,唔係睇單次回答,而係睇佢能唔能夠陪你由「諗法」一路行到「commit、preview、production」。