由 OpenClaw、Hermes 到 Codex

最近呢段時間，我唔止係轉模型，而係一路喺「模型 + agent 工具」之間搵一個最啱自己日常開發嘅組合。

實際路線係：

OpenClaw + Qwen3.5
OpenClaw + Minimax2.7
Hermes OAuth + Minimax2.7
Hermes OAuth + GPT-5.5
Codex + GPT-5.5

OpenClaw + Qwen3.5

最初係用 OpenClaw 接 Qwen3.5。開頭其實冇乜大問題，日常問答、簡單 coding、整理資料都做到。

Qwen3.5 嘅優點係反應快，中文理解都 OK，作為起步工具係舒服嘅。配合 OpenClaw 之後，開始有少少 agent workflow 嘅感覺，唔再淨係「問一句答一句」。

但用耐咗，問題慢慢浮現：

複雜 repo 任務要人手補好多位
上下文長咗之後容易飄
OpenClaw 後期每次 update 都好似會帶嚟新問題

最初 OpenClaw 係順嘅，但去到後面，每個 update 都令人有少少不安：今日修一樣，聽日又壞另一樣。工具本身嘅穩定性開始變成成本。

OpenClaw + Minimax2.7

之後我將 OpenClaw 接去 Minimax2.7。

呢一步最大感覺係：Minimax2.7 coding 係好過 Qwen3.5。

佢寫 code、理解需求、處理比較長嘅任務，都比 Qwen3.5 紮實。尤其係寫 blog、整理脈絡、幫手拆工程步驟，Minimax2.7 明顯順手啲。

但問題係，OpenClaw 本身後期仍然唔穩。即使底層模型換咗，agent layer 如果每次 update 都有新狀況，成個 workflow 都會受影響。

所以呢個階段嘅結論係：

Minimax2.7 比 Qwen3.5 更適合 coding
但 OpenClaw 後期穩定性令我想搵替代方案

Hermes OAuth + Minimax2.7

跟住轉去 Hermes OAuth 接 Minimax2.7。

Hermes OAuth 俾我嘅第一感覺係：穩定。

同 OpenClaw 後期嗰種「每次 update 都驚有嘢壞」相比，Hermes OAuth 用落平實好多。未必每個位都驚艷，但至少 workflow 係順，工具本身唔會成日搶焦點。

Minimax2.7 喺 Hermes OAuth 入面繼續發揮得幾好：

coding 比 Qwen3.5 好
長文整理舒服
一般 debug / blog / repo analysis 都夠用

如果只係追求「穩定可用」，Hermes OAuth + Minimax2.7 其實已經係一個唔錯嘅組合。

Hermes OAuth + GPT-5.5

但人總係會想追求更好。

所以之後我轉咗 GPT-5.5 plus plan，想睇下高一級模型喺 coding、長上下文、工程判斷上會唔會再穩啲。

Hermes OAuth 接 GPT-5.5 之後，質素的確有提升：

理解複雜任務快啲
對 repo / git / preview / production 呢類流程更敏感
回答同執行之間更有連貫性

但另一個問題好快出現：token 用量好似倒水咁。

Hermes OAuth 接 GPT-5.5 時，感覺每做一輪任務都消耗得好快。對於長時間 coding、反覆改 blog、睇 git history、再推 preview 呢類 workflow，token 成本變成好明顯嘅負擔。

所以呢個組合雖然強，但用落唔夠舒服。

Codex + GPT-5.5

最後就轉到 Codex 接 GPT-5.5。

Codex 最啱我嘅地方，唔係單純「模型聰明」，而係佢比較貼近日常工程流程：

會讀 repo
會睇 git status
會分 preview / production
會知道臨時 clone 用完要清理
會做完再驗證
遇到 push / branch / server 問題時，可以沿住問題處理落去

今日其實就係一個好例子。

我哋做咗：

寫 MiniGame
push MiniGame repo
將 MiniGame 放入 Blog
先上 preview
修 sidebar spacing
promote preview 去 production
根據 CRM App history 寫 blog
再修 blog 時間同首頁 sidebar

呢啲唔係單一 prompt 可以解決嘅任務，而係一串連續工作。Codex + GPT-5.5 嘅感覺就係：比較能夠陪住條線行到底。

幾個組合嘅感覺

簡單總結：

OpenClaw + Qwen3.5：起步 OK，但複雜 coding 唔夠穩
OpenClaw + Minimax2.7：模型進步咗，coding 好過 Qwen3.5，但 OpenClaw 後期 update 問題多
Hermes OAuth + Minimax2.7：穩定舒服，係一個實用組合
Hermes OAuth + GPT-5.5：能力更強，但 token 消耗太快
Codex + GPT-5.5：暫時最啱工程 workflow，由 repo 到 git 到 preview 都順手

今日嘅結論

以前我會比較邊個模型答得聰明啲。

而家我更關心：邊個組合可以穩定完成一件事。

模型能力當然重要，但 agent layer、工具整合、token 成本、錯誤恢復能力，全部都會影響日常使用感。

今次由 OpenClaw 到 Hermes OAuth，再到 Codex，最大嘅感覺係：AI coding 工具真正好用與否，唔係睇單次回答，而係睇佢能唔能夠陪你由「諗法」一路行到「commit、preview、production」。

📑 目錄

🔗 相關文章

📊 熱門文章