Hacker News 上近 800 赞的讨论:用户使用本地模型(Qwen 3.6 35b、Pi 容器)完全离线完成网站重构,对比 Claude Opus 认为本地模型免费但需精确引导,速度约 5x 加速 vs Opus 的 15x,适合隐私敏感场景。
发生了什么
Hacker News 上一则高赞讨论(约 800 points)询问:是否有人已用本地模型替代 Claude 或 GPT 进行日常编码?多位用户分享了自己的实践。其中一位用户使用 Pi 编码框架(容器化、沙箱化、完全离线),在 Mac Studio(128GB RAM)或 MacBook(36GB RAM)上运行 Qwen 3.6 35b(仅启用 3b 活跃参数以保持高速),成功用 Django + Wagtail 重新设计了个人网站首页和博客。遇到复杂任务时,他会切换到 Qwen 3.5 122b(10b 活跃参数),但速度显著下降。另一位使用 Strix Halo 128GB 内存笔记本的用户则通过 llama.cpp 容器与 Pi 通信,同样使用 Qwen 3.6 35B-A3B 作为主力编码模型,并提到 Gemma 4 31B 用于聊天/翻译,Gemma 4 12B 用于音频。
为什么值得关注
该讨论揭示了本地模型替代云端 API 的真实场景:完全免费、数据隐私保障,但代价是需要更精确的提示(模型不会主动思考架构假设),且容易陷入循环或编辑工具调用错误。用户对比称,本地 Qwen 3.6 35b 的能力像一位“知识面广但需指导的初级程序员”,而 Claude Opus 则像“与你共同思考架构的高级 senior”。速度上,Opus 带来 15 倍提速,本地 Qwen 给出 5 倍提速——考虑到零成本,这对注重隐私且愿意投入精力的开发者而言极具吸引力。帖子还引发了关于 Qwen 混合模型在 llama.cpp 上提示缓存失效 的技术讨论(需要在 Vulkan/ROCm 驱动中解决)。
原文链接: https://news.ycombinator.com/item?id=48542100