GLM-5.2 — 开源权重模型新领跑者,HN 讨论摘要
原文概要
2026 年 6 月 17 日,Artificial Analysis 发布文章称,Z ai 的 GLM-5.2 在其 Intelligence Index v4.1 上以 51 分成为新的开源权重模型领先者。该模型总参数量 744B、激活参数 40B 与 GLM-5.1 相同,但 Intelligence Index 得分提升了 11 分,超越了 MiniMax-M3(44)和 DeepSeek V4 Pro(44)。GLM-5.2 采用 MIT 许可,上下文窗口从 200K 扩展至 1M tokens,API 定价为 $1.4/$4.4/$0.26 每百万输入/输出/缓存命中 tokens。
该消息在 HN 首页引发热议(876 分 / 432 评论),讨论集中在 GLM-5.2 的实际性能表现、推理效率问题、与闭源前沿模型的差距,以及围绕模型蒸馏和知识产权的争议。
讨论焦点
GLM-5.2 的定位:接近前沿还是替代前沿?
多位用户对 GLM-5.2 的能力表示认可,认为它在开源模型中已经登顶,且在某些场景下可媲美闭源旗舰。
“GLM 5.2 Max = Opus 4.8 Max in thinking behavior. The thinking chain is so similar, and so is the amount of token usage on the output. … In essence, GLM 5.2 is Opus 4.8 its little brother, at a way, WAY cheaper price.” — benjiro29
(GLM 5.2 Max 在思考行为上与 Opus 4.8 Max 高度相似,思考链和输出 token 用量都很接近。本质上 GLM 5.2 是 Opus 4.8 的”小弟”,但价格便宜得多。)
但也有用户持保留态度:
“looking at the score this is rather a gemini 3.5 flash competitor, yes, for cheaper, but distance to opus and fable is as big as their price diff.” — maxdo
(按得分来看,它更像是 Gemini 3.5 Flash 的竞争对手,虽然更便宜,但与 Opus 和 Fable 的差距和它们的价格差一样大。)
一位实际使用 OpenCode + GLM 的用户分享了一线体验:
“IMHO it’s already surpassed them. I vastly prefer my personal GLM and OpenCode setup to the Claude Code and Opus one that I have to use at work. … I think it safe to say that Anthropic’s moat is evaporating.” — alexjplant
(我认为它已经超越了竞品。我个人的 GLM + OpenCode 设置远胜于工作中必须用的 Claude Code + Opus。Anthropic 的护城河正在蒸发。)
推理效率:Max 模式 token 消耗过大
GLM-5.2 Max 模式每个任务平均消耗约 42-45K 输出 tokens,其中大部分为推理 tokens。这一效率问题成为讨论热点。
“I wish they’d start focusing on the reasoning efficiency now, though. I have a simple (relatively) test task … GLM 5.2 (xhigh which maps to max effort) spent over 15 minutes (!) reasoning, spending about 45k tokens, before it finally wrote the first file.” — Tiberium
(我希望他们现在开始关注推理效率。我的一个简单测试任务——用 Nim 写一个数学求值器——GLM 5.2 Max 花了超过 15 分钟推理,消耗约 45K tokens 才开始写第一个文件。)
对此,其他用户建议使用 High 模式而非 Max:
“If you want reasonable token usage, you need to run it GLM 5.2 at High. There is little drop in quality from Max to High (for most tasks). And it cuts token usage by 2 a 2.5x.” — benjiro29
(如果你希望 token 使用量合理,应该用 GLM 5.2 High 模式。对大多数任务,从 Max 降到 High 几乎没有质量损失,而 token 消耗减少 2-2.5 倍。)
还有用户指出,过度思考是许多推理模型的通病:
“This is a problem I find with opus is will spend so long thinking then going ‘but wait what if’ … Seems writers block also effects LLM.” — vorticalbox
(Opus 也有这个问题——花很长时间思考,然后说”但是等等如果”……看来 LLM 也会遇到写作瓶颈。)
有人引用了相关论文,探讨抑制”空转”思维 token 的方法:
“In this paper they nerf an LLMs ability to emit waffling thinking tokens like ‘wait’, ‘but’, ‘alternatively’, and the models … terminate reasoning faster and perform better.” — robertkarl
(论文中他们削弱了 LLM 发出”等等”“但是”“另一种可能”这类空转推理 token 的能力,模型推理终止更快,表现反而更好。)
蒸馏、版权与双重标准
讨论中爆发了关于模型蒸馏和训练数据版权的激烈争论。有用户讽刺美国 AI 公司对中国蒸馏行为的指责:
“distillation of thinking models is not particularly effective — both ‘Open’AI and Misanthropic don’t show you the real chain of thought, only its severely downscaled version. both do everything in their power to combat such outrageous copyright infringement, so the bulk of unethically scrapped data the Chinese have is from several generations ago.” — vitalyan123
(思维模型的蒸馏并不特别有效——OpenAI 和 Anthropic 都不展示真正的思维链,只给你严重缩水的版本。他们竭尽全力打击这种”令人发指的版权侵犯”,所以中国公司拥有的不道德抓取数据大多来自几代之前的版本。)
其他用户迅速指出其中的讽刺意味:
“Chinese distillation attacks are about as unethical as Robin Hood stealing from the rich to give to the poor. The real unethical scraping was done by Anthropic to train Claude.” — kmeisthax
(中国的蒸馏攻击大约和罗宾汉劫富济贫一样不道德。真正不道德的抓取是 Anthropic 自己训练 Claude 时做的。)
“IP for me, not thee.” — baron3dl
(知识产权归我可以,归你不行。)
还有用户观察到技术社区对版权态度的转变:
“It’s been amazing to see the arc of tech people going from ‘evil Disney, copyright is an abomination, information wants to be free’ to ‘OMG copyright is inviolable and AI is taking money out of Plato’s descendants’ pockets!’” — brookst
(看到技术人士从”邪恶迪士尼,版权是祸害,信息渴望自由”转变为”天哪版权不可侵犯,AI 抢走了柏拉图后代的钱!”真是精彩。)
开源模型本地运行的可能性
用户 matheusmoreira 对”未来能在消费级硬件上运行这类模型”表示期待,引发了一场关于 RAM 容量趋势的讨论。
“Are there any indications that this will be possible? Consumer hardware will continue getting better but I can’t see 512GB RAM in a MacBook Pro any time soon.” — chartpath
(有什么迹象表明这将成为可能吗?消费级硬件确实在进步,但我看不到 MacBook Pro 很快配上 512GB 内存的可能性。)
有用户类比历史:
“Could totally see this being a comment from a forum in like 1994 but swap out GB for MB and MacBook Pro to whatever the popular consumer pc was at the time.” — carter2099
(完全能想象这是在 1994 年的论坛上看到的评论,只不过把 GB 换成 MB、MacBook Pro 换成当时的流行 PC。)
但也有人持悲观态度:
“any new DDR capacity that comes online is just immediately absorbed by frontier AI, and consumer devices stay at ‘just good enough’ for a decade.” — regularfry
(任何新增的 DDR 产能都会被前沿 AI 立即吸收,消费级设备停留在”刚好够用”的水平上十年之久。)
工具链和 Harness 的重要性
多位用户指出,agent harness(智能体框架)对实际体验的影响不亚于模型本身:
“You would be surprised at how much of an impact the harness has. I switched to Pi and chinese open source models, and models that I know are less capable than sonnet outperform my sonnet + claude code stack at work.” — carter2099
(你会惊讶于 harness 的影响有多大。我换成 Pi 和中国开源模型后,那些我知道能力不如 Sonnet 的模型,在实际工作中表现反而超过了我的 Sonnet + Claude Code 组合。)
典型观点一览
| 立场 | 用户 | 一句话 |
|---|---|---|
| GLM-5.2 已超越闭源前沿 | alexjplant | “Anthropic 的护城河正在蒸发。” |
| 差距仍然明显 | maxdo | “它更像是 Gemini 3.5 Flash 的竞争对手。” |
| 推理效率是最大短板 | Tiberium | “45K tokens 思考了 15 分钟才开始写代码。” |
| 用 High 模式代替 Max 即可 | benjiro29 | “High 模式 token 减少 2-2.5 倍,质量几乎不变。” |
| 蒸馏争论是双重标准 | kmeisthax | “中国蒸馏 ≈ 罗宾汉劫富济贫。” |
| Harness 比模型本身更重要 | carter2099 | “能力更低的模型+好框架 > 好模型+差框架。” |
| 本地运行有希望,但需时间 | majormajor | “五年后 512GB MacBook Pro 不是梦。” |
| DDR 产能会被 AI 吞噬 | regularfry | “消费级设备可能十年原地踏步。” |
总体情绪
讨论整体偏向积极——用户普遍认可 GLM-5.2 在开源权重模型中的领先地位,并对其 MIT 许可和极具竞争力的定价表示欢迎。但与此同时,关于推理效率的批评非常集中:Max 模式 token 消耗过大、思考时间过长是实际使用中的主要痛点。用户大多建议在日常任务中使用 High 模式。
关于蒸馏与版权的辩论呈现出明显的情绪分化。部分用户对”双重标准”(美国公司指责中国蒸馏,自己却用未授权数据训练)感到不满,另一部分则坚持认为中国模型的能力提升确实依赖于对前沿模型思维链的逆向工程。
整体情绪:积极但审慎。社区肯定 GLM-5.2 的技术成就和性价比,但在推理效率和数据来源透明度方面保持关注。
引用帖子
| # | 标题 | URL |
|---|---|---|
| 1 | GLM-5.2 is the new leading open weights model on Artificial Analysis | https://news.ycombinator.com/item?id=48567759 |