106阅读
3回复

[数码讨论]把海外网友晃瞎的神秘大模型，还是中国制造 [复制链接]

上一主题下一主题查看指定楼层

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 230223

金币: 764771

道行: 2006

原创: 2455

奖券: 3420

斑龄: 43

道券: 1516

获奖: 0

座驾

设备

摄影级

在线时间: 49060(小时)
注册时间: 2008-10-01
最后登录: 2026-02-28

只看楼主倒序阅读使用道具楼主发表于: 02-13

— 本帖被兵马大元帅执行加亮操作(2026-02-23) —

今年春节，这些大模型厂商属于是一点寂寞也耐不住了。

轮流发射，啊不，应该说是轮流在喷射新的模型出来。

除了万众瞩目的 DeepSeek 还在憋气，其他大模型公司都没少闲着。。。

字节前几天搞了个 Seedance 2.0，靠着逼真的视频效果先下一城。

而智谱则是在海外整了个新活：

经常关注大模型发布的差友们这几天应该有刷到，前几天，程序员非常爱用的 AI 聚合平台，Openrouter 那边上架了一款匿名模型 —— Pony Alpha。

结果大家一上手使用后发现哥们是真能干事啊，定叫它好评如潮。

于是，热情吃瓜的海外网友就开始了经典的模型猜猜猜游戏，开始推测这个匿名模型是哪一家的手笔。

有说是 DeepSeek V4 的，也有说是 Grok 4.2 的，还有说是 llama 5 的。

还有人因为 Pony 这个代号，直接开始猜它是腾讯的新模型的。。。

可以说是众说纷纭。

而昨天，谜底正式揭晓了。

不装了，我摊牌了。

这个化名为 pony 的新东西，正是来自于智谱的GLM-5，而且还是个开源的模型。

世超打开 GLM-5 的基准测试成绩翻了一下，在智谱最看中的代码能力这块，GLM-5 直接逼近了大家公认的 AI 编码冠军，Claude Opus 4.5。

当然，现在各种各样的 AI 排行榜太多了，大家可能不太理解智谱这次测的这个 CC-bench-V2 又是个啥排行榜，代表了啥？

我简单看了一下，智谱这次测的这个 CC-bench-V2，主要考验的是你模型补全代码的能力有多强。

说人话一点，就是把模型丢到一个没写完的工程里，然后看它能不能自个儿哼哧哼哧把项目给做完。

这块考的分越高，说明这次 GLM-5 处理复杂任务的能力越强。

众所周知，现在大家想让 AI 干的活那是越来越复杂，生成几个简单的 Html 文件已经难不倒这些 AI 大模型了。

而想要把大项目给做好，那就需要让模型具备这种处理复杂任务的能力。

另外还有个有趣的测试结果是，GLM-5 发生幻觉概率非常低。

当一个问题它不知道的时候，GLM-5 会有很大的概率直接说不知道，而不是原地开始胡编乱造。

给孩子教的非常实诚了属于是。

既能干活，又不容易产生幻觉。。。GLM-5 的这波更新，属于完全冲着要让 AI 好好干活去整的。

在官网上世超还看到一个非常惊艳的案例，他们直接让 GLM-5 复刻了一个我的世界。

我下过来体验了一下，发现整个游戏只需要依赖浏览器就能运行。

能跑能挖能叠方块，操作手感非常流畅。

看别人拿 GLM-5 给整的这么猛，世超决定自己也简单试一试。

先来点简单点的活，拿前两天特别火的洗车问题来考考它。

我想洗车，我家距离洗车店只有 50 米，请问你推荐我走路去还是开车去呢？

别看这个问题简单，前几天整懵了一堆大模型，不管是 DeepSeek 还是 OpenAI，还是其他的大模型。。。都全军覆没

这些大模型都觉得 50 米的距离太近了，谁开车啊，于是转头建议大家走路去洗车。。。

而 GLM-5 面对这个问题，则是直接看透了问题的本质 —— 人不开车怎么洗车呢？然后完成了一波干净利索的输出。

当然，这种简单的逻辑题不翻车只能算合格，接下来，世超准备给它上点难度，看看它写代码的水平。

不知道差友们前段时间有没看过一个叫《技能五子棋》的喜剧。

剧里的演员们就在传统五子棋的基础上，加入了各种各样花里胡哨的技能元素。

比如，“飞沙走石” 这个技能，就是把棋盘上对方的一枚棋子给拿起来丢掉。

再比如“静如止水”这个技能，就是给对面玩家上定身术，让他不能继续下棋。

所以世超决定用 AI 来快速复刻一下这个整活游戏。

咱们就敲这么一段话，接下来全部交个 GLM 自由发挥。

结果不到三分钟，它就给我搓完了。

打开一看，整的还挺有模有样的。。。

不但我要求它安排的四个技能都整上去了，还给自动生成了另外四个技能。

但是仔细一玩就露馅了。

点击了飞沙走石（移除对面一个棋子）的技能，把对面的棋子给扔掉了之后，

按理来说要么是我继续下棋，要么是对面下棋对吧。

这两种情况还在我的理解范围中，AI 给我写成哪种逻辑我都能理解。

但是 GLM 在这个 A or B 的选择题中，选了 or。

它让我选择给对面的棋子下到哪里，明显是神志不清逻辑错乱了。

不过好在它也很听劝，把我们的需求再和它复述一下，那它很快就能 Get 到我们想要什么效果。

这样一来，我们就得到了一个可以和 AI 原地对战的技能五子棋游戏。

坦白说，现在 AI 写代码早就不是什么稀奇事了，能写出这种量级的 Demo 只能说是 GLM-5 的基本操作，还比较在世超的意料之中。

但比较遗憾的是，因为这次上手的时间实在太短，世超没法拿那些真正复杂的业务代码去狠狠“拷打”一下它，看看它在那种成百上千个文件的大项目里，是不是还能保持这种清醒。

不过大家别急，今年世超手头正好攒了一堆复杂的烂摊子需求，准备年后面慢慢丢给它去跑一跑。

等后面深度体验了一段时间，真的摸清了它的上限和脾气，再来和大伙做个更详细的汇报。

撰文：早起

编辑：江江 & 面线

美编：素描

图片、资料来源：智谱官网、X、网络

[ 此帖被jjybzxw在2026-02-13 11:27重新编辑 ]

共1条评分，金币+9

兵马大元帅

金币 +9

鼓励一下

02-23

山庄提示：道行不够，道券不够？---☆点此充值☆

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 230223

金币: 764771

道行: 2006

原创: 2455

奖券: 3420

斑龄: 43

道券: 1516

获奖: 0

座驾

设备

摄影级

在线时间: 49060(小时)
注册时间: 2008-10-01
最后登录: 2026-02-28

只看该作者沙发发表于: 02-13

申请VIP---在山庄畅通无阻还送FTP单独下载账号!

春节大模型“盛宴”：智谱GLM-5崭露头角
一、春节大模型发布热潮

今年春节，大模型厂商们异常活跃，纷纷推出新模型。除了备受瞩目的DeepSeek还在“憋大招”外，其他大模型公司都已行动起来。字节跳动前几天发布了Seedance 2.0，凭借逼真的视频效果赢得先机。而智谱则在海外推出了新模型，引发广泛关注。
二、智谱GLM-5的神秘亮相

1. 匿名模型引发猜测：
程序员常用的AI聚合平台Openrouter上架了一款匿名模型——Pony Alpha，因其出色的表现迅速获得好评。
海外网友纷纷猜测这个匿名模型的来源，有说是DeepSeek V4的，有说是Grok 4.2的，还有说是llama 5的，甚至有人因代号“Pony”猜测是腾讯的新模型。

2. GLM-5正式揭晓：
谜底最终揭晓，这个化名为Pony的新模型正是智谱的GLM-5，且为开源模型。
三、GLM-5的性能与特点

1. 代码能力突出：
GLM-5在智谱看重的代码能力方面表现出色，基准测试成绩逼近公认的AI编码冠军Claude Opus 4.5。
CC-bench-V2排行榜主要考验模型补全代码的能力，GLM-5的高分表明其处理复杂任务的能力强。

2. 低幻觉概率：
GLM-5在面对不知道的问题时，有很大概率直接承认不知道，而不是胡编乱造，表现出较高的诚实度。

3. 惊艳案例展示：
智谱官网上展示了GLM-5复刻的《我的世界》游戏，仅依赖浏览器即可运行，操作手感流畅。
四、GLM-5的实际体验

1. 简单逻辑题测试：
面对“洗车问题”这一简单逻辑题，GLM-5看透了问题的本质，给出了正确的建议，表现优于其他大模型。

2. 代码编写能力测试：
尝试让GLM-5复刻加入技能元素的《技能五子棋》游戏，不到三分钟就完成了初步版本。
虽然初步版本存在逻辑错误，但经过修正后，得到了一个可以和AI对战的技能五子棋游戏。
五、GLM-5的潜力与展望

1. 基本操作与预期之中：
AI写代码已非稀奇事，GLM-5能写出这种量级的Demo属于基本操作，符合预期。

2. 复杂项目挑战待考：
由于上手时间短，未能用真正复杂的业务代码“拷打”GLM-5，其在成百上千个文件的大项目中的表现尚待观察。

3. 深度体验与详细汇报：
计划年后用复杂需求对GLM-5进行深度体验，摸清其上限和脾气，再与大家做更详细的汇报。
六、结语

春节期间的大模型发布热潮中，智谱的GLM-5凭借其出色的代码能力、低幻觉概率以及惊艳的实际案例展示脱颖而出。虽然目前对其在复杂项目中的表现尚待观察，但无疑已经为大模型领域注入了新的活力。期待年后对GLM-5的深度体验与详细汇报，为我们揭示更多关于这个新模型的潜力与可能性。

共1条评分，金币+9

兵马大元帅

金币 +9

鼓励一下

02-23

如何不发帖就快速得到金币和道行

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 230223

金币: 764771

道行: 2006

原创: 2455

奖券: 3420

斑龄: 43

道券: 1516

获奖: 0

座驾

设备

摄影级

在线时间: 49060(小时)
注册时间: 2008-10-01
最后登录: 2026-02-28

只看该作者板凳发表于: 02-13

春节大模型“盛宴”：智谱GLM-5脱颖而出
一、春节大模型发布热潮：厂商竞相角逐

今年春节，大模型厂商们纷纷推出新模型，呈现出一片热闹景象。除了备受期待的DeepSeek仍在蓄力待发，其他大模型公司均已积极行动。字节跳动率先发布了Seedance 2.0，凭借其逼真的视频效果赢得了市场的初步认可。与此同时，智谱则在海外悄然布局，推出了一款新模型，引发了广泛关注和猜测。
二、智谱GLM-5神秘亮相：匿名引发猜测

1. 匿名模型Pony Alpha引发热议：
程序员常用的AI聚合平台Openrouter上架了一款匿名模型——Pony Alpha。该模型凭借出色的表现迅速获得了用户的好评。
海外网友纷纷猜测这个匿名模型的来源，提出了多种可能性，包括DeepSeek V4、Grok 4.2、llama 5，甚至有人因代号“Pony”猜测是腾讯的新模型。

2. GLM-5正式揭晓身份：
经过一番猜测和期待，谜底终于揭晓。这个化名为Pony的新模型正是智谱的GLM-5，且为开源模型，这一消息进一步激发了市场的热情。
三、GLM-5性能与特点：代码能力强，幻觉概率低

1. 代码能力突出，逼近行业冠军：
GLM-5在智谱看重的代码能力方面表现出色，其基准测试成绩逼近公认的AI编码冠军Claude Opus 4.5。
CC-bench-V2排行榜主要考验模型补全代码的能力，GLM-5的高分表明其具备强大的处理复杂任务的能力。

2. 低幻觉概率，表现诚实：
GLM-5在面对不知道的问题时，有很大概率直接承认不知道，而不是胡编乱造，这种诚实的表现赢得了用户的信赖。

3. 惊艳案例展示，复刻《我的世界》：
智谱官网上展示了GLM-5复刻的《我的世界》游戏，该游戏仅依赖浏览器即可运行，操作手感流畅，进一步展示了GLM-5的强大能力。
四、GLM-5实际体验：逻辑清晰，代码编写能力强

1. 简单逻辑题测试，表现优异：
面对“洗车问题”这一简单逻辑题，GLM-5看透了问题的本质，给出了正确的建议，表现优于其他大模型。

2. 代码编写能力测试，快速复刻游戏：
尝试让GLM-5复刻加入技能元素的《技能五子棋》游戏，不到三分钟就完成了初步版本。
虽然初步版本存在逻辑错误，但经过简单修正后，得到了一个可以和AI对战的技能五子棋游戏，展示了GLM-5的代码编写能力和灵活性。
五、GLM-5潜力与展望：复杂项目挑战待考，深度体验值得期待

1. 基本操作符合预期，复杂项目表现待观察：
AI写代码已非稀奇事，GLM-5能写出这种量级的Demo属于基本操作，符合市场预期。
然而，对于其在成百上千个文件的大项目中的表现，尚待进一步观察和考验。

2. 计划深度体验，详细汇报潜力与可能性：
计划年后用复杂需求对GLM-5进行深度体验，摸清其上限和脾气。
期待通过深度体验，为大家揭示更多关于GLM-5的潜力与可能性，为市场提供更全面的参考。
六、结语：GLM-5为大模型领域注入新活力

春节期间的大模型发布热潮中，智谱的GLM-5凭借其出色的代码能力、低幻觉概率以及惊艳的实际案例展示脱颖而出。虽然目前对其在复杂项目中的表现尚待观察，但无疑已经为大模型领域注入了新的活力。期待年后对GLM-5的深度体验与详细汇报，为我们揭示更多关于这个新模型的潜力与可能性，共同见证大模型领域的蓬勃发展。

共1条评分，金币+9

兵马大元帅

金币 +9

鼓励一下

02-23

如何不发帖就快速得到金币和道行

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 173522

金币: 550181

道行: 20030

原创: 768

奖券: 398

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 21593(小时)
注册时间: 2012-06-21
最后登录: 2026-02-28

只看该作者地板发表于: 02-18

关于海外网友热议的神秘大模型“PonyAlpha”，其背后的中国身份和技术亮点，可以总结如下：

🧠 神秘大模型“Pomialpha”的身份揭晓
近期，一款匿名模型“PonyAlpha”在海外模型平台OpenRouter上架，迅速引发全球开发者关注。因其在编程、多轮推理和智能体工作流（Agentic）中的出色表现，海外网友纷纷猜测其来源，有说是DeepSeek-V4、Grok4.2，甚至Llama5。最终谜底揭晓——它正是来自中国AI公司智谱（Zhipu）的 GLM-5 模型，且已开源。

🚀 技术实力：逼近顶级，中国制造
GLM-5 在多个维度展现出了极强的竞争力：

代码能力顶尖：在代码补全基准测试 CC-Bench-V2 中，GLM-5 的表现逼近当前公认的“AI编程冠军”Claude Opus 4.5，尤其在处理复杂任务时表现出色。
幻觉率低：当模型不确定答案时，会直接回答“不知道”，而非编造信息，可靠性高。
架构创新：复用 DeepSeek 的稀疏注意力技术（DSA），总参数量达745B，是上一代的两倍；同时支持多 Token 预测（MTP）和最高202K上下文窗口，适合长任务处理。
部署友好：因架构与主流框架（如 vLLM）兼容，GLM-5 的部署门槛大幅降低。
🌍 海外反响：中国模型正在“反向输出”
不仅是 GLM-5，包括阿里的 Qwen、月之暗面的 Kimi 等国产模型，因“性能强、价格低、支持好”，已被多家美国 AI 公司（如 Vercel、Codeium）选为底层模型，用于开发编程工具、Agent 系统等。
硅谷投资人 Chamath Palihapitiya 公开表示：中国模型的性价比远超美国产品，比如用 Kimi 替代昂贵的 Anthropic 模型。
🎮 实测案例：能写游戏、懂逻辑
用户实测显示，GLM-5 能仅凭提示词生成可运行的“技能版五子棋”游戏，包含角色技能设计、对战逻辑和 Java 代码输出；在洗车等生活场景的推理中，也能精准抓住问题本质（如“人不开车怎么洗车？”），逻辑清晰度获好评。

💡 为什么是中国制造能“晃瞎”海外？
国产大模型近年持续突破，不仅在性能上逼近 GPT-4、Claude 等顶级模型，更凭借以下优势吸引全球开发者：

开源友好：如 GLM-5、Qwen 等均提供商用级开源版本；
成本优势：训练及推理成本仅为美模型的 1/30 至 1/10；
垂直优化：在编程、多模态、长文本等场景深度打磨，更实用。
总结来说，这款让海外网友“晃瞎”的模型，是中国 AI 实力进化的一个缩影——从技术追赶到局部超越，再到被国际厂商主动采用。国产大模型正用性能与诚意，赢得全球舞台的入场券。

共1条评分，金币+9

兵马大元帅

金币 +9

鼓励一下

02-23

如何不发帖就快速得到金币和道行

我有我可以

发帖回复

返回列表


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选

帖子

[数码讨论]把海外网友晃瞎的神秘大模型，还是中国制造 [复制链接]