切换到宽版
  • 106阅读
  • 3回复

[数码讨论]把海外网友晃瞎的神秘大模型,还是中国制造 [复制链接]

上一主题 下一主题
在线jjybzxw

UID: 551814

 

发帖
230223
金币
764771
道行
2006
原创
2455
奖券
3420
斑龄
43
道券
1516
获奖
0
座驾
设备
摄影级
在线时间: 49060(小时)
注册时间: 2008-10-01
最后登录: 2026-02-28
— 本帖被 兵马大元帅 执行加亮操作(2026-02-23) —

今年春节,这些大模型厂商属于是一点寂寞也耐不住了。

轮流发射,啊不,应该说是轮流在喷射新的模型出来。

除了万众瞩目的 DeepSeek 还在憋气,其他大模型公司都没少闲着。。。

字节前几天搞了个 Seedance 2.0,靠着逼真的视频效果先下一城。

而智谱则是在海外整了个新活:

经常关注大模型发布的差友们这几天应该有刷到,前几天,程序员非常爱用的 AI 聚合平台,Openrouter 那边上架了一款匿名模型 —— Pony Alpha。

结果大家一上手使用后发现哥们是真能干事啊,定叫它好评如潮。

于是,热情吃瓜的海外网友就开始了经典的模型猜猜猜游戏,开始推测这个匿名模型是哪一家的手笔。

有说是 DeepSeek V4 的,也有说是 Grok 4.2 的,还有说是 llama 5 的。

还有人因为 Pony 这个代号,直接开始猜它是腾讯的新模型的。。。

可以说是众说纷纭。

而昨天,谜底正式揭晓了。

不装了,我摊牌了。

这个化名为 pony 的新东西,正是来自于智谱的GLM-5,而且还是个开源的模型。

世超打开 GLM-5 的基准测试成绩翻了一下,在智谱最看中的代码能力这块,GLM-5 直接逼近了大家公认的 AI 编码冠军,Claude Opus 4.5。

当然,现在各种各样的 AI 排行榜太多了,大家可能不太理解智谱这次测的这个 CC-bench-V2 又是个啥排行榜,代表了啥?

我简单看了一下,智谱这次测的这个 CC-bench-V2,主要考验的是你模型补全代码的能力有多强。

说人话一点,就是把模型丢到一个没写完的工程里,然后看它能不能自个儿哼哧哼哧把项目给做完。

这块考的分越高,说明这次 GLM-5 处理复杂任务的能力越强。

众所周知,现在大家想让 AI 干的活那是越来越复杂,生成几个简单的 Html 文件已经难不倒这些 AI 大模型了。

而想要把大项目给做好,那就需要让模型具备这种处理复杂任务的能力。

另外还有个有趣的测试结果是,GLM-5 发生幻觉概率非常低。

当一个问题它不知道的时候,GLM-5 会有很大的概率直接说不知道,而不是原地开始胡编乱造。

给孩子教的非常实诚了属于是。

既能干活,又不容易产生幻觉。。。GLM-5 的这波更新,属于完全冲着要让 AI 好好干活去整的。

在官网上世超还看到一个非常惊艳的案例,他们直接让 GLM-5 复刻了一个我的世界。

我下过来体验了一下,发现整个游戏只需要依赖浏览器就能运行。

能跑能挖能叠方块,操作手感非常流畅。

看别人拿 GLM-5 给整的这么猛,世超决定自己也简单试一试。

先来点简单点的活,拿前两天特别火的洗车问题来考考它。

我想洗车,我家距离洗车店只有 50 米,请问你推荐我走路去还是开车去呢?

别看这个问题简单,前几天整懵了一堆大模型,不管是 DeepSeek 还是 OpenAI,还是其他的大模型。。。都全军覆没

这些大模型都觉得 50 米的距离太近了,谁开车啊,于是转头建议大家走路去洗车。。。

而 GLM-5 面对这个问题,则是直接看透了问题的本质 —— 人不开车怎么洗车呢?然后完成了一波干净利索的输出。

当然,这种简单的逻辑题不翻车只能算合格,接下来,世超准备给它上点难度,看看它写代码的水平。

不知道差友们前段时间有没看过一个叫《技能五子棋》的喜剧。

剧里的演员们就在传统五子棋的基础上,加入了各种各样花里胡哨的技能元素。

比如,“飞沙走石” 这个技能,就是把棋盘上对方的一枚棋子给拿起来丢掉。

再比如“静如止水”这个技能,就是给对面玩家上定身术,让他不能继续下棋。

所以世超决定用 AI 来快速复刻一下这个整活游戏。

咱们就敲这么一段话,接下来全部交个 GLM 自由发挥。

结果不到三分钟,它就给我搓完了。

打开一看,整的还挺有模有样的。。。

不但我要求它安排的四个技能都整上去了,还给自动生成了另外四个技能。

但是仔细一玩就露馅了。

点击了飞沙走石(移除对面一个棋子)的技能,把对面的棋子给扔掉了之后,

按理来说要么是我继续下棋,要么是对面下棋对吧。

这两种情况还在我的理解范围中,AI 给我写成哪种逻辑我都能理解。

但是 GLM 在这个 A or B 的选择题中,选了 or。

它让我选择给对面的棋子下到哪里,明显是神志不清逻辑错乱了。

不过好在它也很听劝,把我们的需求再和它复述一下,那它很快就能 Get 到我们想要什么效果。

这样一来,我们就得到了一个可以和 AI 原地对战的技能五子棋游戏。

坦白说,现在 AI 写代码早就不是什么稀奇事了,能写出这种量级的 Demo 只能说是 GLM-5 的基本操作,还比较在世超的意料之中。

但 比较遗憾的是,因为这次上手的时间实在太短,世超没法拿那些真正复杂的业务代码去狠狠“拷打”一下它,看看它在那种成百上千个文件的大项目里,是不是还能保持这种清醒。

不过大家别急,今年世超手头正好攒了一堆复杂的烂摊子需求,准备年后面慢慢丢给它去跑一跑。

等后面深度体验了一段时间,真的摸清了它的上限和脾气,再来和大伙做个更详细的汇报。

撰文:早起

编辑:江江 & 面线

美编:素描

图片、资料来源:智谱官网、X、网络


[ 此帖被jjybzxw在2026-02-13 11:27重新编辑 ]
1条评分金币+9
兵马大元帅 金币 +9 鼓励一下 02-23
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
在线jjybzxw

UID: 551814


发帖
230223
金币
764771
道行
2006
原创
2455
奖券
3420
斑龄
43
道券
1516
获奖
0
座驾
设备
摄影级
在线时间: 49060(小时)
注册时间: 2008-10-01
最后登录: 2026-02-28
只看该作者 沙发  发表于: 02-13
春节大模型“盛宴”:智谱GLM-5崭露头角
一、春节大模型发布热潮

今年春节,大模型厂商们异常活跃,纷纷推出新模型。除了备受瞩目的DeepSeek还在“憋大招”外,其他大模型公司都已行动起来。字节跳动前几天发布了Seedance 2.0,凭借逼真的视频效果赢得先机。而智谱则在海外推出了新模型,引发广泛关注。
二、智谱GLM-5的神秘亮相

1. 匿名模型引发猜测:
程序员常用的AI聚合平台Openrouter上架了一款匿名模型——Pony Alpha,因其出色的表现迅速获得好评。
海外网友纷纷猜测这个匿名模型的来源,有说是DeepSeek V4的,有说是Grok 4.2的,还有说是llama 5的,甚至有人因代号“Pony”猜测是腾讯的新模型。

2. GLM-5正式揭晓:
谜底最终揭晓,这个化名为Pony的新模型正是智谱的GLM-5,且为开源模型。
三、GLM-5的性能与特点

1. 代码能力突出:
GLM-5在智谱看重的代码能力方面表现出色,基准测试成绩逼近公认的AI编码冠军Claude Opus 4.5。
CC-bench-V2排行榜主要考验模型补全代码的能力,GLM-5的高分表明其处理复杂任务的能力强。

2. 低幻觉概率:
GLM-5在面对不知道的问题时,有很大概率直接承认不知道,而不是胡编乱造,表现出较高的诚实度。

3. 惊艳案例展示:
智谱官网上展示了GLM-5复刻的《我的世界》游戏,仅依赖浏览器即可运行,操作手感流畅。
四、GLM-5的实际体验

1. 简单逻辑题测试:
面对“洗车问题”这一简单逻辑题,GLM-5看透了问题的本质,给出了正确的建议,表现优于其他大模型。

2. 代码编写能力测试:
尝试让GLM-5复刻加入技能元素的《技能五子棋》游戏,不到三分钟就完成了初步版本。
虽然初步版本存在逻辑错误,但经过修正后,得到了一个可以和AI对战的技能五子棋游戏。
五、GLM-5的潜力与展望

1. 基本操作与预期之中:
AI写代码已非稀奇事,GLM-5能写出这种量级的Demo属于基本操作,符合预期。

2. 复杂项目挑战待 考:
由于上手时间短,未能用真正复杂的业务代码“拷打”GLM-5,其在成百上千个文件的大项目中的表现尚待观察。

3. 深度体验与详细汇报:
计划年后用复杂需求对GLM-5进行深度体验,摸清其上限和脾气,再与大家做更详细的汇报。
六、结语

春节期间的大模型发布热潮中,智谱的GLM-5凭借其出色的代码能力、低幻觉概率以及惊艳的实际案例展示脱颖而出。虽然目前对其在复杂项目中的表现尚待观察,但无疑已经为大模型领域注入了新的活力。期待年后对GLM-5的深度体验与详细汇报,为我们揭示更多关于这个新模型的潜力与可能性。

1条评分金币+9
兵马大元帅 金币 +9 鼓励一下 02-23
如何不发帖就快速得到金币道行
 
在线jjybzxw

UID: 551814


发帖
230223
金币
764771
道行
2006
原创
2455
奖券
3420
斑龄
43
道券
1516
获奖
0
座驾
设备
摄影级
在线时间: 49060(小时)
注册时间: 2008-10-01
最后登录: 2026-02-28
只看该作者 板凳  发表于: 02-13
春节大模型“盛宴”:智谱GLM-5脱颖而出
一、春节大模型发布热潮:厂商竞相角逐

今年春节,大模型厂商们纷纷推出新模型,呈现出一片热闹景象。除了备受期待的DeepSeek仍在蓄力待发,其他大模型公司均已积极行动。字节跳动率先发布了Seedance 2.0,凭借其逼真的视频效果赢得了市场的初步认可。与此同时,智谱则在海外悄然布局,推出了一款新模型,引发了广泛关注和猜测。
二、智谱GLM-5神秘亮相:匿名引发猜测

1. 匿名模型Pony Alpha引发热议:
程序员常用的AI聚合平台Openrouter上架了一款匿名模型——Pony Alpha。该模型凭借出色的表现迅速获得了用户的好评。
海外网友纷纷猜测这个匿名模型的来源,提出了多种可能性,包括DeepSeek V4、Grok 4.2、llama 5,甚至有人因代号“Pony”猜测是腾讯的新模型。

2. GLM-5正式揭晓身份:
经过一番猜测和期待,谜底终于揭晓。这个化名为Pony的新模型正是智谱的GLM-5,且为开源模型,这一消息进一步激发了市场的热情。
三、GLM-5性能与特点:代码能力强,幻觉概率低

1. 代码能力突出,逼近行业冠军:
GLM-5在智谱看重的代码能力方面表现出色,其基准测试成绩逼近公认的AI编码冠军Claude Opus 4.5。
CC-bench-V2排行榜主要考验模型补全代码的能力,GLM-5的高分表明其具备强大的处理复杂任务的能力。

2. 低幻觉概率,表现诚实:
GLM-5在面对不知道的问题时,有很大概率直接承认不知道,而不是胡编乱造,这种诚实的表现赢得了用户的信赖。

3. 惊艳案例展示,复刻《我的世界》:
智谱官网上展示了GLM-5复刻的《我的世界》游戏,该游戏仅依赖浏览器即可运行,操作手感流畅,进一步展示了GLM-5的强大能力。
四、GLM-5实际体验:逻辑清晰,代码编写能力强

1. 简单逻辑题测试,表现优异:
面对“洗车问题”这一简单逻辑题,GLM-5看透了问题的本质,给出了正确的建议,表现优于其他大模型。

2. 代码编写能力测试,快速复刻游戏:
尝试让GLM-5复刻加入技能元素的《技能五子棋》游戏,不到三分钟就完成了初步版本。
虽然初步版本存在逻辑错误,但经过简单修正后,得到了一个可以和AI对战的技能五子棋游戏,展示了GLM-5的代码编写能力和灵活性。
五、GLM-5潜力与展望:复杂项目挑战待 考,深度体验值得期待

1. 基本操作符合预期,复杂项目表现待观察:
AI写代码已非稀奇事,GLM-5能写出这种量级的Demo属于基本操作,符合市场预期。
然而,对于其在成百上千个文件的大项目中的表现,尚待进一步观察和考验。

2. 计划深度体验,详细汇报潜力与可能性:
计划年后用复杂需求对GLM-5进行深度体验,摸清其上限和脾气。
期待通过深度体验,为大家揭示更多关于GLM-5的潜力与可能性,为市场提供更全面的参考。
六、结语:GLM-5为大模型领域注入新活力

春节期间的大模型发布热潮中,智谱的GLM-5凭借其出色的代码能力、低幻觉概率以及惊艳的实际案例展示脱颖而出。虽然目前对其在复杂项目中的表现尚待观察,但无疑已经为大模型领域注入了新的活力。期待年后对GLM-5的深度体验与详细汇报,为我们揭示更多关于这个新模型的潜力与可能性,共同见证大模型领域的蓬勃发展。
1条评分金币+9
兵马大元帅 金币 +9 鼓励一下 02-23
如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
173522
金币
550181
道行
20030
原创
768
奖券
398
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 21593(小时)
注册时间: 2012-06-21
最后登录: 2026-02-28
只看该作者 地板  发表于: 02-18
关于海外网友热议的神秘大模型“PonyAlpha”,其背后的中国身份和技术亮点,可以总结如下:

🧠 神秘大模型“Pomialpha”的身份揭晓
近期,一款匿名模型“PonyAlpha”在海外模型平台OpenRouter上架,迅速引发全球开发者关注。因其在编程、多轮推理和智能体工作流(Agentic)中的出色表现,海外网友纷纷猜测其来源,有说是DeepSeek-V4、Grok4.2,甚至Llama5。最终谜底揭晓——它正是来自中国AI公司智谱(Zhipu)的 GLM-5 模型,且已开源。

🚀 技术实力:逼近顶级,中国制造
GLM-5 在多个维度展现出了极强的竞争力:

代码能力顶尖:在代码补全基准测试 CC-Bench-V2 中,GLM-5 的表现逼近当前公认的“AI编程冠军”Claude Opus 4.5,尤其在处理复杂任务时表现出色。
幻觉率低:当模型不确定答案时,会直接回答“不知道”,而非编造信息,可靠性高。
架构创新:复用 DeepSeek 的稀疏注意力技术(DSA),总参数量达745B,是上一代的两倍;同时支持多 Token 预测(MTP)和最高202K上下文窗口,适合长任务处理。
部署友好:因架构与主流框架(如 vLLM)兼容,GLM-5 的部署门槛大幅降低。
🌍 海外反响:中国模型正在“反向输出”
不仅是 GLM-5,包括阿里的 Qwen、月之暗面的 Kimi 等国产模型,因“性能强、价格低、支持好”,已被多家美国 AI 公司(如 Vercel、Codeium)选为底层模型,用于开发编程工具、Agent 系统等。
硅谷投资人 Chamath Palihapitiya 公开表示:中国模型的性价比远超美国产品,比如用 Kimi 替代昂贵的 Anthropic 模型。
🎮 实测案例:能写游戏、懂逻辑
用户实测显示,GLM-5 能仅凭提示词生成可运行的“技能版五子棋”游戏,包含角色技能设计、对战逻辑和 Java 代码输出;在洗车等生活场景的推理中,也能精准抓住问题本质(如“人不开车怎么洗车?”),逻辑清晰度获好评。

💡 为什么是中国制造能“晃瞎”海外?
国产大模型近年持续突破,不仅在性能上逼近 GPT-4、Claude 等顶级模型,更凭借以下优势吸引全球开发者:

开源友好:如 GLM-5、Qwen 等均提供商用级开源版本;
成本优势:训练及推理成本仅为美模型的 1/30 至 1/10;
垂直优化:在编程、多模态、长文本等场景深度打磨,更实用。
总结来说,这款让海外网友“晃瞎”的模型,是中国 AI 实力进化的一个缩影——从技术追赶到局部超越,再到被国际厂商主动采用。国产大模型正用性能与诚意,赢得全球舞台的入场券。
1条评分金币+9
兵马大元帅 金币 +9 鼓励一下 02-23
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个