切换到宽版
  • 68阅读
  • 3回复

[数码讨论]刚刚,Claude Opus 4.7突然发布:不是最强,但奥特曼又得失眠 [复制链接]

上一主题 下一主题
在线jjybzxw

UID: 551814

 

发帖
245399
金币
889990
道行
2006
原创
2465
奖券
3580
斑龄
45
道券
1580
获奖
0
座驾
设备
摄影级
在线时间: 52246(小时)
注册时间: 2008-10-01
最后登录: 2026-04-30
只看楼主 倒序阅读 楼主  发表于: 04-17
— 本帖被 兵马大元帅 执行加亮操作(2026-04-19) —
今年 Anthropic 的势头异常凶猛。
不仅热度居高不下,口碑也持续攀升,稳坐 AI 圈「顶流」的交椅。现在几乎每天醒来,都能看到他们准点推送的新产品或新功能。久而久之,大家也从兴奋变成了「是你,果然又是你」的默契感。

而就在刚刚,万众期待的 Claude Opus 4.7 也正式发布,依旧是熟悉的配方,熟悉的高分选手。
有趣的是,Anthropic 在公告里非常坦诚,甚至带着点骄傲:「这并非我们最强大的模型。」那个传说因强到不敢发布的 Claude Mythos Preview 依然还在藏。
但就是这个并非最强的 Opus 4.7,却依旧引发了极大的关注。因为它解决了一个比聪明更重要的痛点: 靠谱。不是那种你说什么它就做什么的靠谱,而是当你提出一个愚蠢的方案时,它敢于反驳你,并自己把坑填上的靠谱。

当靠谱成为比聪明更稀缺的品质
基准测试结果显示,在业界公认最硬核的 SWE-bench Pro 上,Opus 4.7从前代的 53.4% 直接拉到 64.3%,单代升级涨了近 11 个百分点, 把 GPT-5.4(57.7%)和 Gemini 3.1 Pro(54.2%)都甩在了身后。
这不只是「看」得更清楚这么简单。更高的分辨率直接带动了输出质量的连锁提升: 生成界面、制作幻灯片、排版文档,细节精度也全面提升。

工具调用规模化评测 MCP-Atlas 上,Opus 4.7跑出 77.3%,超过 GPT-5.4 的 68.1% 和 Gemini 的 73.9%。法律 AI 平台 Harvey 测试中,Opus 4.7在 BigLaw 基准上拿下 90.9%,正确区分了历来是前沿模型死穴的转让条款与控制权变更条款。
不过,Opus 4.7也并非全然遥遥领先,在 Agentic search 评测 BrowseComp 上,Opus 4.7反而从前代的 83.7% 下降到了 79.3%,被 GPT-5.4(89.3%)和 Gemini(85.9%)超越。
这个退步并非偶然。一个遇到缺失信息会直接报错、不肯乱编答案的 Agent,在以「是否给出答案」为评判标准的基准上,天然会吃亏。







向左更多「成绩单」
而数据之外,更值得关注的问题是:这种「靠谱」,在真实工作里到底意味着什么?过去一年,业界对代码大模型的期待,普遍还停留在写个函数、找个 Bug 的层面,但 Claude Opus 4.7在早期测试里,展现出了一种截然不同的气质。
知名云端开发平台 Replit 这样描述:「它在技术讨论中会反驳我,帮我做出更好的决定。它真的感觉像一个更好的同事。」

它不再一味地唯命是从,也不再为了交差而胡编乱造。在数据科学平台 Hex 的测试里,Opus 4.7遇到缺失数据时会直接报错,而不是像前代那样塞一个看似合理但完全错误的备选值。
这种拒绝顺从的特质,恰恰是高级软件工程里最稀缺的东西。
当然,凡事有两面。为旧模型写的 prompt,到了 Opus 4.7 手里可能会产生意想不到的结果。那些过去被模型「意会」的模糊指令,Opus 4.7会一字一字地字面执行。这也意味着越懂得清楚表达需求的人,越能从 Opus 4.7这里拿到好结果。
光会「顶嘴」还不够,遇到挫折就罢工的 AI 同样不是好同事。Opus 4.7的另一个大的亮点,是任务韧性。

以往大模型在多步任务中遇到工具调用失败,往往直接停机报错。Notion 团队测试发现,Opus 4.7的工具错误率降到了原来的三分之一,更关键的是,它能在工具链崩溃时自己绕过障碍,继续把任务跑完。
当 AI 停止谄媚,真正的生产力才开始爆发。
前端框架巨头 Vercel 还发现了一个过去从未有过的行为:Opus 4.7 会在开始写系统级代码之前,先自己进行数学证明。这已经超出了写代码的范畴,进入了严谨工程设计的领域。
雇佣 AI「资深专家」的代价
为了验证它在细节上的处理能力,我设定了三个交互场景,评判标准只有一个:细节是否敷衍,一眼便知。
第一个场景,是让它做一个俯视视角的黑胶唱片机界面,其难点在于「金属光泽」与「呼吸光晕」的呈现。 Opus 4.7并没有用廉价的色彩渐变敷衍了事,而是通过复杂的 CSS 样式叠加,逼真地还原了金属质感。

第二个场景是只用 CSS,不用 Java 做一个 老式电风扇。 面对这个限制严格的题目,一些模型会悄悄违规使用 JS,但 Opus 4.7遵守了规则。

它用纯 CSS 做出了风扇的立体结构,低中高三档过渡流畅,底座透视和阴影的处理也真有一点实物感,它在规则允许的范围内找到了很好的解决办法。
第三个场景是做一个复古磁带随身听,带有录像带那种老旧的噪点效果。磁带转动的细节也是有的。

当然,变聪明是有代价的。Opus 4.7 现已在所有 Claude 产品和 API、Amazon Bedrock、Google Cloud 的 Vertex AI 以及 Microsoft Foundry 平台上推出。
基础定价维持在每百万 token 输入 5 美元、输出 25 美元不变。但 Opus 4.7引入了全新分词器,同样的文本会拆分出比原来多 1.0 到 1.35 倍的 Token。

叠加上它在高强度任务中本身就倾向于「多想一会儿」,实际消耗几乎必然上升。
此外,Anthropic 在原有的难度选项之上, 加入了全新的 xhigh(超高)级别。在这个级别下,面对复杂难题,Claude Opus 4.7会消耗更多的 Token,花更多的时间去「思考」。Claude Code 已经把所有套餐的默认 effort level 直接拉到了 xhigh。
Anthropic 用行动告诉所有人,对于真正的编码任务,省着用不如想清楚。为了匹配这种工作流,Claude Code 顺势推出了两个杀手级功能:
/ultrareview(深度审查):开启一个专门的审查会话,像一个极其挑剔的资深 Reviewer 一样,通读所有代码更改,精准标记出深层的架构设计缺陷和 Bug。Pro 和 Max 用户可以免费试用三次。
Auto Mode(自动模式)扩展到 Max 用户:一种介于逐项授权和跳过所有权限之间的权限模式。Claude 会在你授权的范围内自主做决策,既能跑完漫长无聊的任务,又比完全放权更安全。

为了防止这个「太能思考」的 AI 把账户余额刷爆, API 端还推出了「任务预算」(Task Budgets)功能公测版,让开发者可以显式规划 Claude 在长任务中的 Token 支出优先级。
当然,Opus 4.7并不是 Anthropic 手里最强的牌。那个更强的 Claude Mythos Preview,本月刚以「Project Glasswing」的名义,小范围开放给了一批企业用于网络安全研究。
Mythos 没有公开发布,原因则是因为它的网络攻防能力太强, Anthropic 觉得还没想清楚怎么安全地推给所有人。

Opus 4.7 本身也做了主动取舍,训练阶段就压低了网络攻防能力,内置自动拦截机制,碰到高风险请求直接挡掉。有合规需求的安全研究人员,可以通过官方渠道单独申请。
不急着把最强的牌打出去,和不停地往桌上加新牌,背后是同一套逻辑。实际上,Anthropic 真正的护城河,是交付节奏本身。
在今年 2 月 1 日至 3 月 24 日,短短 52 天里,Anthropic 就一共更新了 74 款产品,平均不到两天一个。Cowork、插件……这些动作扎扎实实地击中了职场办公的痛点,这种频率,够让奥特曼睡不着了。
如今的 Claude 生态,早就超越了单纯的聊天机器人。对于那些渴望将 AI 深度嵌入实际工作流的团队而言,这种稳定、高频且可预期的更新节奏,才是最让人感到踏实的定心丸。
今天发布的 Claude Opus 4.7,是这条链条上最新的一块压舱石。而那个 Mythos Preview,迟早也会亮相。 到那时候,我们现在觉得已经很能打的 Opus 4.7,可能只是个开端。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
在线jjybzxw

UID: 551814


发帖
245399
金币
889990
道行
2006
原创
2465
奖券
3580
斑龄
45
道券
1580
获奖
0
座驾
设备
摄影级
在线时间: 52246(小时)
注册时间: 2008-10-01
最后登录: 2026-04-30
只看该作者 沙发  发表于: 04-17
Anthropic的Claude Opus 4.7:靠谱的AI助手
Anthropic公司推出的Claude Opus 4.7在AI圈子里引起了极大的关注。这款产品不仅热度居高不下,口碑也持续攀升,稳坐AI圈「顶流」的交椅。它的出现解决了一个比聪明更重要的痛点:靠谱。不是那种你说什么它就做什么的靠谱,而是当你提出一个愚蠢的方案时,它敢于反驳你,并自己把坑填上的靠谱。
一、Opus 4.7的性能提升
在业界公认最硬核的SWE-bench Pro上,Opus 4.7从前代的53.4%直接拉到64.3%,单代升级涨了近11个百分点,把GPT-5.4(57.7%)和Gemini 3.1 Pro(54.2%)都甩在了身后。更高的分辨率直接带动了输出质量的连锁提升:生成界面、制作幻灯片、排版文档,细节精度也全面提升。

在工具调用规模化评测MCP-Atlas上,Opus 4.7跑出77.3%,超过GPT-5.4的68.1%和Gemini的73.9%。在法律AI平台Harvey测试中,Opus 4.7在BigLaw基准上拿下90.9%,正确区分了历来是前沿模型死穴的转让条款与控制权变更条款。
二、Opus 4.7的靠谱表现
Opus 4.7在真实工作里展现出了截然不同的气质。它不再一味地唯命是从,也不再为了交差而胡编乱造。在数据科学平台Hex的测试里,Opus 4.7遇到缺失数据时会直接报错,而不是像前代那样塞一个看似合理但完全错误的备选值。

它的另一个大的亮点是任务韧性。以往大模型在多步任务中遇到工具调用失败,往往直接停机报错。Notion团队测试发现,Opus 4.7的工具错误率降到了原来的三分之一,更关键的是,它能在工具链崩溃时自己绕过障碍,继续把任务跑完。
三、Opus 4.7的细节处理能力
为了验证它在细节上的处理能力,我们设定了三个交互场景,评判标准只有一个:细节是否敷衍,一眼便知。

第一个场景,是让它做一个俯视视角的黑胶唱片机界面,其难点在于「金属光泽」与「呼吸光晕」的呈现。 Opus 4.7并没有用廉价的色彩渐变敷衍了事,而是通过复杂的CSS样式叠加,逼真地还原了金属质感。

第二个场景是只用CSS,不用Java做了一个老式电风扇。 面对这个限制严格的题目,一些模型会悄悄违规使用JS,但Opus 4.7遵守了规则。它用纯CSS做出了风扇的立体结构,低中高三档过渡流畅,底座透视和阴影的处理也真有一点实物感,它在规则允许的范围内找到了很好的解决办法。

第三个场景是做一个复古磁带随身听,带有录像带那种老旧的噪点效果。磁带转动的细节也是有的。
四、Opus 4.7的代价
当然,变聪明是有代价的。Opus 4.7 现已在所有 Claude 产品和 API、Amazon Bedrock、Google Cloud 的 Vertex AI 以及 Microsoft Foundry 平台上推出。基础定价维持在每百万 token 输入 5 美元、输出 25 美元不变。但 Opus 4.7引入了全新分词器,同样的文本会拆分出比原来多 1.0 到 1.35 倍的 Token。叠加上它在高强度任务中本身就倾向于「多想一会儿」,实际消耗几乎必然上升。

此外,Anthropic 在原有的难度选项之上, 加入了全新的 xhigh(超高)级别。在这个级别下,面对复杂难题,Claude Opus 4.7会消耗更多的 Token,花更多的时间去「思考」。Claude Code 已经把所有套餐的默认 effort level 直接拉到了 xhigh。
五、Opus 4.7的杀手级功能
为了防止这个「太能思考」的 AI 把账户余额刷爆, API 端还推出了「任务预算」(Task Budgets)功能公测版,让开发者可以显式规划 Claude 在长任务中的 Token 支出优先级。

Claude Opus 4.7的出现,为我们的工作和生活带来了极大的便利。它的靠谱表现和细节处理能力,让我们看到了AI技术的巨大潜力。虽然它的使用代价相对较高,但对于那些渴望将 AI 深度嵌入实际工作流的团队而言,这种稳定、高频且可预期的更新节奏,才是最让人感到踏实的定心丸。
如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
181479
金币
624799
道行
20030
原创
769
奖券
471
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 22893(小时)
注册时间: 2012-06-21
最后登录: 2026-04-30
只看该作者 板凳  发表于: 04-17
Claude Opus 4.7 核心信息汇总
一、发布时间与迭代节奏
于 2026年4月16日 正式发布,延续了 Anthropic 每两个月一次的稳定迭代节奏

二、核心升级亮点
软件工程能力飞跃

在 SWE-bench Pro 基准测试中,得分从 Opus4.6 的 53.4% 跃升至 64.3%,大幅领先 GPT-5.4(57.7%)和 Gemini3.1Pro(54.2%);SWE-bench Verified 得分达 87.6%,CursorBench 从 58% 升至 70%

首次通过“隐含需求测试”,能自主推断所需工具或行动,早期用户评价其“像一个更好的同事”

多模态与视觉能力增强

支持最高 2,576 像素长边(约 375 万像素)的图像输入,是前代的 3 倍以上,可处理密集截图、复杂图表数据提取等精细视觉任务

严格按字面意思理解指令,需重新调整旧提示词以适配新模型

智能体与自动化功能

ClaudeCode 新增 Routines 功能,支持定时、API、GitHub 三路触发,可 7×24 小时云端运行复杂任务,无需依赖本地电脑

在金融分析、法律 AI 等领域表现突出,金融代理测试全球最高分,法律 BigLaw 基准得分 90.9%

三、Token 消耗与成本变化
新分词器使相同内容的 Token 消耗增至 1.0~1.35 倍,高算力模式下输出 Token 亦增加,实际成本变相上涨 10%-35%

定价与 Opus4.6 一致:每百万输入 Token 5 美元,输出 Token 25 美元

四、用户评价与局限
编程能力获认可:复杂编码任务可放心交付,减少人工监督需求

Token 消耗争议:部分用户反馈输入 Token 飙升至前代的 3 倍,且长上下文检索能力下降

非全面领先:Agenticsearch 评测被 GPT-5.4 反超,与 Anthropic 最强模型 ClaudeMythosPreview 存在全方位能力差距
如何不发帖就快速得到金币道行
 
我有我可以

UID: 2158359

发帖
1834
金币
355
道行
100
原创
2
奖券
20
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 605(小时)
注册时间: 2023-03-04
最后登录: 2026-04-30
只看该作者 地板  发表于: 04-17
‌Claude Opus 4.7 已于2026年4月17日正式发布,虽非最强模型,但在可靠性、工程能力与视觉精度上实现关键跃升‌,成为当前最强大的通用可用AI之一。

这款新模型在多个核心维度展现出显著进步:

‌更强的软件工程能力‌
在业界公认的高难度编码基准 SWE-bench Pro 上,Opus 4.7 的表现从上一代的 ‌53.4% 提升至 64.3%‌,单代跃升近11个百分点,超越 GPT-5.4(57.7%)和 Gemini 3.1 Pro(54.2%),能独立处理复杂、需长期运行的编程任务。

‌高分辨率视觉理解能力翻倍‌
支持输入高达 ‌2576像素长边的图像‌,是前代的三倍以上,使AI能精准识别UI截图、复杂图表中的微小元素。在 ScreenSpot-Pro 等测试中,定位精度从57.7%提升至 ‌79.5%(无工具)‌,叠加工具调用后达87.6%。

‌更“靠谱”的行为模式‌
不再盲目顺从指令,而是具备“顶嘴”能力:当用户提出不合理请求时,会主动反驳并修正方案。在数据缺失时选择报错,而非伪造填补,显著提升在金融、法律等高风险场景下的可信度。

‌任务韧性与自我修复能力增强‌
在多步工具调用中,工具错误率降至原来的三分之一,并能在链路崩溃时自主绕过障碍继续执行。Anthropic 展示了其在无人干预下从零构建完整 Rust 文本转语音引擎的案例。

‌新增网络安全防护机制‌
首次集成 Project Glasswing 框架的防护功能,可自动检测并阻止高风险的网络攻击请求,为通用模型注入安全基因。

尽管其在 Agentic search 基准(BrowseComp)上略有退步(从83.7%降至79.3%),但这源于其“不编造答案”的严谨性,反而体现了对事实完整性的坚守。

定价维持不变:‌每百万输入 tokens 5美元,输出 tokens 25美元‌。但因新分词器导致相同内容消耗更多 tokens(约1-1.35倍),实际成本略有上升。
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个