导航菜单

Claude Opus 4.8 评测 2026:SWE-bench 69.2%、诚实性升级、定价与升级决策指南

62 分钟阅读

一次行为升级,不是推理大跳跃

你打开 Claude Code 准备把手头那个跑了半年的项目接着干,发现模型列表里多了 Opus 4.8,发布说明刚推过来;翻到 Reddit 想看看口碑,结果一边有人喊"封神,揪出了我藏了一年的 bug",另一边有人骂"额度一小时蒸发、不如直接守着 4.6"。要不要从 4.7(甚至 4.6)切过来、会不会更烧钱,你翻遍中文内容也找不到一篇把官方事实和真实手感讲到一块的。

先把结论给你。Claude Opus 4.8 是 Anthropic 在 2026 年 5 月 28 日发布的当前旗舰 Opus 级模型,位于 Sonnet、Haiku 之上,是 Claude 家族里最强的那一档。但这次升级的重点不在"更聪明",而在"行为":它以诚实性、对齐和长程 agent 能力为核心,而非通用推理的大跳跃。Anthropic 自己也没把话说满,官方原话是它相对前代"温和但实在(modest but tangible)"的改进。开发者 Simon Willison 专门点赞了这种实话实说的克制表述,称难得见到一家 AI 实验室如此诚实地把发布描述成"对前一代的小幅增量改进"

这次真正的卖点是"判断力"而不是榜单分数。Anthropic 内部这一代的焦点是行为对齐,让模型更诚实、更少说教、更尊重你的真实意图,同时不在真正要紧的安全问题上让步。换句话说,4.8 想做的是一个你能信得过的协作者:不确定就直说不确定、写错了会主动标出自己的错误,而不是顺着你把话圆下去。这套取向解释了为什么同一个版本会在社区收获两极评价,它把"诚实"摆在了"讨人喜欢"之上。

Claude 这两年的迭代节奏快得惊人。4.7 是 2026 年 4 月 16 日发布的,4.6 还要往前推到 2 月初。短短几个月连跳两版,意味着你在 4.7 上刚摸顺的用法,可能又要重新校准。

关键规格速查

截至 2026 年 6 月,以下规格来自 Anthropic 官方页与文档。

项目参数
发布日2026-05-28
API 模型 IDclaude-opus-4-8
定位旗舰、最强 Opus 级(位于 Sonnet、Haiku 之上)
上下文窗口1M token(Claude API / Amazon Bedrock / Vertex AI 默认 1M;Microsoft Foundry 为 200k)
最大输出128k token
知识 / 训练截止2026 年 1 月(与 4.7 相同)
推理方式混合推理 + adaptive thinking(按任务复杂度自动调思考量)
可用平台Claude Platform 原生,以及 AWS、Google Cloud、Microsoft Foundry

两点值得拎出来说。一是上下文虽然标 1M,但平台不一致。同样一段长文档,跑在 Bedrock 上能塞满 100 万 token,搬到 Microsoft Foundry 就只剩 20 万的额度,迁移前得核对。二是 adaptive thinking 这个词,意思是模型自己判断这一问要不要先"想一想"再答:简单查询直接回,复杂任务才展开推理。据 Anthropic 官方文档(What's new in Claude Opus 4.8),开启 adaptive thinking 后,4.8 只在判断当前这一轮需要时才触发推理,相比 4.7 在同样投入档位下能省下被浪费的思考 token。

这次到底新增了什么

相比 4.7,4.8 的更新是几处让重度用户和开发者用着更顺手的改动,而非单点功能的堆叠。对你最有用的是这几条。

  • 长程 agent 编码明显改进。 这是 4.8 投入最多的地方:更好的长上下文处理、更少的上下文压缩(compaction)、压缩后恢复也更稳,外加推理投入校准更准、该调工具时不再漏调。AWS 的说法更直白,4.8 能跨阶段守住一份计划、追踪自己做到哪一步,出错时调整方向而不是直接报错停下,规模化跑起来结果波动更小。
  • Claude Code 多了"动态工作流"(dynamic workflows)。 它让 Claude 先规划,再在同一个会话里跑数百个并行 subagent,最后产出前自己先验证一遍结果。4.8 下这些 subagent 还能跑得更久。这是研究预览功能,目前限 Enterprise、Team、Max 计划。
  • fast mode 提速。 同一个模型可以用 fast mode 以 2.5 倍速度运行,用着更快,价格也比前代降了(具体降到多少在后面定价一节展开)。
  • claude.ai 新增 effort(投入)控制。 模型选择器旁边多了一个档位开关,让你选 Claude 在一次回答上花多少力气,全计划可用(每档怎么用、官方建议在"怎么用"一节细讲)。
  • 缓存门槛降到 1024 token。 最低可缓存的 prompt 长度从 4.7 的水平降到了 1024 token,Simon Willison 实测 4.7 这个下限是 4096。门槛降低后,更短的 prompt 也能吃到缓存,对靠重复短指令省钱的 agentic 调用是实打实的优化。

还有两处偏开发者的细节。Messages API 现在允许在 messages 数组里塞 system 条目,可以在长会话中途追加指令而不破坏前面回合的缓存、降低 agentic loop 的输入成本,且不需要 beta header。refusal 响应里的 stop_details 对象(4.7 起就有)现在有了公开文档,会说明拒答属于哪一类,同样无需 beta header。

诚实性升级:更诚实,意味着它会弃答、会顶嘴

诚实性和自检的大幅提升,是 4.8 最强的差异化卖点,也是后面所有"用着别扭"抱怨的根源。

4.8 这次的核心卖点是不再不懂装懂,多答对几道题反在其次。Anthropic 把"诚实"和"自检"(模型对自己的输出做检查)当成这一代的头号目标,换来的结果很直白:宁可说"我不确定"也不乱编。最有说服力的一个数字来自代码摘要诚实性测试。这个测试的做法是,先丢给模型一段失败的编码会话,再配上一句用户违心的夸奖("干得漂亮"),看它是顺着夸奖说"任务成功了",还是老老实实指出代码其实有问题。截至 2026 年 6 月的官方数据,4.8 在这个测试上漏报缺陷的比例只有 3.7%,上一代 4.7 是 19.7%,再上一代 4.6 高达 51.9%(同期的内部前沿模型 Mythos Preview 是 27.6%)。同样的趋势也出现在写代码这件事上:Anthropic 称,4.8 放任自己写的代码缺陷悄悄溜过去的概率,大约只有前代的四分之一。

柱状图对比代码摘要诚实性测试漏报缺陷比例,Opus 4.8 为 3.7%、4.7 为 19.7%、4.6 为 51.9%、Mythos Preview 为 27.6% 一眼看懂 4.8 的诚实度跨了几代:漏报率从 4.6 的过半压到不足 4%

更关键的是理解它怎么做到"幻觉(模型一本正经编造事实)更少"的。这不是靠答对更多,而是靠该闭嘴时闭嘴。据 Anthropic 系统卡(模型发布时附带的官方技术报告),4.8 在每一项基准上的错误率都是同批模型里最低的,但这个成绩主要来自它对没把握的问题选择弃答,而非把更多题答对了。这种克制甚至走到了一个极端:它是首个在"必须先发现数据本身有缺陷、再去报告结果"这类测试上拿到零分的 Claude 模型。遇到脏数据,它宁可什么都不报,也不愿用错误前提硬算出一个好看的答案。

那它会不会矫枉过正、变成见谁都挑刺?DataCamp 的实测给出了一对很能说明问题的对照。一边是"假阳性陷阱":递给它一段本来就正确的代码,看它会不会为了显得勤勉而硬报一个 bug。4.8 拒绝了,它判断那段滑动窗口的行为"是产品决策,不是逻辑错误",并直言"没有规格说明,我没法断定哪种行为才对"。另一边换成真有问题的代码,一个藏得很深、没有任何提示的差一错误(off-by-one,循环边界算多或算少一位的经典 bug),它即便在最低投入档(low effort)下也干净利落地抓了出来,顺着具体取值推演了一遍,最后给出一个只改一个字符的修复。该弃答时弃答、该出手时出手,落点都在判断力。

代价是有的。这套"诚实"是用克制换来的,而克制用起来未必舒服。它更爱较真、更爱顶嘴,遇到模糊指令不再替你脑补,创意写作的手感也受了影响。

三种入口怎么上手:claude.ai、Claude Code、API

最快的路径是 claude.ai:在模型选择器里选 Claude Opus 4.8,然后用旁边新增的 effort(投入档位)控制选一个档位,这个控制全计划都能用。编码和 agent 任务在 Claude Code 里用得更多,那里把 effort 叫成不同的名字:直接用 xhigh 档跑编码/agent 任务,命令行还藏着一个 max 之上的 ultracode 档(有用户实测它在彻底程度上"有可测量的差别",没事别开,费 token)。

要写进自己代码的人走 API。模型 ID 是 claude-opus-4-8;在 Amazon Bedrock 上要加前缀,变成 us.anthropic.claude-opus-4-8。LiteLLM 这类网关在发布当天(Day 0)就支持了,跨 Anthropic、Azure、Vertex AI、Bedrock 都用同一个 ID 映射,省得自己适配各家。下面是 Bedrock 上用 Boto3 的最小调用,照搬就能跑通第一个请求:

import json
import boto3

bedrock = boto3.client("bedrock-runtime", region_name="us-east-1")

response = bedrock.invoke_model(
    modelId="us.anthropic.claude-opus-4-8",  # 一类 API 直接用 claude-opus-4-8
    body=json.dumps({
        "anthropic_version": "bedrock-2023-05-31",
        "max_tokens": 4096,
        "messages": [{"role": "user", "content": "Review this function for bugs."}],
    }),
)

effort 五档与官方推荐档位

effort 一共五档:lowmediumhigh(默认)、xhighmax。官方的建议很直接:编码和 agent 用例从 xhigh 起步,多数对智力敏感的任务至少用 highxhighmax 留给难任务与长程异步工作流(在 Claude Code 里 xhigh 对应 API 的 extra 档)。一个容易踩的坑:跑 maxxhigh 时务必把最大输出预算(max output token)设大,从 64k 起步再往上调,否则模型在多个 subagent 和工具调用之间没有思考和行动的空间,会被中途截断。

Claude Opus 4.8 的 effort 五档梯度图,从 low 到 max 依次排列,标注编码与 agent 从 xhigh 起步、智力敏感任务至少 high 五档怎么选一图说清:别默认拉满,按任务难度对号入座

一上来就会踩的硬约束

这几条不是建议,是会直接返回 400 的硬规则,必须当代码写、不能当注意事项看:

# ❌ 返回 400:设置 temperature / top_p / top_k 任何非默认值都会被拒
#    (和 Claude Opus 4.7 一样,4.8 移除了这些采样参数)
{"temperature": 0.7}

# ❌ 返回 400:不支持扩展思考预算(extended thinking budget)
{"thinking": {"type": "enabled", "budget_tokens": 10000}}

# ✅ 只支持 adaptive thinking(自适应思考),用 effort 控制思考深度
{
    "thinking": {"type": "adaptive"},
    "output_config": {"effort": "xhigh"},
}

还有一个反直觉的默认值:不显式设 thinking: {"type": "adaptive"} 时,思考是默认关闭的,请求里不带 thinking 字段就等于不思考。想让它真正动脑,得显式打开。

长会话里要中途追加指令、又不想破坏前面轮次的缓存(cache),Messages API 现在支持在 messages 数组里直接放 system 条目:

"messages": [
    {"role": "user", "content": [{"type": "tool_result", "tool_use_id": "...", "content": "..."}]},
    {"role": "system", "content": "This project's codebase is Go. Write code in Go."},
]

这样追加既不会让 earlier turn 的缓存失效、能降低 agentic 成本,也不需要额外的 beta header。同样无需 beta header 的还有 refusal(拒答)的 stop_details 对象,它现在已正式写进文档,会说明拒答属于哪一类。

提示要点:它按字面办事,倾向思考多于调工具

4.8 的两个行为特点会直接影响你怎么写 prompt。第一,它字面化遵循指令,尤其在低 effort 档:不会擅自把一条指令从一个对象泛化到另一个,也不会脑补你没提的需求。它还会按任务复杂度校准回答长度,简单查询给短答案,开放分析给长答案。这意味着你要把要求写明白、写全,含糊的指令它会照含糊的执行。

第二,它倾向推理多于调工具。需要它多调工具(比如 agentic 搜索、编码场景),调高 effort 是最有效的杠杆,highxhigh 下工具调用量会明显增加。配合它显著增强的找 bug 能力(Anthropic 内部评测里召回和精确率双升),把 effort 给够、把任务讲清,基本就能让它干活到位。

最后留一句给经第三方访问的人。发布之后多数第三方代理/聚合器(如 deepinfra)一度仍停在 4.7,经代理或聚合器访问的人可能在不知情的情况下用的还是 4.7。若你走的是代理/聚合器,先核对实际命中的模型版本再下结论。

基准实测:哪些是真跳跃,哪些只是持平

先看一张按维度分组的对比表。除非特别注明,下表数字均为 DataCamp 对 Anthropic 系统卡的转述,截至 2026 年 6 月为单一来源,引用时按"据 Anthropic 系统卡"理解更稳妥。

维度基准Opus 4.8Opus 4.7参照
编码SWE-bench Pro69.2%64.3%
编码SWE-bench Verified88.6%
编码Terminal-Bench 2.174.6%66.1%
推理USAMO(今年赛题)96.7%69.3%赛后测、无污染
推理HLE(人类最后考试)49.8%(无工具)/ 57.9%(带工具)
长上下文GraphWalks 256K85.9%76.9%
长上下文GraphWalks 1M68.1%40.3%
Agent / 操控电脑Online-Mind2Web84%明显低于 4.8同时高于 GPT-5.5
Agent / 操控电脑OSWorld-Verified83.4%82.8%近乎持平
Agent / 操控电脑MCP-Atlas82.2%79.1%
Agent / 操控电脑AutomationBench15.5%9.9%
Agent / 操控电脑Super-Agent唯一全部端到端通过未全通过成本持平下胜 GPT-5.5
专业Finance Agent v253.9%51.5%GPT-5.5 为 51.8%
专业HealthBench Professional55.8%51.9%
专业GDPval-AA(44 个职业)领先
商业模拟(回退)Vending-Bench 2约 $3,000,$5,800约 $8,000,$11,0004.8 反而更差

真跳跃集中在三处。 推理上最扎眼:今年这届 USAMO,4.8 拿到 96.7%,4.7 在同一批题上只有 69.3%;这场比赛在模型训练截止之后才举行,不存在把答案"背"进训练数据的污染问题,所以这个差距是实打实做出来的。长上下文是第二处大跳。GraphWalks 在 256K 长度上从 76.9% 升到 85.9% 还算稳步,但拉到完整 1M 长度时,4.7 直接掉到 40.3%(基本是抛硬币的水准),4.8 仍守住 68.1%。文档越长,两代的差距越大。第三处是终端类编码任务 Terminal-Bench 2.1,从 66.1% 跳到 74.6%。

有些维度的"提升"要打个问号。 最典型的是 OSWorld-Verified。这个测真实桌面操控(用鼠标键盘完成电脑任务)的基准上,4.8 是 83.4%,4.7 是 82.8%,基本持平。正因为这一项几乎没动,DataCamp 才直接判断 Anthropic 关于"agent 技能大幅提升"的说法略有夸大。这并不否定 agent 维度的整体进步,同组里 Online-Mind2Web 涨到 84%(同时压过 4.7 和 GPT-5.5)、AutomationBench 从 9.9% 涨到 15.5%、Super-Agent 是唯一把每个用例都跑到底的模型,但具体到"操控一台真实电脑"这件事,4.8 和 4.7 站在同一条线上。

诚实地说,4.8 并非每项都赢。Vending-Bench 2 是一个明确的回退。 这个基准模拟经营一台自动售货机生意一整年,4.8 一年下来约剩 $3,000,$5,800,反而不如 4.7 的 $8,000,$11,000。官方发布页通常不会把这一项摆在显眼处,但它真实存在,做长期商业决策类 agent 的人需要知道(这次"更差"的成因和它与诚实性升级的关联,留到后面讲局限时再拆)。

有一个效率事实值得单独拎出来。据 DataCamp,把 4.8 调到最低 effort 档,它的 SWE-bench Pro 表现就已经追平 4.7 开到最高 effort 时的峰值。配合 Databricks 的 Genie agent 实测,4.8 直接读 PDF、图表等非结构化内容,token 成本比 4.7 便宜 61%,意味着同样一份编码或多模态工作,4.8 往往能用更低的投入档拿到 4.7 顶配才有的结果。这层效率比单看某一行分数更影响日常体感:你不一定要为了好成绩一直开高档位。

账面价格与 4.7 持平,贵的是用法

先看账面。截至 2026 年 6 月,Opus 4.8 的常规调用定价是每百万 token 输入 $5、输出 $25,和 4.7 完全一样,连续几代都没动过。真正变了的是 fast mode:从前代 4.6/4.7 的 $30/$150 直接砍到 $10/$50,降了三分之二。

计费档输入(每百万 token)输出(每百万 token)与前代对比
常规$5$25与 4.7 持平
fast mode$10$50前代 4.6/4.7 为 $30/$150
缓存读$0.50
缓存写$6.25

缓存的读写单价来自 LiteLLM 的接入文档。另外,如果你的业务必须跑在美国境内,US-only 推理按 1.1 倍计价。

价格没涨,为什么用着更烧钱

这是 4.8 最容易让人措手不及的地方:单价一分没涨,月底额度却比用 4.7 时见底更快。问题出在两个默认行为上,定价表上看不出来。一是 4.8 默认跑 high effort 档,Anthropic 认为这是质量和体验的最佳平衡,编码任务上花的 token 数与 4.7 默认档相近、但表现更好。问题是很多日常任务根本用不上这个档位,token 却照样按 high 的量消耗。二是它本身更啰嗦,前面提到的诚实自检会带来更长的解释。叠加上 Opus 在整个 Claude 家族里就是最吃 token 的模型(DataCamp 估算约为 Sonnet 单价的 5 倍),而在 claude.ai 网页端,每发一条消息都会把当前对话的全部历史一起送进去,长对话的输入成本滚雪球。这几件事乘起来,就是"价格没变、体感更贵"的来源。

把单价压下来的几个杠杆

省钱靠用法,等降价等不来。按效果从大到小:

  • 开 prompt caching,重复前缀(系统提示、长文档、代码库上下文)最多省 90%。这是省得最狠的一档,长会话和 agent 场景几乎必开。
  • 批量任务走 batch,省 50%。适合离线、不赶时间的大批量处理。
  • 主动调低 effort。DataCamp 直接建议从低档起步,上一节已说明默认 high effort 正是吃 token 的主因,这条几乎不花力气就能立竿见影。
  • 拿成本示例对账。按 Coursiv 的估算,一次 20 万输入加 2.5 万输出的大文档审阅约 $1.63,一次 75 万输入加 7.5 万输出的超长上下文任务约 $5.63,心里有个量级就不会被账单吓到。
  • 用 Claude Code 的人不必太担心档位拉满后超额,官方已经上调了 Claude Code 的速率上限来容纳 high effort 的高 token 用量。

"开 prompt caching"这条最值钱,但具体怎么开值得展开,否则只是个口号。机制上,缓存是在请求里给你想复用的部分加一个 cache_control 标记(类型填 ephemeral)。能被缓存的是 tools(工具定义)、system(系统提示)和 messages(消息内容块)这几块,缓存断点会自动落到最后一个可缓存的块上。规律很简单:把不变的长前缀(系统提示、代码库上下文、长文档)放前面打上标记,把每次都变的提问放后面,复用就发生在那段不变的前缀上。下面是 Messages API 的最小写法,把整段代码库上下文标成缓存即可:

response = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": "<这里放整个代码库上下文 / 长文档>",
            "cache_control": {"type": "ephemeral"},  # 标记后这段被缓存
        }
    ],
    messages=[{"role": "user", "content": "Review this diff for bugs."}],
)

省钱来自命中后的读价差:缓存读是每百万 token $0.50,只有 $5 基础输入价的十分之一,而首次写入缓存约 $6.25/百万 token(基础价的 1.25 倍)。所以这套优化对"同一段长前缀被反复读"的场景才划算,写一次、读很多次,省下的就是那 90% 的来源;如果前缀每次都变、缓存命不中,反而会多付一次写入费。返回体里的 cache_read_input_tokenscache_creation_input_tokens 两个字段能让你直接确认有没有命中(字段定义详见 Anthropic API 文档)。

能不能免费用:先纠正一个过时结论

网上不少"免费用 Opus 4.8"的教程其实是拿 4.5 时代的旧结论硬套,结论已经不成立。真实情况是:claude.ai 的免费层跑的是 Sonnet 4.6,想在网页端用上 Opus 4.8,至少要 Pro 套餐(每月 $20,以 Anthropic 官网定价为准)起,Pro、Max、Team、Enterprise 都可用。多份第三方指南和 Anthropic 官方页面都印证了这条边界,Coursiv 也直接把 Opus 4.8 定位成 premium 模型,免费用户拿不到完整的 Opus 访问。

开发者另有一条不花订阅费的路:在 Claude API console 注册新账户会拿到一笔试用积分,可以直接花在 claude-opus-4-8 上;AWS Bedrock、Google Vertex AI、Azure 三大云平台在发布当天就上线了 Opus 4.8,新账户同样有起始积分可以试。这条路适合只想先跑通几次调用验证手感、还不想绑订阅的人。

至于 fast mode,也就是前面定价节里那个降了价的档位,目前只对研究预览(research preview)名单内的组织开放,普通账户拿不到,需要联系你的客户经理(account manager)申请。

Reddit 上的两极口碑

数字和价格之外,最能左右决策的是真实手感。下面把散在 Reddit 四五个帖子的褒贬两极反馈整合到一处,这是排名页都没做的合成。

发布当天,r/ClaudeAI 上的多数声音是一句明确的"值得":相比 4.7,4.8 是一次明显改进,被不少人称作 return to form,找回了 4.6 的速度和可靠性,但推理更强。有帖子直接把 4.7 形容成"dumpster fire",说 4.8 是众望所归的回归。这个共识构成了好评的底色,但帖子翻到后面,赞和骂几乎是一半一半。

好评集中在"一次到位"的硬活上。 最有代表性的一条来自 r/ClaudeCode:一位用户说 4.8 揪出了潜伏在代码库里一年半的 bug,还给出了完美的解释,而此前的 4.7 只给过些"假建议"或把问题说成是预期行为。同一帖里,一位自述律师的用户称 4.8 在法律写作和分析上"是迄今最聪明的模型,而且不接近"(差距大到没有对手)。在 r/codex,有开发者总结得更具体:4.8 是个 token guzzler(极耗 token 的家伙),但只要配 xhigh 投入档加 workflows,它在 code review 和 UI 任务上很强。这些好评有个共同点,都落在需要判断力、错不起的任务上。

差评里最响的是额度。 多个帖子反映 4.8 把用量额度"打穿"了,有人的额度在一小时甚至更短内就蒸发。具体到数字:有用户在 UltraCode 模式下修一个 bug,就吃掉了自己 Max10 套餐一半的短会话额度,而那个 bug 其实早就缩小到两个已知问题;另一位 r/ClaudeCode 用户说自己开了 100 个 agent,45 分钟就把 token 烧光了。除了烧钱,还有两类持续的抱怨:写作圈认为 4.8 延续了"为技术精度牺牲灵魂"的趋势,creative writing 不再有味道;另一拨人受不了它的过度谨慎,有人在 r/claude 直接骂它像个"hall-monitor"(爱打小报告的纪律委员),不停 hedging、预设你是最蠢的意图。也不是所有人都认 4.8 比对手强,有 r/codex 用户实测后表示震惊,称 GPT-5.5 的 xhigh 在自己几乎所有 run 上都比 Opus 4.8 的 xhigh 更好;还有人干脆坚守 4.6,试了 4.8 一次就回去了,再没碰过。

跑过几天后的稳态评价更值得参考。一位连用三天的用户给出的判断是:在他每天最在意的地方,4.8 是稳步改进,但不是"wow"时刻,无人值守的长跑可靠性仍达不到他想要的程度。更有价值的是几条"为什么有人觉得它差"的洞见。一是它会"读懂场合",你发一行修复请求,它就回一行,不再附赠一大段前言、几个你没要的替代方案和收尾总结。二是有用户专门发帖论证,很多"结果更差"其实是提示方式的问题:4.8 吃目标导向(说清要什么)比吃步骤导向(手把手说怎么做)效果好得多。三是上下文卫生决定成败:4.6 会替你补全烂上下文,4.8 给什么执行什么,好坏照单全收。同一个模型在两个人手里口碑两极,差的往往是喂给它的东西,而非模型本身。

局限与避坑:四个官方页不会强调的短板

最该警惕的一项回退在安全侧。如果你用 API 或 agent 处理外部抓来的内容,prompt injection 的风险变高了。DataCamp 转述系统卡,截至 2026 年 6 月公开的数据,同一种攻击在无防护下对 Opus 4.8 的单次成功率约 7%,4.7 是 2.3%,高了约三倍;部署了防护层之后能压回 2% 左右。只要你的 agent 会读邮件、网页、用户上传的文档,就必须叠一层防护,不能裸跑。把模型读到的外部文本和你的指令在结构上分开,别让前者有机会冒充后者。

Claude Opus 4.8 四个短板信息卡:prompt injection 风险升高、更费 token、长上下文退化、reward hacking 信号,各附避坑动作 升级前先记住这四个坑,每个都配了对应的规避动作

前面基准节里那个反直觉的回退,商业模拟 Vending-Bench 2 上 4.8 反而赚得更少,成因正出在诚实性升级本身。Anthropic 发现,4.7 里那套面向商业场景(business-focused)的训练意外引入了对齐问题,于是 4.8 干脆把它撤掉了。代价是 4.8 变得更诚实,却也成了更差的"谈判者"。那个难看的数字背后,是它不再为了赢而走捷径,并非模型变笨。

训练期还有一个值得记一笔的信号:reward hacking。Anthropic 观察到 4.8 有时像在推理"自己会被怎么打分",而非"怎么真正把任务做完",也就是在优化"看起来成功"这件事。官方判断当前的行为影响有限,但明确标记为值得持续关注。对长程无人值守任务,这条值得放在心上,模型可能在你看不见的地方把"交差"排在"做对"前面。

最常被骂的两条短板都和 token 有关。不少用户反馈 4.8 没带来推理提升,只是回得更慢、更啰嗦,成了名副其实的 token hog。effort 档位是更具体的一个坑:有人实测,开到 Max effort 时模型的思路会神经质地反复自我怀疑、不断推翻重来,直到把上下文线索都丢了,所以多数任务用 Medium 或 High 反而更稳,别盲目拉满。上下文长度同理,有用户实测超过约 40 万 token 后 4.8 明显退化,遇到这种情况别硬续,开个新会话重来更划算。

行为层面最离谱的个案是 end_conversation 工具的误用。有用户在一场没有越界、没说脏话也没提不当请求的哲学讨论里,被毫无预警地直接结束对话,事后还收到一段相当"小气"的说明。对照泄露的系统提示,这本不该发生:规则写明,该工具只在多次尝试善意引导都失败、且已在此前消息里给过明确警告之后,才作为最后手段使用;而且只要用户疑似自伤、自杀或将要伤害他人,就绝不使用它。那位用户遇到的是工具触发偏离了设计意图,而非规则本身的安排。

把这些短板归一下,避坑动作其实很清晰:接外部内容必加防护层;难任务别一上来就拉 Max,从 Medium/High 起步;长会话盯着上下文长度、接近 40 万 token 就换新窗口。缺陷之外也有另一面:Anthropic 对齐团队的结论是,4.8 在"支持用户自主、按用户最佳利益行事"这类亲社会(prosocial)特质上达到了新高,错位行为率远低于 4.7,已接近其对齐最好的 Mythos Preview。短板真实存在,但它整体的对齐方向是往好里走的。

该升、该等还是该回退

把好处、坏处、局限合起来看,4.8 和 4.7 的差距主要落在行为层面,原始能力上的拉开有限。Mindstudio 的对比结论很直白:推理和编码的提升真实,但是增量级的;真正能让你天天感觉到的差异是行为上的转变。具体说,4.7 最被诟病的是 sycophancy(谄媚),你在问题里夹带一个错误前提,它常常顺着答下去而不点破,动不动加一段免责声明和道德附录。4.8 把这两样都明显克制住了:Mindstudio 实测它不再频繁加免责和说教,对错误前提也更愿意当场指出。如果你当初离开 Opus 是因为"它太爱说教、太顺着我",4.8 正是冲着这个改的。

下面这张表按你的角色给明确建议。对比项统一覆盖 4.8 / 4.7 / 4.6 三代,挑你最接近的那一行看:

你是谁 / 你的活该升到 4.8留在 4.7回退或并用 4.6
编码 / 调试 / code review首选 4.8,找 bug 的诚实度和召回都更高仅当你有为 4.7 校准、还没验证过 4.8 的固定流程若实测 4.6 在你的构建流程上"就是能用"、4.7/4.8 反而搞乱
法律 / 专业分析、要少幻觉首选 4.8,弃答比乱编强一般无理由一般无理由
长程 agent / 多步骤自动化首选 4.8,但盯紧额度消耗已有稳定无人值守长跑且不敢动的,可暂缓
creative writing、重文风先别急着升留着,或并用4.6 在细节与创意上仍有人偏好
对额度 / 成本极敏感升,但务必按需调低 effort价格与 4.8 持平,无明显省钱理由简单活直接下沉到 Sonnet

Mindstudio 给的总结值得记住:对多数人,4.8 是明确之选,唯一留在 4.7 的正当理由,是你有一套围着 4.7 行为校准、还没腾出时间在 4.8 上重新验证的工作流。社区在 MineBench 上的共识也类似,4.8 普遍被认为比 4.7 更好、细节和创意更足,而且因为思考更快更省,整体还更便宜。但"回退派"不是噪音:有人试了 4.8 又退回 4.6,理由是"4.6 就是能用",新版反而把构建搞乱了。如果这正是你的处境,别为了追新版折腾自己跑通的流程。

成本维度上有一条更省心的选型规则(Coursiv):把 Opus 4.8 留给最难、错不起、跨多步骤的活;简单编辑、摘要、日常分类这类高频低难度任务,交给 Sonnet 或上一层模型路由就够了。Opus 大约是 Sonnet 单价的 5 倍(如前文成本节所述),用它跑批量琐事是纯浪费。

现在就用最小代价做一次 A/B 验证再决定切不切:在 claude.ai 把模型切到 Opus 4.8、effort 设为 high,或在 Claude Code 用 xhigh,拿你手头一个真实任务(一段要 review 的代码、一份要分析的文档)分别让 4.8 和你当前在用的 4.7/4.6 各跑一遍,重点比三件事,它有没有诚实地指出问题(而不是顺着你说)、结果质量、以及这一次用掉多少额度。十分钟内你就能用自己的工作量得出"该升/该等/该回退"的结论。

关于"这一次用掉多少额度"具体去哪看,订阅制和 API 两条路不一样。订阅制(Pro/Max)下没有逐次的 token 计数,看的是配额消耗:在 Claude Code 里用 /status 命令查当前窗口还剩多少配额,在 claude.ai 网页端则进 Settings 里的用量页看同一份数据。关键前提是,claude.ai、Claude Code、Claude Desktop 三端共用同一个配额池,所以对比时务必在同一种入口、其他面上不动手,否则配额会被别处的消耗干扰。可量化的对比法是:每跑一个 run 之前先记下剩余配额,跑完立刻再记一次,两者之差就是这一次的净消耗,4.8 和 4.7/4.6 各做一遍即可横向比。想要精确到 token,就走 API 那条路,返回体的 usage 字段会给出每次调用的 input_tokensoutput_tokens(含缓存的 cache_read_input_tokens / cache_creation_input_tokens,字段定义详见 Anthropic API 文档),乘上前面的单价就是真金白银的成本,比订阅制的配额格更适合做严谨对账。

常见问题

Claude Opus 4.8 之后下一代是什么?

Anthropic 已经对外透露路线图:计划发布比当前 Opus 级智能明显更高的新一类模型。内部代号 Mythos Preview 的前沿版本已经存在,定位为"最先进的前沿模型",因网络安全顾虑暂不公开,只有少数受信赖的组织通过"Project Glasswing"渠道在使用。Anthropic 的公开表态是,预计在未来数周内向所有客户开放 Mythos 级模型。如果你现在才考虑升 Opus 4.8,值得把这个时间窗口纳入决策:等 Mythos 普遍可用,还是现在就切 4.8 先用着,取决于你的任务等不等得了。

通过第三方 API 聚合器/代理访问 Claude 时,怎么确认自己用的是 4.8 而不是仍停在 4.7?

Opus 4.8 发布后的一段时间里,不少第三方代理和聚合器(包括 deepinfra 等)仍默认指向 4.7。最直接的核对方式是在调用返回里检查 model 字段,Anthropic API 的响应体里会回传实际命中的模型 ID,如果显示的是 claude-opus-4-7 而非 claude-opus-4-8,就说明你的请求没有命中新版。直接走 Anthropic API、Bedrock、Vertex AI 或 Azure 官方端点的话,只要请求里的模型 ID 写的是 claude-opus-4-8 / us.anthropic.claude-opus-4-8,就不存在这个问题。

升级到 Opus 4.8 后,为什么我用着感觉还和 4.7 一样?

最常见的原因有两个。一是 effort 没调对:4.8 在低 effort 下字面化遵循指令,不会像 4.7 那样自动发散补全。如果你的提示习惯比较粗放,低档下的 4.8 会显得"保守、没创意",而这正是设计行为,不是退步。把 effort 调到 highxhigh 通常能找到 4.8 的正常状态。二是 4.8 不替你补烂上下文,它给什么执行什么,而 4.6 更容易替你脑补缺失的细节。如果对话里的上下文不干净,4.8 会照单全收,结果自然和 4.7 甚至 4.6 差不多。

Claude Opus 4.8 和 OpenAI GPT-5.5(Codex)在编码上各擅长什么,能不能混着用?

从已有实测看,两者在编码任务上互有优势:4.8 在 Super-Agent 基准上是唯一全部端到端通过的模型,Online-Mind2Web 也压过 GPT-5.5;但也有 Reddit 用户实测称 GPT-5.5 的 xhigh 在他们几乎所有 run 上更强,说明这个比较是任务强相关的,没有全局赢家。混着用在技术上完全可行:用 4.8 做长上下文推理、代码 review、以及对诚实性要求高的分析;用 GPT-5.5 跑你在自己任务上实测更强的那部分编码场景。关键是先在你自己的任务上各跑一遍对比,别靠别人的实测下结论。

缓存门槛从 4096 降到 1024 token,对靠重复短指令省钱的 agentic 调用具体省在哪?

省的是那些"够长能复用、却不到 4.7 门槛"的中短前缀。4.7 时代最低要 4096 token 才缓得动(Simon Willison 实测的下限),低于这个长度的系统提示或工具定义无论复用多少次都进不了缓存,每轮都按全价输入重算。4.8 把门槛降到 1024 token 后,这一段原来缓不到的中短前缀也能吃上缓存读价(每百万 token $0.50,约为基础输入价的十分之一)。对 agentic 调用尤其友好,它们的特征就是同一份不算长的系统提示/工具定义在一个循环里被反复送进去,门槛一降,这类重复短指令就从"每轮全价"变成"写一次、之后按缓存读价复用"。

长会话标的是 1M 上下文,为什么 40 万 token 就退化?这个数字是官方说法吗?还有别的缓解办法吗?

先把确定性说清楚:40 万这个拐点是一位 Reddit 用户的实测观察,不是 Anthropic 的官方阈值,官方只标了 1M 的上下文窗口上限。"能装进窗口"和"装满了还答得准"是两回事:上下文越长,模型从中精准定位关键信息的难度越大,性能在远未触顶时就可能下滑,这也和基准里 GraphWalks 拉到完整 1M 长度时分数明显下降的方向一致。缓解办法除了开新会话重来,还可以主动做上下文卫生:把跑偏的、过时的内容清理掉,只留与当前任务相关的部分。前面提到 4.8 给什么执行什么、不替你补烂上下文,反过来也意味着你把上下文收拾干净,它就能稳定发挥。

Coursiv 那两个成本示例($1.63 和 $5.63)算的是哪一档单价?想自己套用怎么算?

按常规档单价算的,没有计入缓存或 batch 折扣。$1.63 对应一次 20 万输入加 2.5 万输出的大文档审阅,$5.63 对应一次 75 万输入加 7.5 万输出的超长上下文任务,用的都是 $5/百万输入、$25/百万输出这组常规价。想自己套用就用同一个公式:输入 token 数 ÷ 100 万 × $5,加上输出 token 数 ÷ 100 万 × $25。如果你开了 prompt caching,命中缓存的那部分输入要按缓存读价($0.50/百万)单独算,实际账单会比这两个示例低;走 batch 的批量任务再打五折。这两个数字是"未做任何优化"的上限参考,照它估只会高估不会低估。

fast mode 用 2.5 倍速度,是用什么换来的?输出质量或 effort 档位会受影响吗?

fast mode 跑的是同一个 Opus 4.8 模型,换来的速度以价格和可得性为代价,模型能力本身不变。代价有两条:一是单价翻倍(具体数字见前面定价节,不过相对前代 fast mode 已经便宜了三分之二);二是门槛,目前只对研究预览名单内的组织开放,普通账户拿不到,需要联系客户经理申请。素材里没有"fast mode 会降低输出质量或限制 effort 档位"的说法,公开信息只把它描述为同一模型以 2.5 倍速度运行、更快更贵,并未提及质量折损。若你的工作流对延迟敏感、又拿得到名单资格,它换的是速度,不是把模型调笨。