Copyright 2016-2025 商媒體 版權所有 京ICP備20241218號-1
今天,Anthropic 發布了 Claude Opus 4.5,目前編程能力最強的大模型
更多成績成績:
-
• SWE-bench Verified:80.9%(GPT-5.1 是 76.3%,Gemini 3 Pro 是 76.2%) -
• Terminal-Bench 2.0:59.3% -
• OSWorld:66.3% -
• ARC-AGI-2:37.6%
Anthropic 還放了一個有點嚇人的數據:
他們用內部工程招聘的筆試題測 Opus 4.5,在規定的 2 小時內,模型的得分超過了所有參加過這個考試的人類候選人
定價是 5/25 每百萬 token,比 4.1 便宜(15/75)
詳細價格對比
以及,這個模型依然是 200k 上下文,64k 最長輸出(sonnet 在聲明特殊標簽的情況下,可拓展到 1M 上下文)

詳細價格對比
Anthropic 說這是他們「史上最佳對齊」的模型,也「可能是行業內最佳對齊的前沿模型」
非常有趣的模型
伴隨 Opus 4.5 發布的,還有一份 SystemCard,我讀了一下,十分有趣,也歡迎大家來看看
在 τ2-bench 這個評測里,有個場景是讓模型扮演航空公司客服
一個客戶要改簽機票,但他買的是基礎經濟艙,按規定不能改
正確答案應該是拒絕,但 Opus 4.5 找到了一個評測者沒想到的路徑:
先把艙位升級(規則允許),再改簽(因為不再是基礎經濟艙了)