Why Is Claude Turning Into An Asshole?
BitTorrent的Bram Cohen:认为 Claude 模型在对话人格上越来越令人讨厌,并试图推测原因。
他说这个趋势从 Opus 4.7 开始,4.8 稍好,到了 Fable 这代变得"无法忍受"。具体表现是:Claude 把一切都框定成"你 vs 它"的辩论;对你根本没说过的东西加一堆 caveat;到处挑无关紧要的语义毛病;而且从不肯说"technically"(即承认你主要观点对、只是某个枝节有点偏)。他举了个例子:如果你在某个争论里赢了它——比如让它别再争论近期新闻、直接去做网络搜索结果证实你是对的——它反而会进入一种越来越想"抢最后一句话"的模式,抛出越来越离题的语义争辩,还始终把整件事框定成"你自己同意参与的辩论"。
他强调这不只是他个人感受:他做过对照实验,拿同一个问题问 Fable 得到讨厌的回答,再问 Opus 4.6 得到平淡但正常的回答,然后把 Fable 的回答不带倾向地丢给 Opus 4.6 看,Opus 的反应基本就是"哇这也太讨厌了"。
他提出的四种可能原因
第一,对齐(alignment)护栏用力过猛。模型默认假设你说的每句话都是想骗它干坏事,这种训练渗透到了所有场景,结果反而变成一个"极度未对齐"的聊天机器人——因为它自以为最高优先级是"把你从你自己手里救出来",等于假设它比你更懂。他说这点明显能改进:比如他问 Fable 关于"负责任漏洞披露政策"的问题,结果被降级到了 Opus,说明新的对齐功能是仓促粗糙地硬塞进去的。他还顺带批评图像生成:你想要一张你和某人的合照,模型无法分辨你是想改善和配偶的关系还是当跟踪狂,却默认按后者处理,挺冒犯人的。他认为像毒品合成这类真正敏感的场景,要求验证背景是合理的,但应该是可选项而非默认对所有人开启。
第二,可能是"减少谄媚(sycophancy)"这件事做砸了。如果只是简单地训练模型多争论、少顺从,很容易就训出现在这种粗鲁人格。他建议应该训练它别为了刷"争论次数"而挑语义毛病,并且要学会说"technically",还要戒掉那句"I'd like to gently push back"(我想温和地反驳一下)——他说这是一种"嘴上说不对抗、实则被动攻击"的说法。
第三,可能训练数据里 Reddit 式对话太多(他还调侃"或者是 Anthropic 员工之间的互动"),那种把一切当骂战、人人都要抢最后一句话的氛围被学了进去。他说这个难修,因为不光要剔除坏样本,还得找到好的对话语料来替代。
第四,也是他觉得明确存在的因素:训练资源被压倒性地倾斜到了提升编码能力上。因为"聊天聊得好不好"没有招牌指标,而编码有一堆 benchmark,钱也都在编码上。他观察到 Claude 的聊天能力随编码能力上升而明显变差,Fable 经常误解别人说的话然后去反驳那个误解(他怀疑是故意曲解以便找个软柿子来反驳),甚至连"句子里代词指代谁"这种早年 AI 招牌测试都开始不可靠了。他提到 Sonnet 4.6 是最好聊的、但一碰技术/编码就最差,所以他只偶尔用,并预测这个矛盾只会越来越严重。
「劈柴模拟器」以极简的浏览器小游戏形式登上 HN 首页,获得 674 分成为本周最高分项目之一。
「无意义但有趣」