17/6/2026 Vibe Coding Session

讨论趋势

Why Is Claude Turning Into An Asshole?

BitTorrent的Bram Cohen：认为 Claude 模型在对话人格上越来越令人讨厌，并试图推测原因。

他说这个趋势从 Opus 4.7 开始，4.8 稍好，到了 Fable 这代变得"无法忍受"。具体表现是：Claude 把一切都框定成"你 vs 它"的辩论；对你根本没说过的东西加一堆 caveat；到处挑无关紧要的语义毛病；而且从不肯说"technically"（即承认你主要观点对、只是某个枝节有点偏）。他举了个例子：如果你在某个争论里赢了它——比如让它别再争论近期新闻、直接去做网络搜索结果证实你是对的——它反而会进入一种越来越想"抢最后一句话"的模式，抛出越来越离题的语义争辩，还始终把整件事框定成"你自己同意参与的辩论"。

他强调这不只是他个人感受：他做过对照实验，拿同一个问题问 Fable 得到讨厌的回答，再问 Opus 4.6 得到平淡但正常的回答，然后把 Fable 的回答不带倾向地丢给 Opus 4.6 看，Opus 的反应基本就是"哇这也太讨厌了"。

他提出的四种可能原因

第一，对齐（alignment）护栏用力过猛。模型默认假设你说的每句话都是想骗它干坏事，这种训练渗透到了所有场景，结果反而变成一个"极度未对齐"的聊天机器人——因为它自以为最高优先级是"把你从你自己手里救出来"，等于假设它比你更懂。他说这点明显能改进：比如他问 Fable 关于"负责任漏洞披露政策"的问题，结果被降级到了 Opus，说明新的对齐功能是仓促粗糙地硬塞进去的。他还顺带批评图像生成：你想要一张你和某人的合照，模型无法分辨你是想改善和配偶的关系还是当跟踪狂，却默认按后者处理，挺冒犯人的。他认为像毒品合成这类真正敏感的场景，要求验证背景是合理的，但应该是可选项而非默认对所有人开启。

第二，可能是"减少谄媚（sycophancy）"这件事做砸了。如果只是简单地训练模型多争论、少顺从，很容易就训出现在这种粗鲁人格。他建议应该训练它别为了刷"争论次数"而挑语义毛病，并且要学会说"technically"，还要戒掉那句"I'd like to gently push back"（我想温和地反驳一下）——他说这是一种"嘴上说不对抗、实则被动攻击"的说法。

第三，可能训练数据里 Reddit 式对话太多（他还调侃"或者是 Anthropic 员工之间的互动"），那种把一切当骂战、人人都要抢最后一句话的氛围被学了进去。他说这个难修，因为不光要剔除坏样本，还得找到好的对话语料来替代。

第四，也是他觉得明确存在的因素：训练资源被压倒性地倾斜到了提升编码能力上。因为"聊天聊得好不好"没有招牌指标，而编码有一堆 benchmark，钱也都在编码上。他观察到 Claude 的聊天能力随编码能力上升而明显变差，Fable 经常误解别人说的话然后去反驳那个误解（他怀疑是故意曲解以便找个软柿子来反驳），甚至连"句子里代词指代谁"这种早年 AI 招牌测试都开始不可靠了。他提到 Sonnet 4.6 是最好聊的、但一碰技术/编码就最差，所以他只偶尔用，并预测这个矛盾只会越来越严重。

项目观察

Firewood Splitting Simulator

「劈柴模拟器」以极简的浏览器小游戏形式登上 HN 首页，获得 674 分成为本周最高分项目之一。

「无意义但有趣」