改AI稿件比从零开始写还累,我终于想通了原因


原文地址:https://www.nature.com/articles/s41586-024-07566-y


改AI稿件比从零开始写还累,我终于想通了原因

上周花了三个小时改一篇AI初稿,改完回头看,自己动手改的部分和AI原文的部分清清楚楚,AI那一截子就像套了三层棉袄的胖子,臃肿又油腻,我基本全程在给它一层一层扒衣服。

这种事忍了大半年了。去年丢一段提示词,出来的初稿动个两三成能用,今年同样的流程起码得改六成,而且越改越别扭,越改越能感觉到这路子本身就走偏了。

后来我做了件事,翻出去年同一条提示词产出的旧稿,跟新稿摆一块儿比,结论让我自己都吃惊,旧模型写的东西明显更像人写的。DeepSeek的R1比近来的V4像人话,Claude的4.6比4.8有味道,GPT的4o比5系列耐读,越新的模型写东西越油腻,这是反复测出来的结果,不是段子。

网上传着一条数据,某独立测评基准里GPT创意写作得分从97.3%摔到36.8%,断崖63分。不过得补个注脚,该基准比较特殊,涵盖了成人题材的创作,OpenAI的安全过滤对这类内容掉得更狠,所以跌幅里有不小的比例是安全策略扣的分,不能完全等同日常写作能力的退步。

但即便把这层水分挤干净,下滑的趋势板上钉钉。

一、办法其实比你以为的简单

先聊怎么办,再聊为什么。

我试过各种花式提示词,"你是一个资深文案","你是一个才华横溢的小说家",角色指令写得越细,出来的东西越千篇一律。你说文案,它就给你上标准营销腔;你说小说家,它就给你堆空洞金句,统统过度拟合到刻板印象里去了,跟其他人用同样的角色指令产出的东西几乎像同一个模子刻出来的。

后来我发现了一个简单到荒唐的办法,直接甩两三篇真人写的范文给模型,告诉它照这个调子写,效果比任何角色指令都强。哪怕同一篇内容,给不给范文差别就像请了个只会背模板的实习生和找了个跟你审美合拍的搭档。

今年有篇论文专门测了这事儿,few-shot比zero-shot的风格匹配准确率高出23.5倍。23.5倍你细琢磨,告诉模型像谁写远不如直接让它看谁写过的东西。

实操中你会察觉一个细节,如果你正好读过范文作者的原文,一眼就能看出模型模仿的轮廓,语气对的占七八成,但那些特别私人的东西,比如一个人喜欢在段落中间插一句自言自语,或者一个人擅长三个动词连着叠出节奏感,模型学不会,因为这些特征太小了,两三篇范文根本裹不住。所以范文法适合塑造整体调性,不适合追求还原某人每个文字癖好。

二、范文模仿也碰到瓶颈了

范文法的瓶颈在于模型自己的那句腔实在太硬了。你给它看三篇干净的范文,它写出来照样带股子说教味,撑死把油腻从十分压到六分。你说"轻松一点",它给你缀几个"嘛""呢";你再说"别太随意",它又缩回那个四平八稳的调子,骨子里的倾向你拧不过来。

所以我现在走的是新路子,新旧模型搭档。新模型扛体力活,搜信息,夯结构,提炼要点,这些基本功新模型确实猛,去年推不动的多步推理现在三两下搞定。等骨架撑起来了核心内容裁完了,末了一步把初稿扔给老模型润色。老模型在文字把控上更沉着,那种微妙的节奏感和语气分寸,新模型至今摸不着边。

眼下公认写作表现尚可的老模型是Claude Opus 4.6,不过桌面版已经没影了,只剩API接口还能调,这个窗口期还剩多久不好讲。我自己走这条路走了三个月,体感是润色环节交给4.6之后,人工改的比例从六成降到了三成左右,降幅明显但离完全放手还远得很。

三、老模型凭啥反而强

到这里你一定纳闷,正常逻辑越练越强才对,怎么越新越油?

答案藏在RLHF里头,人类反馈强化学习。所有主流模型都走这条路子,原理就是让人来给模型输出打分,分高的多写分低的少写。

听着挺靠谱?全栽在打分者的偏好上。打分的人喜欢清晰,喜欢正确,喜欢安全,趣味和个性?不在乎。路透社研究所专门做过调研,RLHF训练出来的模型有一种默认文风叫house style,特别爱使过渡词,"更有甚者","我的观点是",喜欢枚举替代叙事,一二三四五列得一清二楚但读起来像翻说明书;感情描写只告诉不展示,"他很难过"而非让你从他捏紧的拳头和别扭的沉默里感受到他有多难过;每段尾巴都得归纳个道理出来,带棱角的表达统统被抹平。

模型学会了不得罪打分者,代价就是把说人话的本事丢了个精光。新模型训练轮次更多RLHF烙得更深,才更油。这也是旧模型反倒写得好的原因,RLHF烙得浅,还囤着更多原始语言的直觉。

四、真正让人辗转反侧的事还没摊开

RLHF这事儿说到底有解,改良训练方法,换一拨有审美的打分者,总能一点点修复。让我真正辗转反侧的是另一桩。

今年一个团队抽了90万个网页出来看,网上新冒出来的内容里超过74%夹带AI生成文本,纯人工原创只剩25.8%。照这个势头再走一两年,你在网上基本就扒不到真人写的原生内容了。

那模型以后靠什么涨新知识?只能啃AI写的新网页新论文新帖子,等于AI嚼着自己吐出来的东西训练自己。而且这个圈是加速闭合的,AI生成的内容越多,下一代模型训练集里AI内容占比就越高,产出来的东西就更像AI,再被爬进再下一代的训练集里,代比一代更千人一面。

Nature 2024年刊登了牛津大学的论文,正式把这现象定性为模型坍塌。模型反复在自己造出来的数据上训练,语言的多样性和创造性逐代衰减,跟一幅画反复复印一个道理,几轮下来就糊了。

这还不止是写不好东西的问题。未来医学论文七成由AI辅助生成,那些AI的训练数据里又掺着上一代AI生成的论文,错误跟着滚雪球越滚越大,这不是科幻的腔调,这是我们正在踩进去的地。

五、这件事指望不上别人帮你兜底

可能你觉得厂商迟早会修这茬,别指望了。

编程,推理,Agent,科研,这几个方向评测标准明明白白,商业回报清清楚楚。代码跑不跑得过测试能一锤定音,推理题对不对能量化,Agent任务链走不走得通能评测,但写东西好不好?一千个人一千个标准。你找十个编辑聊什么样的文章写得好,能聊出十一种说法。

所以每场发布会都在炫编程突破,晒推理飙升,展Agent多灵多能干,但没人提创意写作。不是造不出来,是没有商业动力去造。写作能力的提升既不能给发布会撑数据场面,也不能直接变成企业买单的理由。

我自己攒了一套写作SOP,慢慢囤自己风格的范文样本,摸索出一套对路子的引导方式,钉成固定流程和Skill。不管模型怎么换代迭代,末端润色参数调一调就够了,整套工序不用推翻重来。模型会换,你的体系千万别跟着晃。

这个势头我估着起码还得磨半年。等编程和推理那边卷到边际利润薄了,可能才有厂商拿写作当差异化牌来打。在那之前,把体系夯实比追新模型实在得多。

再嘱咐一句,对文字质感特别较真的人,SOP里务必加一道人工终审。模型润色得再光鲜,最后一刀你得自己下,出声读一遍哪里联回去别扭,那就还留着AI指纹。机器能替你干八成活,剩下那两成恰恰是区分一篇内容像不像人写的分水岭。


你有没有发现AI写出来的东西越来越油腻了?评论区说说你碰到的情况,还有你有没有自己摸索出应对的门道。


来源

  1. AI models collapse when trained on recursively generated data — Nature,2024年7月
  2. What percentage of new content is AI-generated — Ahrefs,2025年4月
  3. How Well Do LLMs Imitate Human Writing Style — arXiv,2025年9月
  4. Best AI Models for Novel Writing 2026 — Inkfluence AI,2026年4月
  5. How RLHF Controls AI Behavior And Why It's Failing in 2026 — AI Next Vision,2026年
  6. SM-Bench Creative Writing evaluation — 独立测评基准,2026年

作者 AISet

阅读全文(5积分)