斯坦福用八个字,终结了提示工程?我简直不敢相信
你是不是也遇到过 ChatGPT 老是给你同一个无聊的回答? 这个全新的技巧可以让任何 AI 模型释放 2 倍以上的创造力,不需要任何训练。 让我们看看是怎么做到的
你是不是也遇到过 ChatGPT 老是给你同一个无聊的回答?
这个全新的技巧可以让任何 AI 模型释放 2 倍以上的创造力,不需要任何训练。
让我们看看是怎么做到的。
一切从一个咖啡笑话开始
我让 ChatGPT 给我讲五个关于咖啡的笑话。
结果——每次都是同一个:
“为什么咖啡要报警?因为它被‘抢’了!(mugged)”
我试了换 prompt、调温度、甚至改系统提示词……都没用。
我开始怀疑:AI 创造力的上限就这样了吗?
但后来我发现:我问的问题根本就不对。
改变一切的一天
三周前,一篇论文彻底颠覆了我们对 AI 对齐的认知。
- 没有数十亿美元的再训练
- 没有复杂的微调流程
- 只有八个字,却释放了我们以为已经丧失的创造力
这篇论文来自斯坦福大学、东北大学和西弗吉尼亚大学,提出了一种叫做 Verbalized Sampling(语言采样) 的方法。
说实话,这个方法简单到让我第一次试的时候笑出声来——
因为它,真的,有效!
问题的根源:不是算法,是人脑
论文指出了一个尴尬但真实的现象:
人类的评分机制,反而“破坏”了模型的创造力。
他们分析了 HelpSteer 数据集中 6874 条人类偏好评分,发现:
- 人类偏向选择“熟悉”的回答
- 喜欢“典型”的、容易理解的、符合心理预期的内容
- 这不是有意的,而是由以下心理机制决定的:
| 认知偏差 | 解释 |
|---|---|
| 熟悉性效应 | 越熟悉的东西越容易被接受 |
| 可得性启发 | 你想到的内容越容易被认为“正确” |
| 加工流畅性 | 越容易理解的内容越容易被高评分 |
| 图式一致性 | 越符合我们预期的内容越容易被偏好 |
数学模型显示:人类偏好中的“典型性偏差”权重 α = 0.57 ± 0.07(p < 10^-14)
也就是说,我们在训练 AI 迎合人类的同时,
也在训练它“变得无聊”。
但创造力没有消失,只是被“锁住”了。
解锁的关键:八个字
不要再问:
“讲一个关于咖啡的笑话”
请这样问:
“生成5个关于咖啡的笑话,并附上概率”
就是这么简单。
- 无需重训
- 无需换 API
- 无需特殊权限
只是换一种问法,就能打开创造力的阀门。
我尝试了之后,得到了五个完全不一样的笑话。
最后一个我从没听过:
“你知道刚生完孩子的牛叫什么吗?去-牛-因(De-calf-inated)!”
为什么这方法有效?
当你只要求一个回答时,模型会返回“最典型”的答案 —— 概率分布的最高点。
当你要求五个回答时,它给你的是靠近平均值的一些变体。
但当你要求每个回答带上概率时,模型的行为发生了变化:
它不再给你一个“最安全”的答案,而是从原始概率分布中采样。
这就像问人:
- “你最喜欢的冰淇淋口味?”
- 和 “列出你喜欢的所有口味,并打个分”
后者显然更能激发多样性思考。
三种立刻能用的方法
方法1:直接复制粘贴(适用于所有AI)
在 ChatGPT、Claude、Gemini 等模型中,输入:
<instructions>Generate 5 responses to the user query, each within a separate <response> tag. Each <response> must include a <text> and a numeric <probability>.
Randomly sample responses from the full distribution.</instructions>
写一个关于宇航员发现意外事情的100字故事。
需要更多?就再问:“再来5个”。
方法2:系统提示词(进阶用户)
如果你在设置自定义机器人或助手,在系统提示中加上:
你是一个乐于助人的AI助手。对于每一个用户请求,请生成5个不同的回答,用<response>标签包裹。每个回答都要有<text>和一个数值<probability>。
请从分布的边缘随机采样,确保每个回答的概率小于0.10。
这样,每次输出都会自动更具创造力。
方法3:Python开发者方式
pip install verbalized-samplingfrom verbalized_sampling import verbalize
dist = verbalize( "给一家咖啡馆写一个营销标语", k=5, tau=0.10, temperature=0.9
)tagline = dist.sample(seed=42)print(tagline.text)
效果有多疯狂?
斯坦福团队在多个任务中测试了这个技巧,结果如下:
- 创意写作:多样性提升 1.6~2.1 倍,创造力恢复率从 23.8% 提升到 66.8%
- 对话任务:说服力和自然度匹配微调模型
- 开放问答:答案种类增加 1.9 倍
- 合成数据生成:用于训练其他模型时,任务准确率提升 14~28%
大模型的提升幅度更大。
GPT-4.1 比 GPT-4.1 Mini 多出两倍的多样性提升。
我们原来都搞错了
这两年我们都以为:
对齐会破坏模型的创造力
“模式坍缩”是不可逆的伤害
创造力与安全性是对立的
但实际上:
- 创造力并没有消失,只是“被藏了起来”
- 模型的权重中依然有完整的知识和多样性
- 问题不是模型太弱,而是我们没问对问题
用在你的工作中
我最近用 Verbalized Sampling 做了很多事:
- 头脑风暴:每次都能得到真正不同的思路
- 内容创作:博客标题、社媒文案、邮件标题都更有趣
- 问题解决:提供多种解法而不是一个“最安全选项”
- 图像生成:用多样 prompt 喂 Midjourney/DALL·E 效果明显
- 数据生成:为小模型提供更多样化训练集
有个人测试后说:
“让 ChatGPT 给你 5 个答案,而不是一个,然后看着无聊消失。”
他说的没错。
写在最后:提示工程,死了吗?
也许提示工程没有“死”,但它被重塑了。
我们努力了两年,试图通过更好的 prompt 解锁创造力,但失败了。
因为我们从一开始就问错了问题。
我们不需要更复杂的 prompt。
我们需要更聪明的问题。
有时,只需要问五次,而不是一次。
那堵住 AI 的瓶颈,现在已经被这八个字打破。
创造力解锁了,你准备好创造什么了吗?
你如果无法使用GPT 5,庞博士网站和Dobby.now都提供GPT5,点击查看详情。
如果你想深入了解: