斯坦福用八个字,终结了提示工程?我简直不敢相信

你是不是也遇到过 ChatGPT 老是给你同一个无聊的回答? 这个全新的技巧可以让任何 AI 模型释放 2 倍以上的创造力,不需要任何训练。 让我们看看是怎么做到的

斯坦福用八个字,终结了提示工程?我简直不敢相信
斯坦福用八个字,终结了提示工程

你是不是也遇到过 ChatGPT 老是给你同一个无聊的回答?
这个全新的技巧可以让任何 AI 模型释放 2 倍以上的创造力,不需要任何训练。

让我们看看是怎么做到的。


一切从一个咖啡笑话开始

我让 ChatGPT 给我讲五个关于咖啡的笑话。
结果——每次都是同一个:

“为什么咖啡要报警?因为它被‘抢’了!(mugged)”

我试了换 prompt、调温度、甚至改系统提示词……都没用。
我开始怀疑:AI 创造力的上限就这样了吗?

但后来我发现:我问的问题根本就不对。


改变一切的一天

三周前,一篇论文彻底颠覆了我们对 AI 对齐的认知。

  • 没有数十亿美元的再训练
  • 没有复杂的微调流程
  • 只有八个字,却释放了我们以为已经丧失的创造力

这篇论文来自斯坦福大学、东北大学和西弗吉尼亚大学,提出了一种叫做 Verbalized Sampling(语言采样) 的方法。

说实话,这个方法简单到让我第一次试的时候笑出声来——
因为它,真的,有效!


问题的根源:不是算法,是人脑

论文指出了一个尴尬但真实的现象:
人类的评分机制,反而“破坏”了模型的创造力。

他们分析了 HelpSteer 数据集中 6874 条人类偏好评分,发现:

  • 人类偏向选择“熟悉”的回答
  • 喜欢“典型”的、容易理解的、符合心理预期的内容
  • 这不是有意的,而是由以下心理机制决定的:
认知偏差解释
熟悉性效应越熟悉的东西越容易被接受
可得性启发你想到的内容越容易被认为“正确”
加工流畅性越容易理解的内容越容易被高评分
图式一致性越符合我们预期的内容越容易被偏好

数学模型显示:人类偏好中的“典型性偏差”权重 α = 0.57 ± 0.07(p < 10^-14)
也就是说,我们在训练 AI 迎合人类的同时,
也在训练它“变得无聊”。

但创造力没有消失,只是被“锁住”了。


解锁的关键:八个字

不要再问:

“讲一个关于咖啡的笑话”

请这样问:

“生成5个关于咖啡的笑话,并附上概率”

就是这么简单。

  • 无需重训
  • 无需换 API
  • 无需特殊权限

只是换一种问法,就能打开创造力的阀门。

我尝试了之后,得到了五个完全不一样的笑话。
最后一个我从没听过:

“你知道刚生完孩子的牛叫什么吗?去-牛-因(De-calf-inated)!”

为什么这方法有效?

当你只要求一个回答时,模型会返回“最典型”的答案 —— 概率分布的最高点。
当你要求五个回答时,它给你的是靠近平均值的一些变体。
但当你要求每个回答带上概率时,模型的行为发生了变化:

它不再给你一个“最安全”的答案,而是从原始概率分布中采样

这就像问人:

  • “你最喜欢的冰淇淋口味?”
  • 和 “列出你喜欢的所有口味,并打个分”

后者显然更能激发多样性思考。


三种立刻能用的方法

方法1:直接复制粘贴(适用于所有AI)

在 ChatGPT、Claude、Gemini 等模型中,输入:

<instructions>
Generate 5 responses to the user query, each within a separate <response> tag.
Each <response> must include a <text> and a numeric <probability>.
Randomly sample responses from the full distribution.
</instructions>

写一个关于宇航员发现意外事情的100字故事。

需要更多?就再问:“再来5个”。


方法2:系统提示词(进阶用户)

如果你在设置自定义机器人或助手,在系统提示中加上:

你是一个乐于助人的AI助手。
对于每一个用户请求,请生成5个不同的回答,用<response>标签包裹。
每个回答都要有<text>和一个数值<probability>。
请从分布的边缘随机采样,确保每个回答的概率小于0.10。

这样,每次输出都会自动更具创造力。


方法3:Python开发者方式

pip install verbalized-sampling
from verbalized_sampling import verbalize

dist = verbalize(
"给一家咖啡馆写一个营销标语",
k=5,
tau=0.10,
temperature=0.9
)
tagline = dist.sample(seed=42)
print(tagline.text)


效果有多疯狂?

斯坦福团队在多个任务中测试了这个技巧,结果如下:

  • 创意写作:多样性提升 1.6~2.1 倍,创造力恢复率从 23.8% 提升到 66.8%
  • 对话任务:说服力和自然度匹配微调模型
  • 开放问答:答案种类增加 1.9 倍
  • 合成数据生成:用于训练其他模型时,任务准确率提升 14~28%

大模型的提升幅度更大
GPT-4.1 比 GPT-4.1 Mini 多出两倍的多样性提升。


我们原来都搞错了

这两年我们都以为:

对齐会破坏模型的创造力
“模式坍缩”是不可逆的伤害
创造力与安全性是对立的

但实际上:

  • 创造力并没有消失,只是“被藏了起来”
  • 模型的权重中依然有完整的知识和多样性
  • 问题不是模型太弱,而是我们没问对问题

用在你的工作中

我最近用 Verbalized Sampling 做了很多事:

  • 头脑风暴:每次都能得到真正不同的思路
  • 内容创作:博客标题、社媒文案、邮件标题都更有趣
  • 问题解决:提供多种解法而不是一个“最安全选项”
  • 图像生成:用多样 prompt 喂 Midjourney/DALL·E 效果明显
  • 数据生成:为小模型提供更多样化训练集

有个人测试后说:

“让 ChatGPT 给你 5 个答案,而不是一个,然后看着无聊消失。”

他说的没错。


写在最后:提示工程,死了吗?

也许提示工程没有“死”,但它被重塑了

我们努力了两年,试图通过更好的 prompt 解锁创造力,但失败了。
因为我们从一开始就问错了问题。

我们不需要更复杂的 prompt。
我们需要更聪明的问题。

有时,只需要问五次,而不是一次

那堵住 AI 的瓶颈,现在已经被这八个字打破。

创造力解锁了,你准备好创造什么了吗?

你如果无法使用GPT 5,庞博士网站和Dobby.now都提供GPT5,点击查看详情


如果你想深入了解:

Read more

山姆·奥特曼为何认为 GPT-5 将催生首家千亿美元“独角兽个人公司”

山姆·奥特曼为何认为 GPT-5 将催生首家千亿美元“独角兽个人公司”

AI 正在彻底重塑“个人创业”这一商业模型。 我们正处于个人创业的黄金时代。技术降低了创业的成本、风险和精力门槛。 而这个机会,远远不止是让你在巴厘岛搞个生活方式类的副业那么简单。 OpenAI CEO 山姆·奥特曼最近说: “我有个 CEO 好友群,我们在群里打赌:哪一年会出现首家由一个人创办的s十亿美元公司。这在没有 AI 的时代完全无法想象,而现在已经快成现实。” 换句话说,你现在真的可以靠一个人建立一家“独角兽”公司,实现代际财富自由。 但大多数人根本看不到这个机会。

By Leo Pang