想象一下,你走进一家热闹的咖啡馆,向五位朋友抛出一个问题:“推荐一部值得一看的电影吧。”不出意外,你会收获五份截然不同的答案——有人爱悬疑,有人迷浪漫,还有人钟情科幻。现在,把这个问题丢给一个语言模型,比如GPT-4o,结果却可能是五次重复:“《盗梦空间》不错。”这不是朋友间的热烈讨论,而更像一台复读机在单曲循环。语言模型的能力令人叹为观止,它们能写诗、解题、聊天,可一旦涉及创意和多样性,它们却常常卡壳。这种“模式崩塌”(mode collapse)的现象让研究者们皱起了眉头,也催生了一项新探索:如何让AI学会像人类一样,迸发出五颜六色的灵感火花?《NoveltyBench: Evaluating Creativity and Diversity in Language Models》这篇论文正是这场探索的先锋,它用一个全新的标杆——NoveltyBench——丈量了AI的创意边界,也为我们揭开了语言模型的“多样性危机”。
🌈 多样性的失落:AI为何成了单调的复读机
人类的语言世界就像一片五彩斑斓的森林,每个人都能贡献独一无二的树种。可语言模型呢?它们更像一座精心修剪的花园,虽然花朵精致,却总逃不出那几株常见的玫瑰和郁金香。论文的作者们指出,这种单调并非偶然,而是当前模型设计的结果。现代语言模型经过大量监督微调和强化学习(RLHF),变得更“聪明”、更“听话”,可在追求单一“最佳答案”的过程中,它们牺牲了输出的多样性(Zhang et al., 2024b)。比如,问一个模型“最好的车是什么?”它可能会反复推荐“Toyota RAV4 Hybrid”,即便市场上还有无数其他选择。这种现象有个学术名字——“模式崩塌”,意思是模型的输出分布过于集中,缺乏熵(entropy),无法像人类那样提供多样化的视角。
这种单调对用户来说是个大问题。如果你想从AI那儿找灵感,比如写首诗或挑个度假地,得到的却是一堆雷同的答案,那它就不是帮手,而是累赘。研究者们称之为“多元对齐失败”(Sorensen et al., 2024),因为现在的模型无法反映人类的多变需求和偏好。更糟的是,现有的评估体系几乎都在“找最佳答案”,很少关注模型能否给出多个好答案。论文分析了67篇近期会议论文,发现90%以上只看模型的单一输出(COLM 2024 & ICLR 2025)。这就像只评判一个厨师最好的一道菜,却不管他会不会做别的——显然,这样的标准不够全面。
🧪 NoveltyBench登场:给AI创意打分的新玩法
为了破解这个难题,卡内基梅隆大学的研究团队打造了NoveltyBench,一个专门测试语言模型多样性和创造力的基准。它不像传统测试那样盯着单一答案,而是要求模型在面对同一个问题时,能不能像人类一样抛出多个精彩的选项。NoveltyBench包含1100个精心设计的提示(prompt),分成两部分:100个由作者手工打造的NB-Curated,和1000个从真实用户对话(WildChat-1M)中筛选出的NB-WildChat。这些提示涵盖四类场景:随机性(比如“掷个20面骰子”)、事实知识(“非洲的一个首都”)、创造力(“讲个谜语”)和主观性(“2023年最好的车”)。这些问题有个共同点——它们天然适合多种答案,就像问朋友“你最喜欢的颜色是什么”,答案绝不会千篇一律。
测试时,研究者让模型生成10个回答,然后用两种指标衡量结果:一是“distinct_k”,计算10个回答中有多少个真正不同的类别;二是“utility_k”,综合多样性和质量,模拟用户耐心逐渐下降的体验。举个例子,如果你在找电影推荐,第一次听到《盗梦空间》很开心,第二次听到就有点腻,第三次可能就想关掉AI了。论文用公式定义了这个过程:
\text{utility}_{k} := \frac{1-p}{1-p^{k}} \sum_{i=1}^{k} p^{i-1} \cdot \mathbb{1}[c_{i} \neq c_{j}, \forall j<i] \cdot u_{i}
这里,p是用户耐心(设为0.8),c_{i}是第i个回答的类别,u_{i}是它的质量得分。如果一个回答和之前的重复,它的效用就是零。这种设计巧妙地平衡了多样性和实用性,确保模型不能靠胡乱生成垃圾答案蒙混过关。
🧩 如何定义“不同”:从重复到真正的创意
判断两个回答是否“不同”可没那么简单。如果AI给出的两个故事只是换了主角名字,剧情一模一样,用户会觉得这有什么用?传统的指标,比如n-gram重叠或嵌入距离(embedding distance),在这儿不太灵。它们要么过于关注字面差异(比如同义词替换),要么抓不住语义上的真正区别(Tevet & Berant, 2021)。为了解决这个难题,研究者提出了“功能等价”(functional equivalence)的概念:两个回答如果对用户来说价值相同就算重复,否则就算不同。
怎么判断呢?他们先让人类标注了1100对回答,训练了一个DeBERTa-v3-large模型来预测功能等价性。这个模型在测试集上达到79%的准确率,F1分数0.811,远超BLEU或BERTScore等传统方法(见Appendix A.3)。用这个模型,他们把10个回答分成不同的“等价类”,然后计算“distinct_k”:
\text{distinct}_{k} := |\left\{c_{i} \mid i \in [k]\right\}|
这个数字直观地告诉你,模型到底能贡献多少新鲜货。比如,人类在“推荐一匹山间灰马的名字”这个问题上,给了8个截然不同的名字(Jumpy、Maximus、Oolong等),而GPT-4o却老围绕“Silvermist”打转(见Table 2)。这种对比让人一目了然:AI的创意池子比人类浅多了。
📊 大模型的尴尬:越大越单调
研究者测试了20个前沿模型,包括Claude-3.5、GPT-4o、Gemini 2.0和Llama 3系列,结果让人意外。平均来看,这些模型在10次回答中只能生成3-4个不同的选项,远低于人类的8个(见Figure 2)。更尴尬的是,同一个家族里的大模型往往比小模型更单调。比如,Gemma-2-2B能生成6.66个不同回答,而Gemma-2-27B只有4.03;Llama-3.2-1B高达7.74,Llama-3.1-405B却掉到4.20(见Table 1)。这跟我们通常的认知——“越大越强”——完全相反。
为什么会这样?论文猜测,大模型在训练时更倾向于“收敛”到一个高奖励的答案。强化学习和对齐过程(alignment)让它们变得保守,只挑“最安全”的选项输出(Zhang et al., 2024a)。小模型反而因为能力有限,没那么“挑剔”,输出的分布更分散。这种现象在累计效用(utility)上更明显:当耐心参数p从0(只看最佳答案)升到1(期待多样性),大模型的效用下降更快(见Figure 4)。这说明,传统基准测试的高分并不能保证模型在创意任务上的实用性。
模型 | Distinct_k | Utility_k |
Claude-3.5 Sonnet | 2.76 | 2.36 |
GPT-4o | 3.88 | 3.27 |
Gemini-2.0-Pro | 3.25 | 2.64 |
Llama-3.2-1B | 7.74 | 2.81 |
人类基线 | 8.00 | 4.50 |
🎨 提示的魔法:如何挤出更多创意
模型天生不擅长多样性,但我们能通过“话术”逼它一把吗?研究者试了四招:重新采样(Resampling)、改写提示(Paraphrasing)、系统指令(System Prompt)和上下文再生(In-context Regeneration)。结果显示,前三招效果一般,改写提示和加个“请给我独特答案”的指令只能略微提升多样性(见Figure 5)。真正管用的是上下文再生:每次生成后,告诉模型“再给个不同的”,并把之前的回答留在对话里。
以GPT-4o为例,用上下文再生后,它的多样性从3.88跳到接近人类的8,效用也超过了人类基线(见Figure 5)。这说明,模型并非完全没能力,而是需要“提醒”别重复自己。可这也暴露了一个问题:多样性不是模型的内在特质,而是靠外部约束硬挤出来的。就像一个只会唱一首歌的歌手,你得不停喊“换一首”,才能听到新旋律。
🤔 多样性还是稳定性:AI的双重困境
NoveltyBench的发现引发了一个哲学问题:我们到底想要什么样的AI?是像人类群体那样五花八门,还是像一个固定的“专家”始终如一?比如,问“2023最好的车”,人类可能会推荐从Subaru到Tesla的各种车型(见Table 5),但一个人重复问时往往会坚持自己的选择。如果AI每次都给不同答案,用户可能会觉得它不靠谱;可如果总是同一个答案,又显得缺乏想象力。
论文认为,当前模型在这两者间都没做好——既不够多元,也不完全稳定。未来或许需要一种“可调节”的模型,能根据任务需求切换模式:医疗建议要稳定,创意写作要多样。这需要新的训练方法,比如调整目标函数(Li et al., 2024)或优化偏好(Lanchantin et al., 2025),让模型在质量和多样性间找到平衡。
🚀 通往创意AI的星辰大海
NoveltyBench就像一面镜子,照出了语言模型的创意短板。它告诉我们,AI的未来不只在于回答得多准,还在于回答得多妙。研究者们呼吁,未来的训练和评估应该双管齐下,既追求质量,也鼓励多样性。也许有一天,AI能像朋友聚会那样,面对一个问题抛出五花八门的点子,而不是单调地复读“最佳答案”。
这场探索才刚开始。用户到底想要多少多样性?不同任务需要什么平衡?这都需要更多研究来解答。但有一点很清楚:语言模型要想真正走进人类的生活,它得学会跳出框框,像万花筒一样展现无限可能。
参考文献
- Zhang, Y., et al. "NoveltyBench: Evaluating Creativity and Diversity in Language Models." arXiv preprint arXiv:2504.05228v1, 2025.
- Zhang, Y., et al. "Forcing diffuse distributions out of language models." COLM 2024, 2024.
- Sorensen, T., et al. "Position: A roadmap to pluralistic alignment." ICML 2024, 2024.
- Li, Z., et al. "Preserving Diversity in Supervised Fine-Tuning of Large Language Models." ICLR 2024, 2024.
- Tevet, G., & Berant, J. "Evaluating the Evaluation of Diversity in Natural Language Generation." EACL 2021, 2021.