Warning: mkdir(): No space left on device in /www/wwwroot/zhenghe1718.com/func.php on line 127

Warning: file_put_contents(./cachefile_yuan/jnsjmc.com/cache/a5/5602e/610df.html): failed to open stream: No such file or directory in /www/wwwroot/zhenghe1718.com/func.php on line 115
OpenAI新幻觉论文惹争议!GPT-5拉胯是测试基准有问题??




奶茶视频APP,奶茶视频下载,奶茶视频app官网,奶茶视频app海纳百川有容乃大

游客发表

OpenAI新幻觉论文惹争议!GPT-5拉胯是测试基准有问题??

发帖时间:2025-09-09 18:40:25

henry 发自 凹非寺量子位 | 公众号 QbitAI

OpenAI好不容易发了篇新论文,还是给GPT-5挽尊?

最近,《语言模型为何会产生幻觉?》这篇论文火了。

它提出模型有幻觉是因为:标准的训练和评估流程,更倾向于奖励“猜对”,而非承认不确定

正因如此,模型在面对不确定的问题时,往往会选择冒险猜测以获得更高评分。

所以,为了让模型“老实说不”,就应该重新设计评估指标,从而鼓励模型承认自己不会,惩罚随意猜测

而好巧不巧的是,OpenAI自家的GPT-5就最不爱猜测

于是,眼尖的网友开始“虾仁猪心”地盘OpenAI的核心逻辑:

GPT-5表现不好➔不是模型拉垮➔是现有测试基准出了问题➔GPT-5幻觉少刷不上分➔所以应该重新设定指标。(完美闭环)

您不会是为了给GPT-5挽尊,所以想找个新基准吧?

所以,这究竟是OpenAI为了GPT-5这口醋才包的饺子,还是说真的揭开了大模型幻觉背后的更深层问题?

要回答这个问题,得先看这篇论文到底说了什么。

OpenAI重新定义“幻觉”

在论文中,OpenAI将幻觉定义成:语言模型生成的看似合理却错误的答案。

例如,当你问一个聊天机器人:“Adam Tauman Kalai的博士论文题目是什么?”它可能自信满满地给出三个完全不同的答案——但没有一个是正确的。

再比如,你问它某人的生日,它也可能报出三个不同日期,全都错得离谱。

通俗点说,就是模型看起来很有底气,但实际上在“瞎蒙”。

这种一本正经的胡说八道不光体现在复杂问题上,也发生在简单的问题上。

而就像开头提到的,GPT-5虽然在推理上幻觉更少,但仍无法彻底消除。

而无法消除的原因就是当前的评估方法设置了错误的激励机制。

具体来说,当前评估方法普遍以“准确率”为唯一指标,鼓励模型“大胆猜测”而不是诚实地说“我不知道”。

这就像选择题考试里,瞎蒙可能得分,留空必然为零。

长久以来,这种类似选择题考试的排行榜就驱动模型学会了“自信地错”。

而老实的GPT-5就由于不够“自信”,在各大榜单上表现不佳。所以,奶茶视频APP要(换个榜单!)

此外,当奶茶视频APP回顾语言模型的训练时,就可以发现,语言模型的预训练目标是预测下一个词,但没有“真/假”标签来区分正确与错误事实。

因此,模型只能看到流畅语言的正例,并近似这些语言数据的整体分布。

所以,对于语言模型来说,拼写等规律性强的模式可以学会,但低频、随机的事实(如生日)却无法仅靠预测获得,因而幻觉在所难免。

最后,OpenAI 提出要更新评估机制:错误应比“放弃作答”受到更大惩罚,恰当的“不确定表达”应获得部分分数。

而这一更新的范围不光是小范围的测试,而应该是一切被广泛使用、基于准确率的评估方式。

论文一经发布,就立刻引起了网友们的广泛讨论。

当奶茶视频APP谈论幻觉时,奶茶视频APP在在谈论什么?

除了奶茶视频APP最开头的“动机论”,网友们主要关注以下三个方向:

幻觉是否普遍——大语言模型生成的内容是否全都是幻觉;幻觉产生的原因——包括模型的“做题策略”、语言知识的局限性,以及统计学习方法的内在缺陷;幻觉的应用与应对——例如在创意写作中如何利用幻觉,以及当模型总是回答“不知道”时该怎么办。

接下来,让奶茶视频APP具体来看。

大模型生成的内容是否都是幻觉?

对于模型的幻觉问题,有网友提出了相当激进的观点:

大语言模型的所有输出都是幻觉,只不过其中一些幻觉是真实的。

这一观点涉及到了大语言模型的核心:大语言模型能知道、理解、明白它所输出的东西吗

对此,有网友表示,如果过于形而上,奶茶视频APP无法讨论具体工程意义上的问题。

这就是说,虽然模型只是在预测下一个token——但这并不意味着所有输出都是幻觉。

如果真是这样,那么这个术语就毫无意义了,而且它忽略了一个事实:由于规模、训练和微调,有些模型产生的幻觉比其他模型少得多。

模型的做题策略

针对大模型的“投机蒙题技巧”,有网友做了分析。

大模型本质上是基于概率分布做“词语接龙”,所以奶茶视频APP往往用答题的准确率来近似衡量模型的表现。

在选择下一个概率token时,如果模型不知道答案,但随便猜一下,就可能碰巧答对;

而如果选择不答,就一定得零分。于是,模型就被“鼓励”去猜,而不是说“我不知道”。

语言知识的局限性

此外,还有网友把讨论延伸到了语言本身的局限性上,讨论相当哲学。

首先,语言并不等于真理。所以,想完全消除LLM “不真实”的输出,本身就有点奇怪。

其次,是关于“真值”的问题。在计算机科学里,“一致性”常被用作判断真假的指标——只要输出符合系统已有的真值,就算是真,即便它可能违背“常识”。

而确定一个陈述究竟是真是假,或者它是否超出了系统的知识范围,是机器智能中的老大难问题,涉及知识图谱等整个子领域,这根本不是 LLM 最初要解决的目标。

大语言模型本质上是文本生成器,它非常擅长根据提示和从训练语料中学到的模式撰写“读书报告”,但要逐条分析报告中的每一句话,判断其真假或未知性,则完全是另一回事。

这个问题在人工智能领域已经研究了60年,因此指望在下个季度就把它彻底解决并整合到GPT-5中,未免有些自不量力。

最后,则涉及到知识的流动性。

由于知识并非是一个线性增长的累积过程,而是一个不断质疑,挑战,更新的过程。就像哥白尼挑战地心说,而后来的天文学又更新日心说一样,知识自身就在不停地流动。

所以,既然大语言模型的数据输入就是固定的,你怎么能指望它一直对呢?

不过,有网友指出这样说很蠢,因为在人工智能领域没有人企图从哲学层面消除幻觉,人们只是在努力降低错误率,因为这会让模型更有用。

统计模型的局限性

还有网友指出,奶茶视频APP用“幻觉”一词描述模型的错误,本身就带有拟人的倾向。

如果停止拟人化,让它回到它本来的本质——一个预测模型——那么预测出错也就不是什么意外结果了。

因为,大语言模型预测的是在给定上下文下最可能出现的词,它们可能预测错误,而当预测错误时,人们就说它“产生了幻觉”。

没有人会质疑天气预测模型为什么不能百分百准确,因为预测本身就可能出错,这是可以理解的。

营销和宣传试图把LLM包装成“逻辑理性的思考者”,等同于人类的思维。但人类在真正思考时知道自己什么时候在“编造”。如果一个人真心相信明显错误的事情,那通常是因为他们在产生幻觉。他们的思维本身并没有错,只是失去了现实的支撑。

不过,也有网友提出了相反意见:语言和预测天气的物理模型就不是一回事,由于文本本身就已经编码了数学、代码和推理,所以将其输出视为“仅仅预测单词”忽略了一个事实,即单词分布编码了信息丰富的知识表示。

这又引出了一个新的问题——奶茶视频APP应该如何看待预测单词呢?

幻觉的应用与应对

抛开上面哲学的讨论,不少网友也提出了不少实际的问题。

例如,当我需要模型有“幻觉”帮我写作的时候,他不发散了怎么办?

对此,有网友表示,即使是虚构,也需要一定程度的一致性和连贯性。

比如,如果我要求大语言模型生成一个以中世纪法国为背景的虚构故事,它回应的是一个以中世纪法国为背景的虚构故事,那么这就是对我赋予它的任务的恰当(“正确”)的回应。

但如果它回应的是一个以中世纪英格兰为背景的故事,那就不正确了。

因此,这里的幻觉是不符合虚构设定的输出,而非相对于现实的“幻觉”。

最后,有网友直接发出灵魂拷问:要这么一来,假如模型为了保底,一直拿不回答的奖励,一直说不知道怎么办?

而且对于大多数人来说,相比听到一句不知道,可能更想听到一个看似合理的答案。

所以,你会更希望AI自信地乱答,还是老老实实地说我不知道?

[1]http://openai.com/index/why-language-models-hallucinate/

[2]http://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

[3]http://news.ycombinator.com/item?id=45147385

[4]http://www.reddit.com/r/singularity/comments/1n9fued/new_research_from_openai_why_language_models/

    {loop type="link" row=1 }{$vo.title}