时间:2024-09-11 19:27来源:www.fbqre.com作者:未知点击:
图为对大语言模型进行反复提问或许会得到多种具备不同语义的答案示意图。刘传波 制图
现在,大语言模型渐渐成为文学、法律、医学、自然科学研究等范围中必不可少的工具。然而,在应用过程中,大语言模型常会出现 “幻觉”现象——可能生成看上去合理但实质并不准确或虚假的信息。譬如,在新闻范围,大语言模型或许会编造出完全没有的新闻事件;在法律范围,它可能引用虚构的法律条文和案例;在医学范围,它或许会提供错误的诊疗建议,甚至危及病人生命安全。鉴于此,用户在用这类大语言模型输出的答案时不要盲目相信,而应付每次输出的答案进行仔细核实和验证。
英国牛津大学研究团队日前在国际学术期刊《自然》上发表论文,尝试解决大语言模型输出中的这种“幻觉”现象,从而提升输出的可信性。通过评估大语言模型在特定提示词下生成内容时的不确定性,可计算出该模型的困惑程度。作为一种警示,它提醒用户或模型自己采取额外的循证手段,以确保更准确地输出答案。
为了更准确衡量模型的困惑程度,该论文引入了“语义熵”定义来计算输出的不确定性。所谓语义熵,事实上是信息熵的一种,用于衡量一个物理系统中所包括的信息量。
为了简单理解“熵”所表示的意思,大家可以想象一个人在岔路口时作出判断的情形:假如这个人向左走或向右走的概率相同,那样这是“熵”的最大状况,代表信息不确定性的很大值,说明这个人对前方的路完全没把握;而假如这个人一直选择向左走,从不选择向右走,则这是“熵”的最小状况,代表信息不确定性的极小值,说明这个人对前方的路完全有把握。
然而,当涉及语言时,状况会变得愈加复杂。相同的意思可以通过不一样的表达方法来传达。比如, “埃菲尔铁塔的地方在哪儿”,答案可以是“巴黎”“在巴黎”或“在法国首都”。为知道决这种语言本身致使的不确定性,研究职员将意义相同的回答进行聚类,从而形成一个统一的输出答案,进而计算出聚类后模型输出答案的“熵”。假如模型输出的句子都是表达相同语义的句子,那样语义熵值就会较低,这意味着模型对于我们的输出答案很确定;反之, 语义熵则会非常高,表明模型对自己输出的答案感到不确定。
借助语义熵定义,研究职员对包含GPT-4和LLaMA2在内的多个大语言模型进行深入研究。结果显示,语义熵在所有模型和数据集上的表现都很出色,是现在用于评估模型困惑程度的最好办法,能有效辨别出大语言模型是不是在“胡言乱语”。另外,通过对大语言模型进行反复提问,大家可以有效地定量计算出它对问题答案的不确定程度,并通过拒绝回答不确定的问题来提升输出答案的整体准确度。
语义熵的优势显而易见,它无需对大语言模型进行改动或重新练习,也无需额外的本钱就可立即应用于现在所有些大语言模型。除此之外,在设计大语言模型时,大家可以将语义熵作为参考指标,在遇见可能不确定的答案时可以选择拒绝回答或尝试进行联网搜索,从而提升答案的靠谱性。语义熵甚至可以用于人类也不了解答案的未知问题,定量判断大语言模型输出答案的确定性。
值得注意的是,借助语义熵来判断大语言模型输出的困惑程度,并不等同于对输出正确与否的判断。换句话说,大语言模型输出答案具备非常低的语义熵,只意味着它在其已有些练习数据基础上确信自己答案是正确的。这表明大语言模型有极高概率生成单一语义的句子,但这类句子是不是实质正确仍没办法完全保证。
尽管这样,这项研究无疑是在达成完全机器自主语言生成的道路上迈出了要紧一步,为大语言模型理解其自信度提供了新的视角,给将来进步带来了无限可能。
(作者王琳琳系中国科普作家协会会员、吉林科技工作者服务中心助理研究员,刘传波系吉林科普创作协会会员、中国科学院长春应用化学研究所博士)
来源丨科普时报
新办法防止人工智能一本正经地“胡言乱语”图为对大语言模型进行反复提问或许会得到多种具备不同语义的答案示意图。刘传波 制图现在,大语言模型渐渐成为文学、...
洋水仙的繁殖办法 橡皮树叶子上有白点如何解决 茶花种子什么时间播种 珍珠项链哪种扣头最结实 珍珠项链什么扣头互动百科网-生活常识,生活小窍门,生活百科知识,权威的中文百科知识网站
Copyright © 2002-2021 互动百科网 (https://www.lubnke.com) 网站地图 TAG标签 备案号:
声明: 本站文章均来自互联网,不代表本站观点 如有异议 请与本站联系 本站为非赢利性网站