时间:2024-09-24 10:24来源:www.gzjwsw.com作者:未知点击:
前言
练习数据的水平优劣,直接影响AI(人工智能)大模型的能力水平。
目前,尽管大模型在文本/图像/视频等内容生成和理解等范围不断获得新突破,但因为数据来源的透明性不足,不真实信息泛滥和幻觉问题依旧存在。
这或许会致使大模型性能降低,出现数据偏差、隐含偏差或行为失真等现象,还可能引发版权纠纷等法律问题。
日前,来自麻省理工学院(MIT)研究团队及其合作者在提升大模型准确性、降低偏差方面获得了新进展——
他们开发了一种名为 “Data Provenance Explorer” 的结构化审察工具,其通过自动生成详细的数据来源卡片,帮助 人工智能 从业者选择更合适其大模型的练习数据。
他们对 1800 多个文本数据集进行了系统审察,发现约 70% 的数据集缺少必要的许可信息,50% 的数据集包括错误信息。
通过用这一工具,他们将没办法验证的信息从 72% 降至 30%,明显减少了数据的偏差,有效提升了数据的可追溯性和透明度。
有关研究论文以 “A large-scale audit of dataset licensing and attribution in 人工智能” 为题,已发表在科学期刊 Nature Machine Intelligence 上。
该研究为大模型的练习提供了更靠谱的数据基础,在推进 人工智能 范围的法律和伦理研究方面迈出了重点一步。
从72%降至30%,解决未指定许可问题
大模型的练习高度依靠于多元化的数据集,这类数据集一般来源不同,在组合用的过程中有关其来源和用限制的要紧信息总是会丢失或被混淆。
比如,在创建 ImageNet 数据集时,就通过 Mechanical Turk 雇用了工人,并需要他们在将图像与定义进行匹配时用维基百科页面作为参考,而从各种互联网资源中抓取的数据集,非常难追溯其组成部分的来源。
该论文的通讯作者 Robert Mahari 表示,“要知道 人工智能 模型的能力和局限性,最好的办法之一就是知道它是基于什么数据练习的。假如数据来源出现错误归属和混淆,就会产生紧急的透明度问题。”
为此,研究职员将数据来源概念为数据集的来源、创建和许可遗产( licensing heritage)与其特点的组合,并开发了 Data Provenance Explorer,其工作原理是借助算法自动生成详细的数据来源卡片,涵盖来源、许可信息与潜在的偏差风险,从而帮助 人工智能 从业者在练习模型时做出更为明智的决策。核心功能包含:
信息审察:涵盖标识符信息,连接多个聚合器(如 Hugging Face、GitHub、Papers with Code等)的元数据,并提供详细的数据集特点和来源信息。
扩展来源元数据:包含许可证、数据源、创作者身份等,考虑了法律和伦理风险参数,如许可证的沿袭、数据源、创作者身份和其他开发者使用的优先级。
工具发布:提供了数据探索界面和数据存储库,支持用户下载按许可证条件过滤后的数据,并生成人类可读的数据来源卡片。
他们对 1800 多个文本数据集进行了系统审察,发现大部分数据集在许可信息方面存在紧急不足。具体表现为:
许可信息缺失:在 GitHub、Hugging Face 和 Papers with Code 等平台上,分别有 72%、69% 和 70% 的数据集没指定明确的许可证,致使开发者在用时面临法律风险。
许可证标注不同:不少数据集的许可证标注存在问题,平台标注和作者标注总是不同,增加了用户的困惑。
许可证多种多样:不同数据集用了各类许可证,如 CC-BY-SA 4.0、Open人工智能 Terms of Use 等,还有很多自概念许可证,这为小型企业和资源有限的组织带来了挑战。
为解决很多信息的“未指定”许可的问题,研究职员用 Data Provenance Explorer 将未指定许可证的数据比率从 72% 减少至 30%,显著提升了数据的可追溯性和透明度。
另外,他们还察看到,大多数数据集都集中在北半球,而不同区域受文化等原因影响,产生的数据集应用在不同地方或许会限制其性能。
总之,通过降低练习数据透明性不足致使的模型偏差,Data Provenance Explorer 能够帮助提升 人工智能 模型在实质应用中的准确性和公正性,增强模型在多元化任务中的适应性。
然而,这一研究也存在肯定的局限性。比如,该工具现在主要适用于文本数据集,而对多模态数据(如视频、语音等)的支持仍有待加大。将来,研究职员期望扩大他们的剖析,调查多模态数据的数据来源,并研究作为数据源的网站的服务条约怎么样在数据集中产生影响。
提升合规性与安全性
伴随 人工智能 技术的突破性进步,确保数据集的透明性与合规性非常重要。
比如,在医疗 人工智能 范围,一些医疗影像诊断 人工智能 系统在练习过程中用了很多的病人影像数据,为确保数据的合法用和病人隐私保护,需要对数据采取明确数据来源、获得病人知情赞同、对数据进行匿名化处置等手段。
在 人工智能 伦理和法规范围,一些大语言模型在练习过程中或许会接触到很多的个人文本数据,如邮件、社交媒体帖子等。为了保护用户隐私,需要使用区块链、差分隐私等技术来增强数据安全性。
近年来,各国政府也在加大对 人工智能 数据用的监管,颁布了一系列法规和政策,需要企业在采集、用和存储数据时需要遵守严格的隐私保护原则。
Gartner 预测,到 2026 年,使用 人工智能 TRiSM(人工智能 信赖、风险、安全管理)控制手段的企业将通过筛除多达 80% 的错误和非法信息来提升决策的准确性。
在这项工作中,研究团队也与监管机构接触,讨论他们的发现与微调数据对版权的独特影响,从而全方位提升 人工智能 大模型的合规性与安全性。
利好人工智能大模型,对“不适合”练习数据前言练习数据的水平优劣,直接影响AI(人工智能)大模型的能力水平。目前,尽管大模型在文本/图像/视频等内容生成和理...
旱金莲与镜面草有什么区别 吃烤馒头片真的可以“拯救”胃舒不舒服 梨树和桃树有什么区别 齐木楠雄和照桥心美最后在一块了吗 照桥心互动百科网-生活常识,生活小窍门,生活百科知识,权威的中文百科知识网站
Copyright © 2002-2021 互动百科网 (https://www.lubnke.com) 网站地图 TAG标签 备案号:
声明: 本站文章均来自互联网,不代表本站观点 如有异议 请与本站联系 本站为非赢利性网站