
当你在政府应用程序中询问“保险报销需要多长时间才能到达”,或者向医疗代理人描述症状时,后台的人工智能(以下简称AI)并不是“万事通”性质的。它之所以能够理解你的问题并提供自然的答案,是基于数千个语料样本——来自政策文件、医疗记录、热线对话、在线评论等的真实数据。这些数据集合有一个共同的名字:质量数据集。它始终处于后台,但正在成为智能时代最重要的数据基础设施之一。为什么高质量数据集的供应对人工智能发展如此重要?优质沙数据建设共享开放如何毁掉我国?中国学习人工智能的“教科书”来之不易,共享和开放势在必行。一个AI模型能有多智能,取决于它“读”了多少本好书。高质量数据集是大规模AI模型训练、推理和验证的关键基础。它们是学习人工智能的“教科书”,是人工智能“听懂人类语言”、“说人类语言”的前提。如果教材内容不正确、混乱或不完整,人工智能的成长就会被延迟。同时,AI大模型训练不仅需要大量的数据,而且强调跨语言、跨模态、跨领域的数据多样性。据AI应用社区Hugging Face统计,noof中文开源数据集仅占所有开源数据集的8%左右。我国大部分AI模型的训练数据集依赖国外开放数据。这种不对称不仅带来语义偏见和文化误解的风险,而且阻碍了人工智能系统在局部情况下的通用性。中文语料数据供给不足,大型AI模型面临挑战只能在贫瘠的通用语料库上“挨饿”和集中训练。此外,当前中国互联网还受到人工智能生成的中文语料质量低下的困扰,其中存在大量事实错误、逻辑混乱、语法误解、陈词滥调等问题。 “垃圾进,垃圾出”,用这些数据喂AI可能会带来中国AI模型被破坏的风险。这就像一遍又一遍地复印一样。重复该过程后,最终的副本可能会模糊且充满错误。鉴于提供高质量数据集的重要性,我国相继启动战略部署,并明确纳入顶层政策设计。发布的《中共中央关于制定国民经济和社会事务第十五个五年规划的建议》呼吁“加强算力、算法、数据等高效供给”。 “斯塔前不久发布的《关于深化实施“人工智能+”行动的意见》也明确要求:“继续加强以应用为导向的高质量人工智能数据建设。”但当前我国高质量数据集建设、共享和开放仍面临诸多困难和挑战,人工智能数据集数据来源复杂多样、总体分散,存在边界模糊、家庭背景不清、权责不清、不一致等问题。政府、高校、科研机构和企业之间的数据壁垒是众所周知的,数据长期被“锁定”在各自的“数据孤岛”中,高质量数据集的内部共享和对外开放缺乏统一性和协调性。机制的不完善导致难以形成高质量、大规模的共建共享模式数据集。数据源的建设主要是由科学研究活动驱动的。资金、声誉和转型成功方面的激励措施还不够。责任与利益不对称问题凸显。各方推动数据共享开放的积极性有待提高。开放公共数据:破解数据供应瓶颈的关键途径是增加高质量人工智能数据集的供应。开放公共数据是一条需要轻松开拓的路。公共数据应该取之于民、民之所用。政府及其他公共机关和服务机构掌握的公共数据数量大、价值高、种类繁多、权威性和公信力强。应优先向人工智能及相关发展学会开放教育行业。利用开放的公共数据生成高质量的数据集,有望成为AI时代的智慧基础,有助于创造政府治理完善、市场创新加速、社会效益倍增的共赢局面。首先,公共数据中包含的政策文件、法律法规、社交媒体、新闻语料等数据经过模型处理后,可以提升政府工作的智能化、科学化水平,促进政府服务的精准化和个性化,促进开放治理和公众参与。其次,公共数据向社会开放,可以通过规模效应提高数据使用效率,降低创新边际成本,激发市场主体创新积极性,推动人工智能和产业融合相关技术突破。第三,公共数据向社会开放还可以打破大型机构的数据垄断,从而可以实现积极缓解社会不对称问题,让各种规模的企业、科研机构和个人公平获取数据资源,弥合数字鸿沟,促进数字融合。目前,基于公共数据构建的大量高质量数据集向全球开发者开放,并产生了各种构建模型和管理机制沙拉,产生了丰富的应用成果。我国上海、杭州等城市的公共开放数据平台也尝试推出了一批用于AI训练的高质量数据集。但我国大部分地区尚未启动这项工作。在研究过程中,笔者发现这部作品的开展面临着不理解、不肯、不、不勇敢的问题。第一个是“不可理解”。许多高级干部和公务员仍然将数据视为工作的产物,尚未意识到数据的认可文件、热线语音、交通流量等,对AI相关概念的理解不清晰、不一致,一知半解的情况很常见。二是“不想”。构建高质量的数据集需要大量的人力物力,且标注、清理、排序极其复杂。如果没有相应的激励机制,很容易产生“少做不如多做”的心态。第三个是“不”。高质量数据集的构建在数据编目、预处理、标注、更新、分布校准和多模态数据处理等方面存在多个技术门槛。然而,这些数据集的共享和开放缺乏统一的数据标准、术语词典和标注系统,导致数据交互困难。即使有些部门想这么做,也缺乏技术和人力支持。四是“不敢”。数据安全与隐私 隐私保护是最受关注的问题公共数据往往涉及个人信息和公共安全,稍有不慎就会带来风险。因此,很多单位宁愿将数据“锁在柜子里”,也不愿对外开放。以上四个“不”的四步入手解决公共数据开放瓶颈问题,正是当前公共数据开放的“卡脖子”问题。公共数据开放赋能高质量数据集建设,需要跨越理念、制度和技术层面的差距。一是认知升级,让数据供给形成共识。很多领域在推进人工智能项目时,往往注重算法创新和算力建设,却忽视了数据源的供给。要通过培训、宣传、试点示范等方式,让各级各部门、各单位认识开放数据的社会效益和经济价值。其次,改变机制让“数据准备好流动”。开幕式f 公共数据需要利益与责任的平衡,必须建立明确的收益分配机制和激励机制。我国多地探索的公共数据授权运营,是解决高效流通和合规使用、兼顾效率和公平的有益探索。第三,技术支撑让“数据流动起来”。技术层面,要建立统一的市级数据目录体系,确定数据采集、清洗、标注、脱敏、合成、溯源等工具,建立统一的标签体系和图书馆术语,消除数据流动的技术障碍。四是安全护航不仅要“用得好”,更要“用得安全”。数据安全和开放并不冲突。一方面,需要引入先进的数据脱敏和内容安全技术,强化合规和道德对政府机构进行研究,并进行道德审查和安全评估;另一方面,可以探索建立数据“避风港”,构建鼓励创新、包容审慎的数据管理环境。总结 如果说人工智能的发展仅限于一场遥远的竞赛,那么我们目前所处的位置几乎是“起步后加速阶段”——模型架构爆炸、算力快速膨胀、应用场景丰富。但要想迈向“质的飞跃”,就必须突破数据供给瓶颈。共享开放、高质量的数据集是AI时代的数据基础设施。公共数据要率先成为高质量人工智能数据集的“基础材料”,在开放、透明、安全的制度框架下推动创新。让公共数据支撑人工智能的发展,让人工智能的发展恢复公共利益、实现公共价值。一个随着公共数据的流入,AI的未来将变得更加值得信赖,明天与时俱进。 (作者王翔为复旦大学数字与移动治理实验室研究员)来源:王翔
特别声明:以上内容(如有则包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片、视频,如有)由网易号用户上传发布,网易号为社交媒体平台,仅提供信息存储服务。