国家数据发展研究院院长胡坚波:6大措施推动高质量数据集建设,加速人工智能赋能行业发展

作者:

CBISMB

责任编辑:

邹大斌

来源:

ISMB

时间:

2025-03-10 12:16

关键字:

人工智能 数据集 国家数据局

随着国家数据集的建设,高质量数据集的建设提上议事日程。特别是随着ChatGPT、DeepSeek等系列大模型的爆红,掀起了新一轮的人工智能建设热潮。然而,大模型的训练和推理都是建立在数据集之上。没有高质量的数据集,大模型的结果也将大打折扣。

国家数据发展研究院院长胡坚波认为,高质量数据集是人工智能大模型训练、推理和验证的关键基础,是按照特定标准,经过采集、清洗、归类和标注等智能化处理,具有相应更新和维护机制的数据集合。

胡坚波建议从高质量数据集图谱构建、政策法规保障、建设指引制定、评测体系建设、跨域合作拓展、标杆牵引示范等方面着手,推动高质量数据集建设迈上新台阶。具体包括以下6个方面:

一是以服务大模型应用为核心,绘制高质量数据集建设图谱,明确“建什么”。围绕应用需求牵引、典型场景切入、行业领域赋能、安全风险可控等维度,调动政、产、学、研、用各方力量,梳理高质量数据集典型场景和应用需求等,绘制高质量数据集建设图谱,实现可查询、可下载、可应用,全面助力大规模、多模态的高质量数据集建设。

二是以保障数据集建设为目标,协同推进政策法规的制定与完善,确定“依据在哪”。在政策层面,推动各部门出台针对性政策,强化高质量数据集供给。鼓励企业积极参与高质量数据集建设,对在数据采集、清洗、标注等环节投入较大的企业给予政策支持,降低企业建设数据集的成本。在法规层面,需加快明确数据权属问题,界定数据生产者、持有者、使用者和经营者的权利与义务,保障数据在合法合规的框架内流通与使用,为高质量数据集建设营造良好的政策法规环境,促进整个行业的健康可持续发展。

三是以解决现实问题为导向,制定高质量数据集建设指引,指明“怎么建”。组织跨行业交流,分享高质量数据集建设经验及面临的问题,总结建设方法论和问题库。针对问题库,以“揭榜挂帅”方式征集解决方案。在广泛调研和总结基础上,制定发布高质量数据集建设指引,不断优化建设方案和路径。发挥人工智能技术优势,对大量文本、图像、音频等数据进行自动标注和分类,批量构建高质量数据集。

四是以推动标准建设为牵引,打造高质量数据集评测体系,指导“怎么评”。一方面,通过对高质量数据集的格式规范、类型、质量要求等方面的研究,开展系列标准的研制及细化,为各行业领域在数据采集、标注、加工治理、应用推广等提供标准化规范指引。另一方面,构建涵盖细分行业的高质量数据集质量评测方法、评测工具集。通过规范化的高质量数据集评测工具,客观地评判数据集的质量等级和价值曲线,结合应用需求不断进行迭代升级。

五是以探索跨域合作为重点,建立高质量数据集流通利用新机制,阐明“怎么流通”。依托可信数据空间、数场、数联网、数据元件等实践方案,推动医疗、交通、气象、社保等多领域高质量数据集在安全合规框架内有序流动,注重建设跨部门、跨行业、跨地区高质量数据集。运用区块链、隐私保护计算等技术实现数据集的可溯源与安全保护,促进跨域数据集交易流通,形成典型案例,催生新应用、新模式,释放数据要素乘数效应。

六是以行业标杆示范为牵引,发挥资金“风向标”作用,解决“用什么引导”。组织开展行业领域高质量数据集征集工作,鼓励各行业、各地区的企业积极参与,形成各类高质量数据集库,提高整体供给水平、供给规模。鼓励各类资金支持高质量数据集建设,持续完善建设机制,积极推广典型案例,全面助力人工智能赋能行业高质量发展。

地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室 商务内容合作QQ:2291221 电话:13391790444或(010)62178877
版权所有:电脑商情信息服务集团 北京赢邦策略咨询有限责任公司
声明:本媒体部分图片、文章来源于网络,版权归原作者所有,我司致力于保护作者版权,如有侵权,请与我司联系删除
京ICP备:2022009079号-2
京公网安备:11010502051901号
ICP证:京B2-20230255