发布时间:2025-08-14
阅读量:1319
国务院新闻办公室举行“高质量完成‘十四五’规划”系列主题新闻发布会。国家数据局局长刘烈宏在会上透露,我国人工智能大模型训练的中文数据占比已显著提升,多数模型的中文数据占比超过60%,部分模型甚至达到80%。这一里程碑式的进展,标志着我国AI产业在数据供给、模型训练和商业化探索方面迈入新阶段。
长期以来,高质量中文数据的稀缺性制约着国内AI大模型的发展。由于互联网上的高质量中文语料库相对分散,且存在大量低质量、重复或非结构化数据,许多企业在训练大模型时不得不依赖英文数据或进行复杂的清洗工作。然而,随着国家数据政策的优化和企业数据治理能力的提升,这一局面正在改变。
刘烈宏表示,近年来,我国在中文高质量数据的开发和供给方面取得显著进展。政府、企业和科研机构协同推进数据开放共享,建立了多个国家级数据交易平台,如北京国际大数据交易所、上海数据交易所等。这些平台不仅促进了数据流通,还推动了高质量数据集的标准化建设。
“中文数据占比的提升,直接带动了国产大模型的理解、推理和生成能力。”刘烈宏指出,“例如,在金融、法律、医疗等专业领域,中文数据的丰富性让模型能够更精准地理解行业术语和语境,从而提供更符合本土需求的服务。”
随着AI大模型训练需求的激增,数据交易市场迎来爆发式增长。刘烈宏透露,截至2024年6月底,全国高质量数据集的累计交易额已接近40亿元。其中,金融、医疗、自动驾驶等领域的数据交易最为活跃。
更引人注目的是,上海、天津、安徽等地正在试点“数据作价入股”的创新模式。在这一机制下,企业可以将自身积累的高质量数据集折算为股权,与其他企业或投资方合作开发AI产品。例如,某医疗科技公司将其积累的千万级医学影像数据集作价入股,与AI企业联合开发医疗诊断大模型,既降低了研发成本,又实现了数据价值的最大化。
“数据要素的市场化配置是未来的重要方向。”刘烈宏强调,“我们鼓励企业探索数据资产化路径,让数据真正成为可交易、可融资的生产要素。”
为持续提升数据供给能力,国家数据局正体系化推进高质量数据集建设,重点聚焦具身智能(Embodied AI)、低空经济、生物制造等战略性领域。
具身智能:面向机器人、自动驾驶等场景,构建多模态数据集,涵盖视觉、语音、运动控制等数据,以提升AI的物理世界交互能力。
低空经济:围绕无人机物流、城市空中交通(UAM)等产业,整合空域管理、气象、地理信息等数据,推动低空智能化发展。
生物制造:通过生物医药、合成生物学等领域的数据共享,加速AI在药物研发、基因编辑中的应用。
刘烈宏表示,国家数据局将联合行业龙头企业和科研机构,打造一批国家级数据开放平台,并推动数据要素的跨行业流通,以“数据+算力+算法”的模式加速AI产业化。
尽管数据交易市场增长迅速,但如何建立可持续的数据价值评估体系仍是挑战。刘烈宏指出,未来将重点培育“为优质数据买单”的市场环境,包括:
制定数据定价标准,避免数据交易中的信息不对称问题;
完善数据确权机制,保障数据提供方的合法权益;
推动数据跨境流动试点,探索国际数据合作新模式。
“数据是AI时代的‘石油’,但它的价值不仅在于拥有,更在于流通和应用。”刘烈宏总结道,“我们希望通过政策引导和市场机制的结合,让数据真正成为推动经济增长的新动能。”
从中文数据占比突破60%,到数据交易额逼近40亿元,再到“语料入股”等创新模式的探索,我国AI产业正从“算力竞争”迈向“数据竞争”的新阶段。随着国家数据局的体系化布局,高质量数据供给能力的提升将进一步提升国产大模型的竞争力,并在具身智能、低空经济等前沿领域形成差异化优势。未来,如何构建更开放、更高效的数据生态,将成为中国AI能否在全球竞争中占据领先地位的关键。