近年来,“人工智能+”浪潮席卷全球。在算力持续提升、模型快速迭代的背景下,人工智能的技术能力虽不断突破,但真正能够稳定运行、持续创造价值的应用却并不多见。不少项目仍停留在展示、试点或短期验证阶段,难以实现规模化复制。综合各地实践可以发现,这一现象并非主要缘于算法能力不足或算力供给短缺,而是暴露出一个长期被低估的基础性问题:高质量数据集的供给呈现结构性失序,尚未形成能够稳定支撑人工智能应用运行和扩展的基础底座。
当前问题是在数据采集、治理和使用方式上仍沿用传统信息化逻辑,难以支撑人工智能对高质量、可持续数据输入这一底座条件的现实需求。重新审视数据在“人工智能+”发展中的基础性地位,正视数据供给在合法性、标准化和可流通性方面存在的结构性偏误,并从制度层面重塑高质量数据供给体系,对于推动“人工智能+”从文件部署走向实际运行、从局部试点走向规模化应用,具有现实紧迫性。
一、从供给不足到供给失序:数据治理偏误下的AI困境
在当前以机器学习为主导的技术范式下,人工智能本质上是一种依托大规模数据进行统计建模与推断的系统,其应用效果高度依赖数据质量。如果说算力是发动机、模型是变速箱,那么数据不仅是燃料,更是决定系统能否稳定运行的基础条件。当前面临的困境,并非燃料匮乏,而是燃料质量参差不齐、杂质过多,不同来源、不同标准的数据难以兼容,无法支撑人工智能系统的持续运行。
在现实政策讨论中,数据问题常被简化为“数据不开放”“数据量不够”,这种理解本身就是“人工智能+”推进中的一个重要误区。从实践看,真正制约人工智能落地的,并非“有没有数据”,而是数据供给在治理层面出现的结构性失序,主要体现在以下四个方面:
——数据质量结构失序。数据规模虽在持续扩大,但真正具备可训练性、可复用性和可持续使用条件的高质量数据比例偏低。大量数据在采集阶段即缺乏统一标准,结构、口径和时效性差异显著,噪声和缺失问题突出,难以被模型长期、稳定“消化”和复用,形成“数据越多、可用数据越少”的结构性矛盾。
——数据治理逻辑失序。当前数据治理仍沿用传统信息化思路,重采集、轻治理,重立项投入、轻运行维护。其本质在于:传统治理以满足业务报表和系统运行为核心目标,而面向AI的治理则要求数据具备可训练性、可复用性、可信赖性。这种目标错位导致在法律授权、用途界定和责任边界不清的情况下,数据难以在较长周期内安全、稳定地用于模型训练和推理,导致人工智能应用在试点阶段可行、进入真实业务场景后频繁受阻。
——数据激励机制失序。在现有制度环境下,数据供给主体普遍面临“用不好要担责、用得好却难以获得明确回报”的激励失衡。高质量数据建设需要持续投入人力和成本,但其价值难以被量化和认可,导致理性选择倾向于维持低成本、低风险的数据供给方式,抑制了高质量数据集的长期建设。
——数据供给时间尺度失序。人工智能应用依赖长期稳定、连续一致的数据输入,但现实中数据治理和政策评估更偏向短期项目验收和阶段性成果展示,忽视数据质量提升的长期性和累积性。这种时间尺度上的错位,使得数据供给难以形成真正可持续的“基础底座”,制约了人工智能应用的稳定运行和规模扩展。
上述问题表面上看是合规、标准和流通等具体障碍,实质上反映的是数据供给逻辑仍停留在传统信息化阶段,尚未转向以人工智能应用为导向的高质量供给体系。当这一治理偏误长期存在时,人工智能应用便不可避免地陷入“模型越做越大、效果却越来越不稳定”的怪圈,进而削弱政策执行的可信度与社会预期。
二、不同数据类型的结构性偏误表现
当前,数据治理逻辑仍停留在传统信息化阶段,尚未转向以人工智能应用为导向的高质量供给模式。以下区分三类数据分别讨论。
(一)公共数据:规模巨大,但“可用性”不足
从数量上看,中国公共部门掌握着极为丰富的数据资源,涵盖人口、法人、空间地理、交通运行、医疗健康、教育、社保等多个领域,为人工智能应用提供了看似充足的“原料基础”。然而,在实际应用中,能够直接用于模型训练和推理的高质量公共数据比例却并不高。
以城市治理为例,同一城市内部,不同部门在道路、设施、事件和时间维度上的编码规则长期不统一,历史数据缺失、字段定义频繁调整。这并非数据规模不足,而是缺乏统一的数据治理框架。结果往往是模型在实验环境中表现良好,一旦接入真实业务系统,识别准确率和预测稳定性明显下降,甚至需要推倒重来。
由此可见,公共数据面临的核心问题,并非“开放不够”,而是长期重采集、轻治理,忽视了以人工智能应用为导向的数据可用性和可持续性建设。
(二)专业领域数据:沉淀在系统之中,难以转化为模型能力
在医疗、能源等专业领域,大量高价值数据长期沉淀在机构内部系统中,本应成为构建专业领域模型的重要基础,却普遍面临“看得见、用不上”的困境。
以医疗领域为例,电子病历在全国范围内持续普及,但不同医院、不同信息系统之间的数据标准差异明显,影像、检验和诊断数据在格式、标签和语义层面缺乏统一规范。一些地区在推进医疗人工智能试点时发现,即便算力和算法具备,仍需投入大量时间和成本进行数据清洗、脱敏和重新标注,相关工作量往往占据项目整体的七成以上。
专业领域数据难以转化为模型能力,根本原因不在于技术门槛,而在于数据供给仍停留在“部门占有”和项目化使用的逻辑之中,缺乏制度化共享和长期治理安排。
(三)工业过程数据:重采集、轻标准形成数据沼泽
在制造业领域,数据困境更具普遍性和复杂性。随着智能制造的推进,大量传感器、控制系统和业务系统持续产生设备运行、工艺参数和质量检测等数据,但这些数据往往只是“存在系统里”,却难以真正进入模型。
其核心障碍在于数据碎片化和低质量:设备和系统标准不一,跨产线数据难以比较;系统升级导致历史数据断档,模型难以学习完整生命周期规律;工业环境中的噪声和异常值进一步污染数据质量。这些问题导致数据形成“数据沼泽”——数据缺乏统一的语义标注、跨系统关联标识符不统一,难以被模型长期、稳定消化和复用。当企业推进预测性维护等应用效果不佳时,问题常被归因于模型不成熟,却忽视了数据采集和治理顶层设计的缺失。
因此,高质量工业过程数据供给不足,本质上仍是缺乏统一标准和长期治理视角所导致的数据底座不稳。
(四)从供给失序到系统性风险:低质量数据的外溢效应
需要强调的是,公共数据、专业领域数据和工业过程数据在供给层面的问题貌似各不相同,但其背后的治理逻辑高度趋同。一旦数据在合法性、标准化和可流通性上长期失序,风险便不会停留在“应用效果不佳”这一技术层面,而是会在规模化应用过程中外溢为治理、伦理和公平性问题。
在公共治理、基层服务和金融风控等高敏感领域,模型若建立在不完整或失真的数据基础之上,其偏差往往会被自动化和规模化持续放大。此类风险不易在短期内被发现,却可能在长期运行中不断累积,削弱公共决策的公正性与有效性。从这个意义上看,高质量数据供给问题已经不只是“人工智能+”发展的技术瓶颈,而是关系到治理能力和社会信任的基础性制度问题。
三、分类施策:以精准激励机制夯实高质量数据供给底座
破解高质量数据供给难题,不能停留在“加强治理”“完善制度”的原则性表述上,而必须正视一个现实前提:公共数据、专业领域数据和工业过程数据在供给主体、风险结构和收益预期上存在显著差异。为此,有必要区分不同数据类型的内在属性,构建分层分类、可预期的制度激励体系。
第一,明确公共数据责任边界,把“可用性”纳入履职评价
公共数据是“人工智能+”最重要、也最具公共价值的数据来源,但其高质量供给长期受到责任风险高、激励不足的双重制约。破解这一困境,关键在于通过制度设计,降低公共数据用于人工智能训练和推理的不确定性。
一方面,应针对明确服务于人工智能应用的数据集,建立用途清晰、边界明确的授权机制,通过清单化管理方式界定责任范围,减少部门在数据供给中的合规顾虑。
另一方面,应将数据的标准化程度、可复用性和可训练性,纳入数字政府建设评价和部门绩效考核体系,使高质量数据产出成为可被识别和评价的履职成果。传统的数据开放政策,往往以“数量”“目录”为导向,而忽视了人工智能对数据质量和使用方式的特殊要求。未来应转向以“可用性”为核心的分级开放机制。
只有当“数据可用”不再意味着额外风险,而能够转化为明确的制度回报,公共数据的高质量供给才可能从被动配合转向主动建设。通过清单化、制度化的方式,为数据提供方划清责任边界,降低“合规不确定性”。同时,建立数据开放平台,提供数据查询、下载、调用等服务,方便数据使用者获取所需数据。
第二,为专业领域数据建立稳定的制度化回报预期
专业领域数据具有专业性强、治理成本高、隐含价值大的特点,其高质量供给面临的核心障碍,是数据治理投入与回报之间缺乏稳定、可预期的制度安排。在现实中,相关机构往往需要持续投入人力、资金和专业能力,用于数据清洗、脱敏、标注和标准化,但这些投入在现有制度框架下难以形成明确回报,导致高质量数据供给缺乏持续动力。
破解这一问题,应由政府牵头,在医疗、能源等重点领域推动建设高质量数据集和专业领域数据池,从制度层面明确数据贡献与模型训练、应用收益之间的关联机制。同时,应积极探索应用多方安全计算(MPC)、联邦学习等隐私计算技术实现数据“可用不可见”,在不泄露原始数据的前提下推动数据在模型训练中的安全、高效利用,以此降低数据流通中的合规顾虑和安全风险。
一方面,通过建立统一的数据质量评估和贡献计量规则,对数据在模型训练和应用中的实际价值进行客观评价,使数据治理成果能够被识别、被计量;另一方面,在合法合规的前提下,将数据贡献情况与科研支持、项目准入、数据资产化收益、应用采购等政策工具相挂钩,形成清晰的正向激励预期。相比一次性补贴或短期项目支持,这种制度化回报安排更有利于引导专业领域数据治理的建设,推动高质量数据供给形成良性循环。
第三,将工业过程数据作为“慢变量”纳入中长期政策支持框架
工业过程数据的高质量建设,具有明显的长期性、系统性和累积性,但一旦形成,便能够在较长时间尺度上持续支撑人工智能应用的稳定运行,是“人工智能+”体系中最典型的“慢变量”。
因此,应将高质量工业过程数据集视为新型基础设施的重要组成部分,在政策逻辑上与传统基础设施建设同等对待。通过技术改造补贴、设备更新支持、算力资源倾斜、税收政策等中长期政策工具,引导企业在较长时间尺度上持续改善数据采集标准、数据连续性和数据可信度,而非追求“立竿见影”的智能化展示成效。
同时,应推动组织内部建立跨部门的数据治理责任机制,将数据质量责任嵌入设备管理、工艺管理和质量管理等核心业务流程,避免将工业数据问题简单归结为信息化部门的技术任务,而忽视其对生产组织方式和管理模式的深层影响。从长远看,工业过程数据这一“慢变量”的夯实,决定着制造业智能化能力的上限,也是“人工智能+”能否真正扎根实体经济的关键所在。
第四,以重点行业示范工程带动数据治理模式复制推广
高质量数据供给难以在所有领域同时铺开,应遵循“先重点突破、再系统推广”的现实路径,优先在数据价值高、应用需求明确、治理基础相对成熟的行业开展示范工程。通过在有限范围内集中政策资源和制度创新,形成可复制、可推广的数据治理模式,以点带面推动整体数据供给体系的结构性优化。
在具体路径上,应围绕人工智能应用对数据质量的实际需求,系统推进行业层面的数据标准建设、可信数据空间搭建和共享机制完善。一方面,通过统一核心数据的采集口径、编码规则和语义标准,降低跨机构、跨系统数据整合成本,为模型训练和应用部署提供稳定输入条件;另一方面,通过建设行业级“可信数据空间”,在明确数据权属、使用边界和安全责任的前提下,推动数据在多主体之间有序流通,避免“数据可看不可用”“数据不敢用”的现象反复出现。
在行业选择上,医疗、工业、交通、能源等领域具有典型示范意义。这些行业既存在明确的应用场景需求,又普遍面临数据标准不统一、治理成本高企的问题,通过示范工程的方式推动制度、标准和流程的协同设计,更容易形成可感知的应用成效。同时,应注重总结示范工程中形成的数据治理规则、组织模式和激励机制,将其提炼为可复制的政策工具包,避免示范工程停留在“个案成功”层面。
第五,持续夯实数据治理“软环境”,强化组织协同与专业保障
高质量数据供给最终依赖于长期的数据治理能力,包括统一的数据标准体系、专业化治理队伍、稳定投入机制和跨部门协同安排。相比一次性项目建设,这类“软环境”建设更需要制度耐心。在政策层面推动设立高级别、跨业务部门的数据治理委员会或机构,赋予其数据标准制定、质量评估、安全合规审查的权威,确保数据战略能够自上而下地有效执行,解决数据供给中的“部门墙”问题。同时将数据治理专业人才的投入视为新型基础设施投入,并建立与其价值贡献相匹配的激励和评价体系,保障长期、稳定的治理能力。在政策设计和考核机制中,要避免短期化导向,为数据治理留出足够时间窗口,使高质量数据供给真正成为“人工智能+”可持续发展的底座能力。
“人工智能+”不是一场单纯的技术竞赛,而是一场深刻的治理变革。在这场变革中,高质量数据供给既是起点,也是底座。如果这一问题被低估、被延后,人工智能应用的规模化落地将始终受制于隐性瓶颈。反过来说,谁能率先建立起稳定、可持续的高质量数据供给体系,谁就掌握了未来智能化发展的主动权。
(作者赵付春系上海社会科学院信息研究所数字经济研究室主任,副研究员,博士)
来源:赵付春



































