随着人工智能技术逐渐从通用模型转向行业垂直应用场景,数据这一关键要素的高质量供给问题日益突出。当前,各企业对构建行业知识底座的需求尤为迫切,推动了人工智能数据集需求量和交易量的激增。然而,在高质量数据集建设与流通环节仍存在诸多挑战。
据最新市场观察,过去一年里,人工智能数据集在整体交易中的占比大幅提升,从2024年初的10%迅速增长至目前的80%,显示出这一领域的活跃度显著提升。以北京国际大数据交易所为例,其已累计交付1814TB高质量数据集,并实现近2500TB的数据交易量。
高质量数据集的定义是为训练、验证和优化大模型而专门收集、整理并标注的专业化行业知识资源。根据《"数据要素×"三年行动计划》,国家鼓励科研机构和龙头企业建设行业共性数据资源库,以支持大模型训练。
在具体应用场景中,人工智能头部企业主要将这些数据用于构建行业知识底座,而非直接进行参数调优。同时,不同行业的数字化水平差异显著影响着高质量数据集的供给情况。例如,在金融和医疗等高数字化行业,由于基础数据较为完整,能够提供丰富的标注化数据产品;而农业等低数字化行业则需要更多前期准备工作才能形成高质量数据集。
尽管数据交易所的交易量增长迅速,但其在模型训练数据采购中的占比仍相对较低。目前市场的主要采购途径包括互联网公开数据、购买版权数据、资源置换以及自建数据生产线等。其中,互联网公开数据仍是主要来源,但其使用比例正在逐步下降。
在数据处理方面,企业通常会采取一系列严格的清洁流程,确保数据质量,并结合蒸馏数据和合成数据来补充训练需求。然而,当前高质量数据集的建设仍面临诸多挑战:目标定位模糊、实施路径碎片化以及技术底座薄弱等问题亟待解决。
多位行业专家指出,未来人工智能的发展将更加依赖于数据基础设施的完善。预计,90%以上的从业人员将集中在数据生产线领域,包括数据采集、生成和处理等环节。同时,数据标注也正在从粗放式向精细化转变,尤其是在法律等专业领域,仍存在人才短缺问题。
总的来说,尽管人工智能数据集市场呈现蓬勃发展态势,但其在质量、产权、加工方式以及行业覆盖等方面仍有待进一步完善。未来,如何优化数据基础设施建设,将成为推动人工智能技术发展的关键所在。
责编:戴露露



