建高质量数据集:运营商有什么?

建高质量数据集:运营商有什么?
2025年05月06日 10:02 通信产业报网

【通信产业网讯】(记者 崔亮亮)高质量数据是人工智能发展的根基。近年来,国家大力发展数据资源开发,促进高质量数据集建设,助力人工智能发展。运营商发展数据产业拥有得天独厚的海量用户生态和数据资源优势。

2024年12月,国家数据局联合中央网信办、工业和信息化部、公安部、国务院国资委印发《关于促进企业数据资源开发利用的意见》提出,支持企业面向人工智能发展,开发高质量数据集。并列举了12个重点行业领域,打造一批示范带动性强的人工智能创新应用,深化“人工智能+”应用赋能千行百业。其中,通信领域位列其中。

积极从通信服务公司向科技服务企业转型的运营商,将数据集建设视为紧抓人工智能发展机遇的重要抓手。在中国联通2024年度业绩发布会上,中国联通董事长陈忠岳指出,中国联通在数据集、智能体、大模型、AI基础设施、AI安全等五个方面紧抓人工智能机遇。

运营商的“天赋”优势

对于通信业来说,其传统意义上的数据,都是结构化数据表的形式。而随着人工智能发展,对高质量数据集的需求日益增多,尤为重要。

运营商高质量数据集特指文本、图像、音频、视频和多模态等形式。文本如外呼对话摘要、知识问答等;图像如受理数字人、基站损坏检测等;音频如代接录音、客服热线等;视频如人脸视频、客服等。目前,三大运营商积极拓展视联网业务,也是视频大数据重要来源。高质量视频数据集在应用上如中国电信平安慧眼、明厨亮灶等“AI+视联”场景应用;多模态如文生图数据、中国联通悟道图文视频等。

数据集来源分为内部全域数据、外部开源数据、行业合作数据和采购商用数据。

内部数据,例如,运营商客服通话、工程师代码、人员文档。内部数据是运营商传统优势数据。运营商中,中国联通是最早实现大数据全国100%集约的运营商。历经4年实现31省份10010智慧服务系统全国100%集约。已形成系统集约和数据集中优势。

外部开源数据来自政府公开行业数据、报告等。公开数据往往质量较低,专业度不足。

行业合作数据集为运营商与垂直领域合作数据集,进行合作或交换而获得的数据,针对性强,实用性较高。

采购商用数据为运营商商业引入的高质量数据集。中国移动2024年财报透露,中国移动积极构建九天生态汇聚平台,开放大模型训练基地、评测基地、产业创新基地,引入多个国内外优质大模型、数据集和智能体。

数据集成势

2025年3月,三大运营商发布的2024年财报中,都不约而同公布各自数据资产价值情况,率先实现数据资产入表。2024年,三大运营商数据资源总额达13.66亿元,其中,“无形资产”数据资源总计7.27亿元,“开发支出”数据资源总计6.39亿元。三大运营商积极推进数据价值转化,取得了积极成果。数据资源环比增长,不仅体现了运营商数据治理能力、技术创新能力、商业模式升级能力的提升,更标志着运营商正从“数据资源持有者”向“数据资产运营者”跃迁。

当前,中国电信构建“星海”数据资源地图,融合电信日均1.6PB自有数据、金融、互联网等27个行业数据和33省市15类公共数据,通过集中入湖、隐私互联等方式,打造开放共享的可信数据空间。中国电信“星海”数据智能中台支持百万级混合任务调度,服务超过150家政企客户。构建规模超9万亿Token的大模型训练数据集。

中国联通数据规模超600PB。累计形成高质量数据集71.11TB,涉及文本、图像、音频、视频和多模态等。其中,内部和开源数据集35.53TB,外部和行业数据集35.58TB。中国联通表示,已形成了领先的数据集采、标注、治理和服务能力,将汇聚各行业高质量数据集,在可信空间实现数据规模流通,促进人工智能的快速发展。

中国移动2024年财报显示,中国移动能力中台方面,上台能力规模1348项,能力累计调用量7776亿次。中国移动构建全球规模最大的通信服务数据集群——梧桐大数据平台,汇聚沉淀数据规模超2000PB,数据服务年调用量超千亿次。中国移动推动数联网(DSSN)成为国家数据流通利用基础设施主流技术设施及实践方案,写入《国家数据基础设施建设指引》。

如何高质量

运营商作为信息通信产业基础设施服务提供商,业务边界正不断拓展。在人工智能大模型时代,积极将信息通信服务向战略性新兴业务拓展。

在行业数据集拓展方面,中国移动自主攻坚九天通用大模型,实现数据构建、预训练、微调、推理等全链路核心能力自主创新,支持语言、视觉、语音、结构化数据、多模态等全模态、多尺寸版本,成功入选“2024 年度央企十大国之重器”。布局能源、交通、医疗、教育等40款AI行业大模型,助力各行各业“智改数转网联”。中国联通推出的人工智能创新成果——元景大模型,已经形成37个行业大模型和100多个标杆应用。

运营商数据集建设面向大模型落地的各个行业,受到行业数据隐私保护和数据安全合规性要求影响,不能完全满足通用大模型在垂直领域应用落地的要求。还需进一步加强与行业数据伙伴合作,扩大数据规模,增加数据的维度和深度,解决数据分散且标注成本高的问题,共同开发建设高质量行业数据集。

运营商建设高质量数据集并非易事。首先,数据采集过程中存在数据的隐私和安全等问题。其次,数据标注的准确性和一致性也是影响数据集质量的关键。最后,如何高效地存储和管理这些数据也是巨大挑战。

运营商需要从数据的采集、清洗、标注、存储和管理等多个环节入手,确保数据的准确性、完整性、一致性和安全性。同时,还要考虑数据的多样性、代表性和可扩展性,以满足不同场景下的AI应用需求。运营商可通过有效数据规划,汇聚多源数据打造成可复用数据资产,实现数据价值萃取,打造以高质量数据集为基础的数据价值经营体系,实现与相关垂直行业领域交换与交易和安全管理,输出高质量行业数据集用于训练各行业大模型。发挥链长作用,通过产业联盟等组织机制作用,推动建立数据开放社区,支持开源数据集建设。

同时,还需构建数据人才储备。目前,运营商尚缺少顶尖AI人才和AI实际场景落地人才,还应继续加强人才结构优化和集约,夯实迈向科技服务企业的基石。

0条评论|0人参与网友评论
最热评论

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部