中国工程院院士邬贺铨:数据价值挖掘的挑战

中国工程院院士邬贺铨:数据价值挖掘的挑战
2021年01月04日 10:40 数据观资讯平台

来源: 数据观

近日,由中国国际大数据产业博览会组委会主办、数据观(北京)传媒科技有限公司承办的“永不落幕的数博会”2020系列活动——“大数据产业生态创新发展高峰会”在北京举行。

本次大会汇集两院院士、政府嘉宾以及大数据龙头企业代表,围绕加快数字产业化,助推产业数字化,构建大数据新产业新业态新模式,共同探讨未来大数据产业生态建设与发展的机遇与挑战。会上中国工程院院士邬贺铨发表了《数据价值挖掘的挑战》的主题演讲。

数据融合利用需要标准规范先行

邬贺铨院士表示,数据融合利用需要标准规范先行,实现数据可见性、数据易理解性、数据可链接性、数据可信性、数据互操作性和数据安全性。

邬贺铨院士通过举例具体介绍到,以色列首都特拉维夫把所有交通摄像头的视频合成一个完整的视频,就像城市的领导坐着直升飞机俯视这个城市一样,可以看到不同的时间用不同颜色标注交通管制、交通事故,并且实时通过5G、4G发送给行人、驾驶员,供大家选择自己的出行路线,这是数据可见性;新冠肺炎确诊除了做核酸检测,可能还要做CT,一个肺可以做出300张CT,把300张CT照片还原为一个肺,再看看肺有没有纤维化,肺周边怎么样,可以让数据变成可理解;要展示去年和今年的欧洲航空情况,把所有飞机上的数据连接起来,形成一个航空的数字孪生的交通镜像,就有了全局性;有很多古罗马的遗址散落在现代建筑之中,如果想看古代罗马怎么样,现在可以把这些遗址照片合成一个视频,把时空分散的照片组合起来,生成一个反映古罗马街景的视频,这是数据的互操作性。

关于数据的可信性和安全性,邬贺铨院士特别提到,如果数据本身是不全面的,或者说是有很多差错的,那这个数据挖掘是没有用的,需要有数据质量管理技术,按照规定程序适当标记、保存和记录数据,在寿命周期内都能够保护和血缘元数据的约束。数据安全性方面,需要实现精细化权限管理和审计,定期评估分类标准并测试合规性。

数据挖掘面临算力算法的挑战

邬贺铨院士表示,数据挖掘首先要建数据模型。建数据模型的前提需要了解模型开发背景和用途,以及谁来训练模型,这些数据从哪来,模型运用的效果如何,需要关注算法的完整性、可解释性、公平性和适应能力。同时,模型开发完还需要不断地检验、迭代和完善。

算法现在主要还是用深度神经网络,深度神经网络经历了两代,第一代主要是知识驱动,就是专家系统,把专家经验找出来,然后逻辑推理。现在是第二代人工智能,大数据来了,是数据驱动。邬贺铨院士认为,这两个都不够完整,“目前大数据很多应用,我把它叫做大数据、大算力、小任务,非常多的数据,能力非常强的计算能力,实际上只做了一件很小的事情,而且稳定性不够,知其然不知其所以然,可解释性差,应用场景窄,怎么解决这个问题呢?最好是小数据、小算力、大任务。”贺铨院士表示,现在需要发展到第三代,需要知识与数据双驱动,而且很多人说需要内脑,把人的认知机理用上去,虽然比较困难,但是这个方向还是需要的。

邬贺铨院士谈到,往往大数据分析不能只靠中心云,很多时候要使用边缘云,因为边缘云可以就近处理,适用于那些对数据试验敏感的一些业务,包括我们的生产线上,一些数据不能送到远远的地方去处理,这样就不能起到实时的作用,只能得到经验的总结,有时候需要实时,就要把中心云的能力一部分下沉变成边缘云。如果所有东西都希望云边端协同,但这是这是有挑战的,怎么协同,怎么分配这种计算能力,这是大数据挖掘需要解决的问题。

现在是大数据、大算力、小任务,大数据也不见得那么全面,人工智能会误判,而且模型准确性也不是想象中那么好,人工智能需要大量标注或清洗的数据,但很多时候只有小数据,怎么在小数据、小算力的情况下边提高人工智能的分析能力,这是大数据分析面临的挑战。

大数据融合需要人与数据融合

邬贺铨院士认为,很多大数据融合需要人与数据融合。把人的数据跟客观的东西融合在一起,把人的经验介入到大数据分析过程,但是人不能永远介入,什么时候什么场景下能介入,这是需要经验的。大数据分析不是不需要人,也不是大数据、工业互联网时代的工人、工程师没用了,里面还需要用到工程师和工匠的精神。

数据只有融合才有价值,但融合就涉及到隐私和商密保护问题。邬贺铨院士谈到,每个企业都希望用别人的企业的数据,不愿意把自己的数据拿出去,总觉得这是商业秘密,那怎么做融合?怎么做到既融合又不会泄露每个企业的商业秘密,这是可以做到的,也有很多很多方案,比如采用多方计算的方式。

此外,大数据分析本身会用很多软件,包括很多开源软件,可以网上宕下来,但是开源软件漏洞很多,而且版本升级太频繁,需要检查它的安全性,采用也可能会出问题。如果用自然语言直接生成代码,当然反过来就能从代码判决出原来这个软件的意图,如果能知道这个软件意图,那就能知道有没有加入其它不该加入的东西,就能确保代码是可信的。另外一种,大家往往为了怕数据泄露和篡改,采用加密手段,加了密的数据是比较难进行安全扫描的,不过加密也不是万能的,还得从开始作为内生的设计上让它更安全。

演讲的最后,邬贺铨院士总结谈到,智慧城市的管理和工业互联网里有很多需要数据融合应用的场景,多元异构的数据融合能够盘活数据,通过数据挖掘开发数据的价值,发挥数据作为生产要素的作用。但是数据挖掘和人工智能的分析要面对海量的处理能力、云边端的协同、建模、小数据、人与数据的融合、数据自身安全、隐私和商密保护等挑战,我们需要从基础理论跟工程实践多方面来研究数据价值挖掘的问题,要开发出更高效的大数据和人工智能分析技术,整个大数据的创新还是任重道远。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部