漫画时序数据库:好险,差一点没挤进工业制造的高端局

漫画时序数据库:好险,差一点没挤进工业制造的高端局
2022年10月13日 10:48 谭婧在充电

图文原创:谭婧

互联网企业有句口号:距离成为百年企业,还有七八九十年。

互联网企业和工业制造企业比年龄,就输了。

工业制造企业的龙头,动不动就是百年企业。

看看,通用,西门子,再看看,宝武集团。

编辑

工业制造为了管好高端装备和工程建筑物,就用传感器收集它们的数据。

这是一种带有时间标签的数据,叫时序数据(Time Series data)。

编辑

其实,时序数据在生活中也很常见。

编辑

虽然时序数据跟整个数据管理相比只是其中很小的一个门类,但架不住传感器数量多,收集频率高。不少场景要求尽可能的收集传感器数据。

于是,时序数据的体量和占比在急剧变大。

编辑

举个例子,特斯拉车主到底有没有踩刹车,谁敢仅仅依据少量样本数据做判断。

如果一个东西占用的资源并不低,无论为了控制成本,还是挖掘价值,都会在这里头大做文章。

存好,用好,时序数据库呼之欲出。

但是,数据库是系统级别的产品,是基础软件,做出产品很难。

我来讲一些制造企业的例子,细聊工业时序数据几件有趣的事。

早在2013年,像三一重工这样的企业的一台挖掘机上,就会有几百个传感器。

而一台大型发电机组可能会有上万个传感器。

再看,像宝武集团这样的龙头工业企业,会以毫秒为单位采集,比如,5毫秒采集一次,或者10毫秒采集一次。

编辑

时序数据按时间顺序产生,

时序数据的新数据比旧数据常用。

时序数据写多更新少(或者说更新是批量化的)。

时序数据库的写入能力须快到飞起,甚至要求“超大规模数据瞬时写入”。

这还不够,要管理乱序数据。

编辑

这个工作让关系型数据库来干,就得说Sorry了。

因为关系型数据库做不到写入得这么多这么快,也不是为乱序数据管理而设计的。

网友说,这个要求很过分。

过不过分,得看具体情况。

把目光移到新疆哈密,甘肃酒泉,不仅看风机,还能看风景。

编辑

让你去观察一座桥梁的震动情况,你得重视监控的精确性。正常情况下,用100-1000Hz的频率去采集数据。

或者说,观察桥梁的震动,你得一秒钟观察上万次。

往大里说,得在分厘毫丝之间,保证人民群众的生命和财产。

变化,只发生在中国吗?

并不是。

编辑

赶上早班车的国际数据库产品包括:

开源时序数据库InfluxDB,在2013年发布。

闭源时序数据库Amazon Timestream,是AWS公司于2018 推出。

有预测,2025年时序数据库的市场规模在269亿元左右。

时序数据库,有不少有趣之处。

编辑

时间戳是所有时序数据必有的字段,数据大部分按照时间顺序到达。好比医生有很多病人,每个病人有号码牌,病人按顺序就诊。

查询也以时间为中心,比如指定时间点和时间段。

关系型数据库是一个集合。时序数据就是一个有时间顺序的集合。

时间戳是主键,是不能重复的信息。多了这个维度,就看怎么利用好。

数据库的“两条腿”是查询引擎和存储引擎。时序数据库的“两条腿”的设计必须融入时间维度的处理要素。

给时间戳加索引,就可以加快查询。

拿到数据,控制好设备,工作就结束了吗?

在自动化那一代产品的眼中,它们的工作就结束了。

在新兴时序数据库的眼中,工作没有结束。

生于自动化年代的知名数据库是Pi,它也是传统时序数据库的祖师爷。

这家美国公司的产品,国内电厂几乎家家都用。也有人称之为工业场景里的实时数据库。

Pi 的优势是在运营技术(Operational Technology,OT)生产场景,而在 OT 与大批量数据读写的 IT 结合场景,还有较大提升空间。

2021年它被施耐德以50亿美元收购。

编辑

这里有灵魂三问。

编辑

1.大型制造装备动辄几万个传感器,而且工业设备资产有层级属性。受限于关系数据模型,威力就会受限。

所以要问,能在数据模型上想办法吗?

2.过去默认传感器这个“端”只负责产生数据,现在不同了,把整理好的数据发送到云端,以减轻云上的压力“端”要承担更多工作量。

风机往往立在田野里,山坡上,甚至还有山东海上风机。时序数据传到工厂,而大型集团又可能会涉及多个工厂。

所以要问,能设计专门的传输方法吗?

3.最后再说文件格式,这会关系到编码方式和存储方式,影响占用多少存储空间,也会影响花多少力气传输。

同样的数据,用不同的文件格式,所占用的空间不同,所消耗的网络资源也不同。

省存储空间和省网络资源都可以省大钱。

所以要问,能在文件格式上想办法吗?

这三个问题有点难,而且涉及的技术维度非常底层。

其实时序数据库还有很多很难的问题等待被解决。

没有好的时序数据库,后面的分析,挖掘,人工智能应用就会吃力。

工作嘛,就讲究一个默契配合。

时序数据库属于一种AI基础设施,更是一种基础软件。

好了,

这回就聊到这吧。

编辑

差点忘了,特斯拉的历史很短,却引领了多项技术的标杆。

马斯克流量大,头脑清醒。

面对特斯拉如此多的优势,他却说:“制造能力是特斯拉最大的竞争力。”

有一种规律藏在制造业里好多年了,你肯定看出来了:那些称霸生产制造的国家,也同时称霸基础软件。

编辑

最后,再介绍一下主编自己吧,

我是谭婧,科技和科普题材作者。

为了在时代中发现故事,

我围追科技大神,堵截科技公司。

偶尔写小说,画漫画。

生命短暂,不走捷径。

原创不易,多谢转发

还想看我的文章,就关注“亲爱的数据”。

谭婧老师的漫画科普系列不开放授权转载,无授权转载,抄袭,盗版者,保留诉诸法律的权力。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部