【金猿技术展】基于AI的数据规则表达式生成方法、装置、设备及介质_

华傲数据技术

该技术由华傲数据投递并参与“数据猿年度金猿策划活动——2024大数据产业年度创新技术突破榜单及奖项”评选。

本发明实施例公开了一种基于AI的数据规则表达式生成方法、装置、设备及介质。该方法包括：获取训练数据集，并通过AI人工智能技术对训练数据集中元数据和元数据的数值进行分析，以生成初始规则表达式；通过初始规则表达式对第一待检测数据集进行检测生成问题数据清单；将打标签后的问题数据清单输入AI人工智能技术进行回归训练以生成训练规则表达式；将训练规则表达式和第二待检测数据集分别作为初始规则表达式和第一待检测数据集，返回执行生成问题数据清单这一步骤，直至训练规则表达式满足预设条件为止，以生成最终规则表达式。本申请不仅省事省力，而且还提高了数据规则表达式生成准确性，进而提高了数据分析的准确性。

技术说明

当前，业内进行数据分析理解的常用方法，是通过人工分析理解数据与逻辑，由人工判断数据的规律、数据与数据之间的逻辑依赖关系。

但是如下几种情况的存在，纯人工的数据分析理解存在着投入资源过大、耗时长、准确性不高等问题：

1. 因为数据碎片化情况非常严重，进而导致数据的规范性非常差，并且数据与数据之间的相关性复杂；

2. 因为历史老旧系统的存在，普遍存在着数据格式混乱且文档缺失的情况，只能通过人工梳理数据的规律、特征，推断数据的含义；

3. 在进行数据模型设计、多源数据整合的时候，需要花费巨大的精力，由人工梳理字段与字段之间的关系；

基于上述痛点问题，本发明实施例提供了一种基于AI的数据规则表达式生成方法、装置、设备及介质，旨在解决现有数据规则表达式生成费时费力且准确性不高的问题。

第一方面，本发明实施例提供了一种基于AI的数据规则表达式生成方法，其包括：

获取训练数据集，并通过AI人工智能技术对所述训练数据集中元数据和所述元数据的数值进行分析，以生成初始规则表达式；通过所述初始规则表达式对第一待检测数据集进行检测生成问题数据清单；将打标签后的所述问题数据清单输入所述AI人工智能技术进行回归训练以生成训练规则表达式；将所述训练规则表达式和第二待检测数据集分别作为所述初始规则表达式和所述第一待检测数据集，返回执行所述通过所述初始规则表达式对第一待检测数据集进行检测生成问题数据清单的步骤，直至所述训练规则表达式满足预设条件为止，以得到最终规则表达式，其中，所述第一待检测数据集和所述第二待检测数据是不同场景下的数据集。

第二方面，本发明实施例还提供了一种基于AI的数据规则表达式生成方法装置，其包括：

获取分析单元，用于获取训练数据集，并通过AI人工智能技术对所述训练数据集中元数据和所述元数据的数值进行分析，以生成初始规则表达式；检测单元，用于通过所述初始规则表达式对第一待检测数据集进行检测生成问题数据清单；生成单元，用于将打标签后的所述问题数据清单输入所述AI人工智能技术进行回归训练以生成训练规则表达式；返回执行单元，用于将所述训练规则表达式和第二待检测数据集分别作为所述初始规则表达式和所述第一待检测数据集，返回执行所述通过所述初始规则表达式对第一待检测数据集进行检测生成问题数据清单的步骤，直至所述训练规则表达式满足预设条件为止，以得到最终规则表达式，其中，所述第一待检测数据集和所述第二待检测数据是不同场景下的数据集。

第三方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时可实现上述方法。

本发明实施例提供了一种基于AI的数据规则表达式生成方法、装置、设备及介质。其中，所述方法包括：获取训练数据集，并通过AI人工智能技术对所述训练数据集中元数据和所述元数据的数值进行分析，以生成初始规则表达式；通过所述初始规则表达式对第一待检测数据集进行检测生成问题数据清单；将打标签后的所述问题数据清单输入所述AI人工智能技术进行回归训练以生成训练规则表达式；将所述训练规则表达式和第二待检测数据集分别作为所述初始规则表达式和所述第一待检测数据集，返回执行所述通过所述初始规则表达式对第一待检测数据集进行检测生成问题数据清单的步骤，直至所述训练规则表达式满足预设条件为止，以得到最终规则表达式，其中，所述第一待检测数据集和所述第二待检测数据是不同场景下的数据集。

本发明实施例的技术方案，先通过AI人工智能技术对训练数据集中元数据和所述元数据的数值进行分析生成初始规则表达式；再通过初始规则表达式对第一待检测数据集进行检测生成问题数据清单，将打标签后的问题数据清单输入AI人工智能技术进行回归训练以生成训练规则表达式，循环上述问题数据清单和训练规则表达式生成过程，直至训练规则表达式满足预设条件为止，以生成最终规则表达式，整个数据规则表达式的生成过程只需人工参与打标签这一步骤，其余步骤均自动线上完成，不仅省事省力，而且还提高了数据基于AI的数据规则表达式生成准确性，进而提高了数据分析的准确性。

开发团队

·带队负责人姓名：贾西贝

贾西贝，英国爱丁堡大学博士毕业，国家级高层次人才。现任华傲数据技术有限公司董事长，兼任公共大数据国家重点实验室副主任、哈尔滨工程大学等多所大学客座教授、北京市特聘专家、深圳先行示范区特聘专家、信标委大模型训练数据国家标准专题组联合组长等职。曾入选英国爱丁堡皇家学会Enterprise Fellow、科技部“创新人才推进计划”人才、DAMA（国际数据管理协会）荣誉CCDO（认证首席数据官，2021年）、广东省优秀中国特色社会主义事业建设者（2022年）、深圳十大最美科技工作者（2022年）。已在大数据领域申报了131项中国发明专利，51项国际专利（PCT）；曾获IEEE国际数据工程大会（ICDE）最佳论文奖，3次在国际顶级数据库综合大会VLDB上演示数据清洗系统，研究成果被多家国际著名公司应用。

团队其他重要成员姓名：何旭珩、曾新科、姚晓峰、龚建、陈立

·隶属机构：华傲数据

深圳市华傲数据技术有限公司（简称“华傲数据”）是一家致力于为政企提供覆盖数据要素全生命周期的整体解决方案提供商。公司创立于2011年，是国家专精特新“小巨人”企业及广东省大数据骨干企业。

公司研发了一套覆盖完整数据生命周期的数据智能产品族及深入业务的行业解决方案，广泛应用于政府、交通、金融等行业，服务了分布在国内26个省、65个城市的政企客户，以及肯尼亚、阿联酋、阿尔及利亚、埃及等中东北非客户，以数据治理融合领导者的先发优势和智链数技术融合者的业务积累，帮助政企客户加速实现数据要素的市场化配置和数据资源的价值释放，让政企客户获得数据红利和算法红利，站在数据之巅。

面向数据要素市场，公司基于十四年公共数据治理和城市数据资源体系建设的经验，研发了公共数据授权运营和数据入表新模式探索中的产品及方案，帮助一批行业前沿客户快速高效落地实现了公共数据和企业数据的授权运营，探索出了数据资源入表最佳实践，通过数智融合发挥了数据要素在企业经营、数据产业、数字经济中的作用。