生成式 AI 将如何赋能自助式数据管理

生成式 AI 将如何赋能自助式数据管理
2024年04月10日 16:31 Analysys易观

生成式 AI 和大型语言模型允许非技术用户直接处理数据,但请确保仔细实施这些系统。

成式 AI 和大型语言模型 (LLM) 彻底改变了我们与数据交互 和利用数据力量的方式。企业已经开始依赖生成式 AI 进行虚拟协助、内容创建、图像编辑和许多其他应用程序。除了这些用途之外,我看到的最有希望的转变之一是使用生成式人工智能来实现数据管理的民主化。

就目前而言,数据管理仅限于高技能技术人员,因此普通员工无法参与这项工作,即使他们对数据本身非常熟悉。然而,通过引入生成式人工智能和LLM,企业可以使技术技能有限的个人能够独立浏览庞大的数据集,获得自己的见解,并最终实现更高的效率和更有意义的数据民主化。

生成式 AI 将如何实现数据管理民主化?

LLM集成到数据管理领域正在向非技术用户开放该领域。由于它们能够理解和响应自然语言查询,因此它们在复杂的数据结构和没有专业技术知识的个人之间架起了一座桥梁。用户现在可以用通俗易懂的语言提出问题,LLM 通过对上下文的理解,可以解释这些查询并检索相关信息。现在,了解数据的业务部门可以直接使用数据,而无需中介。

有关人工智能的更多信息

每个初学者都应该知道的机器学习基础知识

生成式 AI 对非技术用户的价值

传统上,数据管理一直是一个由技术专家和数据科学家主导的领域,使用 Python 或 斯卡拉。即使是可用的无代码/低代码选项,仍然需要深厚的技术专长,包括一些编程敏锐度,才能充分释放平台的优势。

然而,LLM融入这一领域正在打破这些障碍。这些模型拥有数十亿个参数,在不同的数据集上进行训练,使它们能够理解文本信息中的上下文和细微差别。由于它们能够理解和响应自然语言查询,因此它们在复杂的数据结构和没有专业技术知识的个人之间架起了一座桥梁。

用户现在可以用通俗易懂的语言提出问题,LLM 通过对上下文的理解,可以解释这些查询并检索相关信息。这种从技术查询语言到自然语言界面的转变为那些没有编程或数据库查询专业知识的人消除了重大障碍。这些模型使用户能够动态探索数据集,通过交互式对话生成见解。用户可以根据初始结果迭代优化查询,从而实现更有机、更直观的数据探索。

这种迭代过程促进了对数据集的更深入理解,并鼓励采用更灵活和适应性更强的数据分析方法。通过使业务用户能够更轻松地查看和调整数据集,LLM 可以引导用户对基本模式和趋势形成更全面、更细致的视图。 此外,它们确保数据分析能够对不断变化的环境和需求做出响应,允许用户随着时间的推移调整他们的方法——所有这些都无需依赖任何编码知识。

变更管理和生成式 AI 实施

显然,生成式人工智能将对数据管理产生变革性影响,企业正在积极寻找工具和软件,为技能有限的最终用户提供这些强大的功能也就不足为奇了。与此同时,产品所有者正在寻求将生成式 AI 和 LLM 构建到他们的平台中,以优化效率并减少构建管道所需的时间。因此,在过渡到包含生成式 AI 的解决方案时,我们通常可以预期阻力最小。然而,变革管理仍然是必要的。

过去,IT 团队和数据工程团队主要负责数据管理,而将这项工作民主化意味着业务团队现在将负责自己的数据管理。我经常看到这种类型的转变导致组织混乱:谁做什么?一个团队或部门的职责在哪里结束,另一个团队或部门的职责从哪里开始?这种不确定性还可能导致影子 IT 团队的出现,并使整个组织面临更多风险。

此外,虽然将 LLM 集成到数据管理中提供了许多机会,但它也提出了您必须考虑的某些挑战。隐私通常是一个关键问题,因为 LLM 可以记住他们的部分训练数据,其中可能包括个人身份信息 (PII) 或其他机密细节。在部署阶段,这意味着 LLM 可能会无意中泄露私人或敏感信息。

除了隐私之外,潜在的有偏见的结果以及需要持续的模型训练以适应不断变化的数据集也是企业必须解决的关键因素之一。此外,确保用户了解 LLM 的局限性,而不是仅仅依赖自动化输出,对于保持数据驱动决策的完整性至关重要。解决这些风险包括构建严格的数据治理实践,向 LLM 添加过滤或控制机制,以及进行一些基本的用户培训,为业务受众提供成功使用生成式 AI 所需的背景。

引入生成式 AI 需要思维方式转变

即使采取了变更管理措施,您仍然需要做更多的工作来确保组织能够开始从数据民主化中获益。当您开始探索使用这些解决方案时,请记住两个关键点。

首先,要意识到,这个领域的真正赢家将是那些真正关注生成式人工智能的附加优势的人。纯粹为了拥有闪亮的新玩具而追求集成生成式人工智能的公司会发现,它并不像他们想象的那么有效或那么好。与此同时,那些致力于确定数据管理的哪些领域可以从引入该技术中获得最大价值的人会发现,他们开始看到改进的结果可能比他们最初预期的要快得多。

例如,如果一个组织可能推出任何生成式人工智能平台,另一个组织可能会首先确定主要瓶颈或业务组,这些瓶颈或业务组由于无法控制自己的数据管道而一直在努力取得有意义的进展。在这个例子中,很明显,第二个组织将比第一个组织更快地开始看到 LLM 的切实好处。不幸的是,许多企业不愿意花时间完成这项关键的准备工作,而是快速推出一个由生成式人工智能驱动的新系统。

其次,要了解在数据管理领域必须首先执行的所有流程和优化。一个方面是数据管理本身需要优化,以便它可以向人工智能提供高质量的数据,以便它可以执行机器学习、建模、训练等。LLM 严重依赖其训练数据的质量来生成准确且有意义的输出。如果输入数据嘈杂、不完整或包含偏差,则可能会对模型的性能和可靠性产生负面影响。因此,组织需要实施强大的数据清理、预处理和策展策略,以提高数据的质量,然后再将其用于训练或微调 LLM。

同时,公司应该考虑如何利用生成式人工智能的力量来改善整体数据管理。您可以使用 LLM 来自动化数据处理的各个方面,并可以帮助识别大型数据集中的模式、关系和异常,从而实现更高效的数据管理。例如,LLM 可以自动生成元数据,使用相关标签标记数据,甚至可以根据他们对上下文的理解提出数据质量改进策略。

可以把它想象成一条双向的街道。您可以迭代处理数据管理流程,以优化它们以满足生成式 AI 的需求,然后使用生成式 AI 继续优化数据管理。

数据与领导力

领导数据科学项目时应该做的 7 件事

生成式 AI 可以改变数据管理

LLM 与数据管理的融合标志着一个变革时代,在这个时代,具有不同技能的个人可以进行自助式数据探索。这种从技术依赖到直观、自然语言交互的转变标志着数据的民主化,促进了一种更具包容性和协作性的方法来利用信息的力量。随着 LLM 不断发展和应对挑战,数据管理的未来有望更加以用户为中心,使更广泛的个人能够解锁隐藏在广阔数据领域的见解。但为了实现这些最终结果,企业需要致力于强大的变革管理——限制影子 IT 组织的崛起——并转向生成式 AI 思维方式,而不是将其视为快速解决方案。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部