过去一年,关于“大模型”的讨论越过了研究圈、产业圈,走进了政府文件、上市公司财报,也出现在越来越多企业的年终目标中。无论是面向C端的智能助手,还是B端行业应用的垂类模型,AI正在被一部分企业寄予“重构工作流程”的厚望。
但在所有关于大模型能力的叙述背后,一个问题正变得越来越重要——谁来为它们提供持续、可用的数据支撑?
主流模型厂商的训练任务,已进入TB到PB级的数据量级。数据调度、访问频率、传输稳定性和读取延迟,成为影响模型效果甚至商业化效率的变量。可以这样说:“大模型的能力上限,一部分取决于它‘吃’了什么数据,另一部分取决于它‘怎么吃’。”
传统的存储系统,习惯于服务于结构化数据和面向人类使用场景的查询请求;但现在它们要面对的是参数动辄千亿、需要并行读取、多模态理解的大模型。存储从后台系统走到了模型前台,需要兼顾性能、成本和灵活性;而这些,本不是为其设计的核心目标。
与此同时,存储也不是单方面“供血”的角色。在部分高频推理、边缘部署和多语言模型场景中,模型反过来开始影响数据访问方式和存储架构。过去那种“训练完模型再看怎么部署”的线性链条,正在被打破。一种新的协同逻辑正在出现:模型与数据之间不再是供需,而是博弈与优化。
更现实的难题是安全。大模型应用于企业内部数据后,访问权限、数据归属和模型泄密风险变成了绕不过去的问题。一些领先企业已经开始探索“双网络”“数据隔离”“最小权限”等机制,但仍缺乏成体系的行业标准,也尚未形成明确的监管路径。
那这些难题怎么破解呢?为了回答这个问题,数据猿策划了一场线上直播对话,邀请业界专家,来共同探讨这个话题。
本次线上直播论道中,就以下热点展开讨论:
❶AI大模型商用,对数据存储提出了哪些“新刚需”?
❷大模型如何“用好”数据存储能力,加速商用落地?
❸数据安全、隐私保护,如何在模型与存储协同中落地?
❹共建“模型+数据”协同生态,厂商如何形成可持续合作机制?
田稼丰丨中国信通院云计算与大数据研究所高级业务主管
长期研究大数据、数据存储、数据智能等,牵头编写大数据白皮书、数据智能研究报告、下一代数据存储技术等研究报告,编写内存数据库、全文检索、对象存储、数据灾备等标准。持续推动企业数智化能力相关测试评估工作,具有丰富的产业研究、标准制定、评测及评估经验。
曹羽中丨华瑞指数云联合创始人兼CTO
现负责华瑞指数云产品及研发工作,具备长期的分布式系统架构和系统软件研发经验,广阔和前瞻的技术视野和产业视野,丰富的技术规划和产品研发端到端的技术管理经验。专注于云计算、软件定义存储、存算分离等领域的技术创新。
何征宇丨传神语联副总裁兼研究院院长
2007年加入传神语联,现担任传神语联网研究院院长,同时兼任湖北省软件行业协会人工智能专业委员会副主任职务。拥有丰富的系统架构设计、大数据处理和人工智能的技术及实践经验,目前主要负责语联网平台大语言模型、机器翻译以及区块链等技术在语言服务行业的应用落地。
张艳飞丨数据猿联合创始人兼主编
拥有十多年科技互联网行业媒体从业经历,曾在艾瑞、网易等业内知名企业负责媒体内容及运营层面相关工作,并于2015年联合创立大数据产业创新服务媒体——数据猿。
张艳飞也是中关村数智人工智能产业联盟理事,曾获科特勒咨询集团荣誉顾问、大中华区艾菲奖实效观察员、腾讯云社区优秀讲师等荣誉。
张艳飞在大数据、人工智能、云计算等新技术的产业应用,以及数字营销、金融科技、工业互联网、智能制造等领域均拥有丰富的第三方机构及媒体从业经验。


财经自媒体联盟

4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有