IT时报记者 孙妍
今年,多模态成为大模型的主要发展趋势。在DeepSeek凭借出色的文本推理能力和性价比出圈后,业界都在寻找多模态推理领域的“下一个DeepSeek”。
4月10日,商汤在2025技术交流日上发布了日日新SenseNova V6(下简称“日日新V6”)大模型体系,多模态推理能力达到国内第一,对标OpenAI o1,数据分析能力大幅领先GPT-4o。从性价比角度来看,其多模态训练和推理成本也击穿了业界最低。
2025年也被认为是大模型的应用之年。同一天,两位大佬隔空对话,都强调AI要成为老百姓的“日用品”。“AI之道,在于百姓之日用。”商汤科技董事长兼首席执行官徐立在发布会上表示。马云在阿里云新财年启动会也说到,高科技绝不仅是征服星辰大海,更应该呵护人间烟火。科技人员的责任,不是让AI取代人类,而是让AI更懂人类、更好地服务人类。
多模态能力问鼎国内
作为拥有超6000亿参数的MoE原生多模态通用大模型,日日新V6主要在长思维链、数理能力、多模态推理能力、全局记忆等方面取得了技术突破。其中,它的数据分析能力大幅领先GPT-4o,其多模态深度推理能力国内第一,对标OpenAI o1。
基于超过200B高质量多模态长思维链数据,商汤通过多智能体协作进行长思维链合成和验证,日日新V6形成了突出的多模态推理能力,可以支持合成最长64K的多模态长思维链,支持模型长时间思考能力。
处理真实世界里的复杂问题时,日日新V6擅长于混合图文理解推理能力,也就是说,用这一个模型,就能完成文本、多模态等各类任务。
小额理赔虽然金额小,但往往耗费时间长,日日新V6可根据商业医疗保险理赔材料,判断提供材料是符合理赔要求,检查是否存在乱开药、乱检查、材料缺失或者材料对不齐等问题。
国内首个打破10分钟视频理解限制
目前,市面上几乎所有大模型只能支持短视频的解析,但是日日新V6打破了这一限制,可支持10分钟视频全帧率解析,对标Gemini 2.5 Turbo达到同类型最强。
输入一段《黑神话:悟空》的游戏录屏,日日新V6就能自动剪辑出游戏高光时刻,同时自定义生成解说文案,一段游戏解说就完成了。
商汤是如何做到如此惊人的记忆理解能力的?它可将画面、语音、音效、字幕、口语、时间轴逻辑进行对齐,形成多模态统一时序表征。在此基础上通过细粒度级联信息压缩和内容敏感的动态过滤,实现长视频的高比例压缩,10分钟视频可以压缩到16K tokens,仍然保留关键语义。
像人一样交互
去年,商汤大模型的实时交互能力在世界人工智能大会上引发讨论。此次,商汤推出全新的轻量级全模态交互模型SenseNova V6 Omni带来了国内最强的多模态交互能力。
当你将手机对准一本高深难懂的英文周刊或论文时,它能实时翻译你手指所指的内容,更符合人类自然直观的指读交互体验。当你忙于工作时,小朋友缠着你讲绘本,你就能把绘本讲解任务交给日日新V6。除此之外,它还能当文旅导游、数学老师,以及扮演各种角色。
而且,SenseNova V6 Omni已经在多行业、多场景落地,成为国内首个商业化的全模态实时交互模型。在现场,《IT时报》记者看到了傅利叶等多品牌的机器人,在搭载商汤大模型后,人形机器人可以具有更自然、更类人的实时交互能力,让人形机器人拥有眼睛、嘴巴、耳朵和大脑。
商汤在此次发布会上还带来了One More Thing,推出搭载日日新V6的商量App,通过一个入口,C端用户就能体验文字、图像、视频等多种模态流式交互体验。不过,商量App还处在内测阶段,目前日日新 V6的能力可在商量网页端体验。
只有更懂人、更像人的AI才能更快走入日常生活,更快成为老百姓的“日用品”。




财经自媒体联盟

4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有