手机AI哪家强?手机端侧大模型横向对比评测(上)

手机AI哪家强?手机端侧大模型横向对比评测(上)
2024年05月06日 11:23 微型计算机官方微博

自去年8月华为宣布HarmonyOS 4系统全面接入盘古大模型之后,国内一线手机品牌陆续启动了AI手机战略。尤其是高通和联发科在最新一代移动平台大幅提升NPU性能之后,旗舰手机的AI算力最高可以支持端侧部署130亿乃至330亿参数级预训练大语言模型。

据市场调研机构IDC预计,2024年全球新一代AI手机出货量将达到1.7亿部,约占智能手机整体出货量的15%。旗舰机型将成为AI手机发展初期的重要增长动力。而在中国市场,随着新的芯片和用户使用场景的快速迭代,新一代AI手机所占份额自2024年以后开始迅速增长。预计2024年中国市场AI手机出货量为3700万台,2027年将达到1.5亿台,所占市场份额超过50%。

在2024年新一波旗舰机发布潮之后,我们看到Android手机厂商不约而同地选择了将各家产品中的AI语音助手,作为多模态AI的主要入口,来为用户提供丰富的生成式AI服务。那么本期我们就来看看,国内第一梯队的各品牌新机都为我们带来了哪些AI功能?升级后的智能语音助手—YOYO助理、小爱同学、蓝心小V和小布助手等,谁更能满足用户的期望?

事先声明,手机AI曾是一个比较宽泛的概念,甚至可以追溯到2017年或者更早的人脸解锁、智能助理等功能。实质上,除了众所周知的AI影像算法或者说计算摄影之外,人工智能和机器学习一直在为系统流畅度、进程优先级、应用驻留、文件碎片清理乃至续航优化方面,持续提供助力。然而ChatGPT的横空出世似乎重新定义了AI,如今无论是业内还是用户,都默认将集成了AI计算核心和大语言模型的手机称为“AI手机”。因此,本文测试主要针对手机端侧AI大模型及旗舰新品带来的AI进阶功能。

我们如何测试?针对当前各家手机品牌在新机上部署的AI功能,并结合近期在评测和使用过程中的一些真实体验,我们特地制定了一系列测试流程,其中部分测试项目参考了SuperCLUE和其他中文通用大模型的综合性测评基准。限于报道篇幅,本次测试也许无法面面俱到,也可能不一定能真实反映各家手机端测大模型的真实智能水准,但应该足以帮助各位朋友了解当前手机AI的大致表现,以及不同品牌机型当前在AI方面有哪些差异和独特的亮点。

测试机型如下:

荣耀Magic6 Pro

系统版本:

MagicOS 8.0(8.0.0.126)

移动平台:

第三代骁龙8

智能助手:

YOYO助理(8.0.1.229)

AI大模型:

魔法大模型

参数量级:70亿

小米14 Ultra

系统版本:

Xiaomi HyperOS(1.0.8.0)

移动平台:

第三代骁龙8

智能助手:

小爱同学(小爱语音6.123.9)

AI大模型:MiLM

参数量级:13亿

vivo X100 Pro

系统版本:OriginOS 4(PD2324C_A_14.0.15.22.W10)

移动平台:

天玑9300

智能助手:

蓝心小V(2.5.0)

AI大模型:

蓝心大模型

参数量级:70亿

OPPO Find X7 Ultra

系统版本:

ColorOS 14(PHY110_14.0.1.540)

移动平台:

第三代骁龙8

智能助手:

小布助手(10.3.2)

AI大模型:AndesGPT

参数量级:70亿

助手唤醒与功能设置

考察语音助手唤醒方式是否足够多样,以及文章要点总结、照片处理(如AI消除路人或AI扩图)等功能的交互入口是否便捷。

荣耀

荣耀Magic6 Pro不仅可以通过语音、长按电源键、耳机线控、蓝牙唤醒语音助手,独有的气息唤醒让用户只要正对手机底部麦克风说出指令即可实现(手机须靠近嘴唇,且支持声纹增强以强化识别),同时也支持添加桌面快捷方式。“设置-智慧助手-YOYO助理”的“AI字幕”功能还支持视频中中英日韩四种语言的实时翻译,在接通电话时,通话字幕能够将语音实时转换为文字显示在屏幕上。此外,荣耀MagicOS还支持眼动追踪功能,可通过注视屏幕展开横幅通知。

小米

小米14 Ultra唤醒小爱同学的方式有很多,基础的包括语音唤醒、长按电源1秒松手唤醒、线控/蓝牙耳机唤醒等,将系统导航模式更换为经典导航键后,可以设置长按Home键、长按菜单键、长按返回键或者自定义按键组合长按唤醒。此外打开“更多设置”,找到“快捷手势”还可以通过背部轻敲唤醒小爱同学。在“通知与状态栏-智能设备控制”选择融合设备中心,所有互联设备和智能家居都能在这个版面进行控制,周边设备基于用户习惯运作,带来智慧化的服务。同时,更多的AIGC功能都在小爱同学新增板块“大模型探索”当中,点击进入就能体验。

▲从左至右依次为:荣耀Magic6 Pro、小米14 Ultra、vivo X100 Pro和OPPO Find X7 Ultra。

vivo

蓝心小V支持的唤醒方式多种多样,如桌面图标、悬浮图标、智能侧边栏图标和对应的原子组件等。蓝心小V的设置中可开启未成年人模式,但除使用时间段与单次使用时长之外,系统并未标明该模式有何差别。此外OriginOS 4中的部分设置选项进行了重新分类,“设置-AI”页面中的“智慧建议”支持手机低电量时自动提示附近的充电宝信息,智慧生活目前可覆盖9类智能设备的快速发现、连接与操控。不过,目前在OriginOS 4中,蓝心小V与过去的Jovi语音助手处于共存状态,对于不熟悉vivo的新用户或是不太了解蓝心小V的普通用户而言,可能会将两者混淆。

OPPO

除语音唤醒、长按电源键0.5s唤醒、长按线控耳机唤醒之外,OPPO Find X7 Ultra还支持添加小布助手的桌面快捷方式、速览卡片、桌面卡片,以及侧边栏图标等方式,点击即可进入小布助手界面。小布助手不仅支持单独的音量调节,在系统“设置-小布助手-创新实验室”中,还可以打开“小布通话”由助手帮忙自动接听电话。对于年纪较大的用户,则可选择开启“小布助手关怀版”,转换成字体更大、设计更简洁明快的界面。

多轮语义对话及生成

(2-1)多轮提问:人工智能对我们的生活有什么影响?它对于人类的弊端体现在哪些方面?你觉得它的出现会不会让人变得更懒?这玩意是否会泄露我的隐私?

荣耀

YOYO助理的每一条回复可谓面面俱到,比如它谈到了人工智能正在改变传统的教育和学习方式,在医疗保健领域的应用日益广泛,也带来了娱乐和社交方式的变革;它也分析出低技能的工作岗位更容易受到冲击,人工智能在社交媒体和在线广告等领域的应用可能导致用户个人信息被滥用,以及人工智能的预训练数据可能存在偏见或歧视,从而导致决策的不公平或是伦理问题。YOYO助理的回复最令人满意之处在于,它罗列每一个要点时都会有举例说明,理解起来更加顺畅。

小米

小爱同学对于前两个问题的解答十分全面,例如它提及了人工智能的高昂成本、准确性/可靠性、缺乏通用性和创造力问题,以及可能存在潜在的偏见、数据偏差和技术滥用风险等问题。点击每一轮对话底部的“搜索增强”按钮,它还会给出答案中每一个要点的参考来源,并支持点击跳转。不过,对于最后一个问题中的“这玩意”,它无法识别具体的指代事物,也就是说多轮语义的关键词分析还存在进步空间。这条回复中,它根据“泄露隐私”这条线索,转去提醒了一些关于使用智能手机、智能家居设备和社交平台时的安全事项。

vivo

蓝心小V的多轮回答接近满分。谈及AI对生活的影响,除工作效率和生活质量改善外,它提到了娱乐方式、教育方式的变革以及医疗保健的改善。后续问题中,也谈到了社会伦理道德、技术依赖和失控风险。在隐私安全问题上,它居然更多的是在谈AI也能够采取诸如数据匿名化、数据加密、权限控制、合规性审查之类的隐私保护措施。该项测试中唯一减分的是,它说到AI缺乏人类的情感与直觉,无法像人类一样具有创造力和想象力,紧接着说“这可能会对人类的文化、艺术和科学等领域产生一定的冲击”,该语句的逻辑前后矛盾。

OPPO

小布助手的回复条理清晰,整体令人满意,它以分列要点的形式回复了人工智能带来的便捷与挑战;提出对人类的弊端体现在就业、隐私安全、社会不平等、决策不透明和公平性问题等方面;分析了人工智能的出现可能会导致人类因生活便利产生的懒惰倾向,以及信息获取和决策支持导致的认知懒惰,但也提出了人工智能只是作为一种辅助工具出现,也催生了很多新的职业与机会,我们应以积极的态度面对人工智能的发展;最后关于隐私泄露问题,它分析存在的数据收集、数据泄露和人工智能系统可能受到的主动和被动攻击风险。

(2-2)请撰写一段场景对话,若干个同学参与一个交通宣传的活动,其中B同学提出了自己独到的见解。

从左至右依次为:荣耀Magic6 Pro、小米14 Ultra、vivo X100 Pro和OPPO Find X7 Ultra。

荣耀:YOYO助理撰写了6个同学参与的7段对话。相较于其他语音助手的对话创作,YOYO给出的场景对话更像是参加完一场交通宣传活动后,多位同学正在交流“观后感”,并未偏离主题,对话逻辑也较为顺畅。只是B同学提出了还要去主动学习和思考,来掌握交通安全知识,而实际提出具体方式方法的反而是另外三位同学。

小米:4个同学的9段对话感觉是活动前的交流,A同学提示学校将要组织一次活动,而C同学提出“我们该如何参与活动”,与题干语义逻辑有一定出入。其他同学则是为活动本身提建议,但紧紧围绕交通宣传活动这个主题展开。多次测试下,小爱还会让B同学给出不同的宣传思路,比如组织模拟交通事故的戏剧表演,或是利用虚拟现实技术让参与者能亲身体验不遵守交通规则带来的危险。

vivo:蓝心小V给出的6段对话中,B同学首次发言时将对话主题从宣传活动本身转到了利用智能交通系统来减少交通事故的发生率,略感生硬。(对此编辑们意见也有分歧,有的认为偏题,有的认为在活动中提出建议也无妨)。

OPPO:小布撰写了6个同学参与的9段对话,B同学提出了针对不同年龄、职业和文化背景的人进行定制宣传策略,比如针对中小学生展开互动游戏和动画视频教学,对成年人利用社交媒体发布相关知识。其他人提出了制作动画视频面临的技术、资金以及受众接受度问题,也得到了如图文并茂和利用增强现实和虚拟现实技术的解决思路。

逻辑推理

(3-1)A的左边是B,B的左边是C,C的左边是D,请问D永远都在A的左边么?

荣耀:回答正确,考虑到了特定条件和环境下,即线性排列时命题才能够成立。

小米:多次测试得到的答案有着明显的差异,正确的回复中考虑到了圆形或螺旋形的布局环境,个别回复末尾还标示了“百度知道”的参考源链接。

vivo:虽然蓝心小V首次给出的答案没有考虑到非线性排列的可能性,但二次回复时它竟然完全“听懂”了我们的提示,并给出了新的答案。

OPPO:小布解答出二维空间的线性排列中,D确实在A的左边,但在环形或三维空间中,位置排列可能会有变化。

(3-2)烧一根不均匀的绳子,从头烧到尾总共需要1个小时。现在有若干条材质相同的绳子,如何用烧绳的方法来计时1小时15分钟呢?

该测试项目的回复显示出各AI大模型在逻辑推理方面存在的显著差异

荣耀:测试不通过。很奇怪地假设燃烧时间为T小时,而且居然让我们在A绳烧完后等待15分钟去熄灭B绳,可见其并未理解题意。二次测试时,它甚至认为无法通过烧绳来准确计时,建议使用沙漏、水钟或其他计时设备来辅助。

小米:小爱同学直接给出了操作步骤,回答简洁且正确。

vivo:虽然蓝心小V也分析出了利用两端燃烧的计时方式,但其给出的操作最终并不能得到1小时15分钟的计时。

OPPO:小布先给出了分析与推理过程,确定基础时间和组合时间,然后给出了具体操作步骤。整体推理过程非常清晰,结果也完全正确。

04专业知识与生活服务

(4-1)我要跟老外问“这家酒店怎么走”,你帮我翻译一下吧。

从左至右依次为:荣耀Magic6 Pro、小米14 Ultra、vivo X100 Pro和OPPO Find X7 Ultra。

荣耀:虽然回复同时给出了英文译文和中文转译,但多次测试结果未能通过—它把前面半句全翻译了。

小米:翻译完全正确,而且在不影响语义的前提下,即便更换问句中的个别字词,给出的答案也无变化。

vivo:前两次对语音指令的回复,均未正确识别出需要翻译的句子。改为文字输入(包括标点符号)后,终于给出了完美的解答。

OPPO:重复提问情况下,由OPPO AI提供的翻译无误,但推送的搜狗翻译会直接将前半句话转译成英语,令人啼笑皆非。多番测试下,尚不清楚为何会触发两种不同的翻译推送。

(4-2)请解释一下孟德尔第二定律,并举例说明。

荣耀:回答满分,举例与vivo类似,并指出了该定律在遗传学上的重要性。

小米:回答满分,举例直接用了孟德尔的豌豆杂交试验,并给出了“百度文库”的参考链接。

vivo:给出的专业解释通俗易懂,且额外讲出了该定律的意义与适用范围。

OPPO:回答满分,举例也十分简洁明了。

(4-3)炒牛肉怎么炒才能又好吃又嫩滑?

荣耀:回复达到预期,步骤十分清晰,如果能有牛肉部位的选购建议会更完美。

小米:直接推送了第三方的10份菜谱(其中有2份还是重复的),并未能直接给出答案。

▲小米推送了菜谱,等于并未直接解答用户的相关问题。

vivo:不仅给出了选购、腌制和炒制的方法,还给出了佐料的具体克数和炒制的时间。

OPPO:回复从牛肉选择、如何腌制到炒制流程几乎覆盖了所有可能衍生的问题,甚至还加入了推荐配菜。

学科知识与计算

(5-1)底面边长为4的正四棱锥被平行于其底面的平面所截,截去一个底面边长为2、高为3的正四棱锥,所得棱台的体积是多少?(2023年新课标全国二卷)

多数机型在解答数学问题时,往往以代码来显示部分运算符号,希望未来能够改进。

荣耀:解题思路正确,但遗憾的是多次测试均无法执行到最后,且答题中数学运算总是以代码形式呈现。

小米:题干理解错误,因而解题过程和答案均不正确。

vivo:解题步骤完整,且竟然能显示出正确且规范的数学运算格式,满分!

OPPO:分析过程清晰,步骤完整,答案正确。

(5-2)请君少却,令将士得周旋,仆与诸君缓辔而观之,不亦乐乎!请翻译一下这句话。(2023年重庆新高考)

荣耀:语音识别和译文无误,并给出了部分词句的重点解释。有趣的是,即便因口音问题导致识别存在些许差错,YOYO也会在提示“这句文言文的结构和用词似乎有些错漏”后,根据文言文语法来尝试翻译。

小米:多次测试发现,语音转换文字存在错漏,翻译时要么转去翻译《论语·学而》的“不亦乐乎”,要么题干只听了一半,就自动“抢答”了正确答案。

vivo:多次测试中,语音输入均无法转换成正确的中文语句,即便改为文字输入,仍须严格输入每处标点符号,否则也不能提供正确译文。

OPPO:语音转换文字无误,翻译时未译出“缓辔”的意思,其他正确。

文章生成

(6-1)我要写一份“开启AI手机元年”的报告,请帮我拟定一个提纲。

从左至右依次为:荣耀Magic6 Pro、小米14 Ultra、vivo X100 Pro和OPPO Find X7 Ultra。

荣耀:提纲结构清晰,逻辑合理,开篇即定义AI手机概念,提出本报告的目的与意义,以此展开分析和探讨当前AI技术的应用方向、手机厂商的布局及技术创新与挑战,紧扣主题。

小米:提纲详细且完整,9大部分又有细分,且均有阐述说明,但提纲通用性太强,直到结论部分才提到“总结为什么这一年被视作AI手机元年”。

vivo:提纲整体十分简洁,包括从背景到技术创新、应用场景,再到发展趋势与结论建议共计5个部分。但直到总结部分才提到“AI手机元年”,整体思路过于模糊,通用性太强,而无实际操作意义。

OPPO:提纲分为引言、AI手机元年背景分析(市场趋势、技术进步、行业合作与创新)、AI手机元年关键技术(AI芯片、AI算法、用户体验)、挑战与机遇(隐私安全问题、技术标准/兼容性、创新与合作),以及结论与展望共5个部分,逻辑通畅,条理清晰。

(6-2)人们因技术发展得以更好地控制时间,但人也因此成为时间的仆人。这句话怎么理解,请以此为核心写一篇文章。

荣耀:YOYO生成了756字的《技术发展与时间的悖论:掌控与奴役》一文,开篇点题,提出“现代科技手段的出现让我们可以随时随地处理工作和个人事务,看似自由的背后,我们是否已经成为时间的仆人”。文中警醒人类必须警惕自己陷入不断回应任务的循环中,专注力被分散,忘记了时间的真正价值,还可能面临压力与焦虑的困扰。结论落脚于“保持对时间的自主性和平衡感……需要设定明确的界限与目标……学会放慢脚步”。

小米:小爱同学生成的文章《技术的双刃剑:时间的主人与仆人》,共计763字。它提出技术进步让人类“能更高效地管理日常事务,从而在忙碌的生活中找到一种秩序感和掌控感”,但也可能错过不少事情。与其他AI不同的是,小爱还以要点总结的形式提出了4点建议(设定优先级、留出缓冲时间、定期断开连接等),让文章看起来更像是一篇技术文档,而非材料作文。

vivo:蓝心小V生成了450字短文,没有标题,但整体表述清晰,尤其是指出了“人们不断追求更高效率、更快节奏的生活,以至于很少有时间去享受生活本身”,结论落脚于“让技术真正成为服务于人类的工具,而不是控制人类的枷锁”。

OPPO:小布撰写了一篇名为《时间的悖论:主人与仆人的双重身份》的文章,全文共784字,全文起承转合的结构十分明晰,结论落脚于“在这个快速发展的时代,我们需要重新审视自己与时间的关系。我们不能仅仅满足于技术的便利,更要学会如何成为时间的主人”。

受篇幅影响,我们将在此后的文章中为大家带来后续评测。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部