认知与技术领航，OPPO何以让AI更进一步_

AI手机到底应该是什么样？面对这个问题，或许有不少朋友会下意识地看向iPhone，“苹果是怎么做的”也俨然成为了手机圈一个风尚。只可惜苹果在AI领域起了个大早、赶了个晚集，就给了Android阵营先人一步的机会。在刚刚举行的ODC24上，OPPO方面向外界展示了成为AI手机旗手的底气。

用AI来为手机赋能并不新鲜，自2011年的苹果Siri就已开始初见端倪，再到2017年、2018年，随着自然语言理解（NLP）技术的“白菜化”以及神经网络处理器（NPU）出现，国内厂商也扎堆做起了智能语音助手，并成为当时手机厂商在新品发布会上的必讲环节。

只可惜仅用了短短两年时间，应用场景有限、效率不高等问题的陆续出现，使得用户主动冷落了智能语音助手。直到2023年，随着生成式人工智能的出现，手机AI又有了新的故事可讲，此次OPPO就在ODC24上用系统级AI重构了AI与操作系统的关系。

OPPO软件工程事业部总裁唐凯在此次活动中就提及，AIOS有三个阶段，分别是应用AI化、系统AI化，以及AI即系统。过去，AI在手机操作系统里只能锦上添花、局限于单点功能，比如曾经的智能语音助手，就只擅长处理诸如定闹钟、打电话、打开App等简单操作，面对复杂指令时就会陷入“鸡同鸭讲”的死循环。

显而易见，曾经作为手机里AI元素集中体现的智能语音助手，当时就只能起到一个尝鲜的作用。而在此次ODC24上亮相的“超级小布助手”则是嵌入操作系统底层、深度整合的系统级体验，AI功能不仅仅体现在“超级小布助手”上，而是渗透到了系统的各个层级。

例如，OPPO推出的“一键问屏”功能，就是多模态交互能力的结晶，不仅要“看”、还要“听”，然后根据用户的语音和视觉反馈来做出反应。这背后需要OPPO的AI平台调用视觉模型、音频模型，以及大语言模型协同工作，从而实现图像和音频识别与自然语言输出。

不仅如此，OPPO借助SenseNow框架让一键问屏实现了“边看边说”的功能，并且这可一点都不简单。要知道多模态大语言模型有一个重要的课题，即怎么对齐不同文本、图像、音频等不同模态。由于不同模态获取的特征差异巨大，且模态复杂导致出现过拟合现象，最终会让多模态模型的效果不如单模态结果。

OPPO此次推出的SenseNow智慧框架，就凭借强大的多模态直觉交互能力，能做到在对文本、图像、音频解码生成的同时，进行跨模态的特征同步。用OPPO方面的说法，用户在浏览内容时可以立即询问，AI也能实时响应，而不再需要在不同模态之间来回切换操作。

将各个模态的信息和交互整合到一起，OPPO显然有着更多的意图。用OPPO AI中心产品总监张峻的话来说，“我们的目标是让AI助理像真人助理一样，能够'边看、边说、边做'”。从最初的单线程进化到多线程，OPPO不是为了做AI、而打造系统级AI，而是让AI提升用户的体验，塑造一个交互和智能随心，专属陪伴、安全可信的个人化助理。

不过想要让AI助手更像真人助理，单纯整合不同模态的大模型是不够的，AI智能体才是关键。一键问屏功能尽管优秀，但也不是十万个为什么，真正能让用户感知到AI确实有用，还得能自主执行任务的AI智能体。在ODC24上，OPPOF就已经展示了用“超级小布助手”订机票的DEMO，但他们也坦言，要实现完全自动化的操作确实有门槛。

以订机票为例，据张峻透露，技术上我们已经具备了一些能力，例如意图识别和应用唤醒，现在小布就支持说“给某某在微信里发个红包”，但要进一步实现“完全自动预订”还需要解决用户偏好问题，比如选哪家航空公司、什么时间的航班，这些就涉及到用户的信任和个性化理解。