本地运行的大语言模型将会是将来每台电脑、手机的标配吗？_

如果大模型的确是未来的中流砥柱的话，那么本地运行的大模型（也就是端侧大模型）必然要成为标配。部署在本地的大模型更容易保护信息安全，可以不依赖于网络，提高响应速度，以及降低服务商的运营成本。因此无论是从消费者的角度来看，还是厂商的角度来看，这都是一个必然的选择。

端侧部署大模型最大的挑战来自于本地的硬件条件。

现在一个共识是一个基本的大模型得做到6B的参数量级。1B等于10亿 10^9，那么6B就是6*10^9。如果以现在主流的int 8量化部署，那么光模型大小就需要6GB，加上其它必要的辅助和暂存空间，一般需要8GB+附近的内存/显存开销。即便未来上了INT4，那也要6GB。由于这个量级的模型不可能使用时再加载，所以一般需要驻留在内存中。从这个角度来看，手机安卓旗舰24GB起步未来可以标配端侧大模型，X86等Intel 的Meteor Lake 和AIPC概念+32GB出来问题也不大。苹果这边内存贵的和金子一样就别想了，1万多的MacBook Pro 14 只有8GB，只能和大模型绝缘了。

解决了内存占用以外，那么基本上所有手机和电脑就都可以跑大模型了。但是可以跑不代表跑得好，还需要考虑算力问题。根据vivo的一个描述，要达到基本可用的水平得达到10字每秒的速度。

从现在的结果来看，现有的手机因为标配有NPU等各种加速硬件，vivo在兼顾续航体验的情况下能做到20字每秒，已经解决了可用的标准。而对于X86而言，对于有独显的机器或者CPU比较强力的情况下，是可以不依赖NPU实现可用的。但是如果要考虑发热（特别是笔记本）、效率、和不影响其他应用，那么集成硬件NPU（例如Meteor Lake）、CPU支持AMX指令集、CPU+GPU支持低精度运算等都是很必须的。反正总而言之，可能现在不是所有的硬件都支持，但是从现在开始的下一代新品，很多都能轻松运行6-7B量级的大模型的。