“存算一体”打破运行70年的冯诺依曼架构,Computing in Memory盖世神功已有人练成

“存算一体”打破运行70年的冯诺依曼架构,Computing in Memory盖世神功已有人练成
2019年12月05日 14:10 麻省理工科技评论

人工智能芯片需求的带动,将打破 PC 时代运行超过 70 年的冯诺依曼计算架构,接棒而来的技术是近期很火的名词:“存算一体”。

英特尔引领的 PC 时代,长久以来是处理器为王的思路。然而,业界意识到芯片性能真正的瓶颈是卡在存储器上,近几年开始,处理器与芯片的地位是此消彼长,开始拉近距离。

在人工智能时代降临后,这种处理器和存储芯片分离的冯诺依曼计算架构明显不够用,科技业界开始追求将处理器和存储结合成一颗芯片的 “存算一体” 技术,提升性能并且降低功耗。

存储与逻辑双剑合壁,实现 Computing in Memory 

“存算一体”技术就像是一种盖世神功,芯片江湖上的每一个大侠都想练成这样的绝世神功。

其中,对于擅长逻辑工艺,又懂存储技术的半导体厂,自然是如鱼得水,而究竟是把 DRAM 放到逻辑芯片上?还是把处理器放到 DRAM 里?才能实现“存算一体”,同时跨足存储技术和晶圆代工的力晶集团选择以后者方式实现。

力晶曾是台湾最主要的 DRAM 供应商之一,当时的 DRAM 技术合作伙伴是日本 DRAM 大厂尔必达。日前,尔必达前社长坂本幸雄才正式加入紫光集团,担任紫光集团高级副总裁暨日本分公司首席执行官。

在今日三星、SK 海力士、美光将 DRAM 产业三分天下之前,全球存储行业是处于群雄割据的时代,尔必达这一支的势力,汇集了日本半导体产业十多年来的历史和技术积累。

随着尔必达破产退出全球竞争舞台,并成为历史名词后,合作伙伴力晶也开始思索转型之路,之后陆续转型至晶圆代工厂,生产驱动芯片、CIS、NOR Flash 芯片等。

力晶创办人黄崇仁回忆,很久前在与日本三菱电机合作时,对方就提出把存储器放到 CPU 中的概念,当时这样想法被认为是异想天开,因为存储和逻辑工艺不一样,耐温性也不同,用当时的思路去做,逻辑单元可能会先烧掉。

渐渐地,开始有人换个思考模式,如果把 CPU 放到存储器中,或许是另一条路,虽然也不容易,但多年后,力晶将这样的 “存算一体” 架构实现了。

力晶提出 “Computing in Memory” 技术平台,把 DRAM 和逻辑单元做在同一颗芯片上,省去当中的 IO,第一个应用是加速器产品,法商 Upmem 已经开始导入,优势是在资料重度存储的环境下,运算效能能提升 20 倍,系统节能效率提升 10 倍。

黄崇仁解释这样的概念,像是现在逻辑工艺中,也会有嵌入式存储器(embedded flash)技术,就是在传统逻辑处理芯片设置上嵌入式存储器,反过来,Computing in Memroy 的概念是在 DRAM 中嵌入逻辑电路,打造 “存算一体” 架构。

这样架构会出现两大优势,第一是大幅降低资料在存储器与处理器之间往返的负担,第二是因此降低芯片的能耗,实现环保芯片 Green Chip 概念。

力晶本身有晶圆代工技术、DRAM 工艺,旗下子公司爱普科技是利基型存储芯片设计公司,同时拥有逻辑和存储两大利剑,是打造 Computing in Memory 的优势。

打破 “墙” 的隔阂,处理器和存储器无障碍沟通

爱普科技执行长陈文良分析,英特尔主宰 CPU 已久,但到了人工智能时代,大家发现 CPU 运算 AI 芯片特别慢,认为 GPU 比较好,之后甚至有 google 的 TPU 等不同架构衍生出来。

这过程中出现两个关键问题,一个是存储器的带宽问题,在 TPU 运算时,搭配 DDR5 或 HBM 存储器的性能就是会比较突出。第二个关键是,运算单元数目的重要性,远大于运算能力。

因此,真正好的硬件架构,应该是有很多运算单元,且每一块都配备充足的存储资源,这就是 Computing in Memory 概念。

陈文良表示,把存储和逻辑芯片做在一起,已经有很多半导体厂朝这方面钻研。例如之前很热门的 HBM 技术,就是一种新型的 CPU/GPU 架构,可垂直堆叠在存储芯片上,就像是盖摩天楼一样,目的在于缩短资讯流通的时间。

然而,即使是最先进是 HBM 作法,仍是出现两个明显的物理限制带来的痛点:带宽不足和功耗高。

第一是 CPU/GPU 和 HBM 存储器之间的连结数目,决定了带宽,但连结数目有其限制,因此也限制了带宽。再者,是运算单元和存储器之间的距离,增加了功耗。

这就像是一堵墙挡在中间,限制了处理器和存储器的沟通,无论把墙做的多薄,或是互联性再高,墙仍是存在,而一劳永逸的方式,是把墙打掉,把处理器和存储器结合在一起,无障碍沟通。

存算一体的概念,在过去 10~20 年有很多人尝试,像是 DRAM 做到逻辑芯片中,但技术障碍远比想像高,这条路不好走。

现在分析出两种做法,第一种是把逻辑单元搬到芯片中,称为 eLogic。

另一个方式是把一片逻辑晶圆和存储晶圆用 bonding 方式叠在一起,可以称为是 Virtual eDRAM。

这样做有两大优势,第一个是拿掉 IO,而且做在同一个 die 上,带宽就没有限制。

第二是大幅降低功耗,因为光是存储和逻辑的资料一直往返传输,是非常耗能量的,如果做在一起,对于功耗的降低可想而知。

陈文良分析,这样的 Computing in Memory 技术平台可以将资料传输频宽提升 10~100 倍,节省能耗 10~20 倍,非常适合物联网、人工智能、边缘侧计算的应用。

看中 DRAM 无论是存储密度、存取速度,或是成本都远优于 Flash 和 SRAM,目前已经设计出两颗芯片,一颗是在 1Gb DRAM 中嵌入 4 颗 ARM M0 微处理器,另一颗是 1Gb DRAM 中嵌入 RISC-V 微处理器,可以用在物联网领域。

“存算一体”芯片特别适合人工智能、边缘侧计算、物联网等领域应用,例如用于监测这几年夏天很容易发生森林大火的情况、人脸和物体识别等各种推理应用。

第一家运用 Computing in Memroy 平台技术推出产品的是法商 Upmem。公司表示,该新产品能以加速器的模式与既有服务器相容,在资料重度存取的应用环境中,能将计算效能推升 20 倍,增进系统节能效率 10 倍,适合大型云端资料中心使用。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部