黄仁勋提AI“iPhone时刻”欲推计算光刻革命？_

本报记者李玉洋上海报道

3月21日晚，英伟达（NAS-DAQ:NVDA）召开的GTC开发者大会犹如“深水炸弹”，在AI领域掀起巨浪。而让人印象最深刻的，是英伟达创始人兼CEO黄仁勋提出的全新概念：“我们正处于AI的‘iPhone时刻’。”

黄仁勋所谓AI的“iPhone时刻”，即AI技术正在迎来爆发式增长，将成为数十年来最有前途的技术领域之一。在此次GTC2023大会上，英伟达发布了专为ChatGPT这样的大语言模型设计的GPUH100NVL、AI超级计算服务DXG Cloud等多款针对AI的最新技术。

值得注意的是，英伟达还发布了让计算光刻变得更加“聪明”的软件库cuLitho。尽管英伟达此前针对生物制药、化学、气候预测、量子计算等领域也发布过一些中间件和软件库，但都属于常规操作，这次针对芯片制造工艺——计算光刻的举动显得有点特别。

有受访者告诉《中国经营报》记者，cuLitho是一个用于运算式微影函式库，可以缩短先进制程芯片的光罩时程、拉升良率并大幅减低晶圆制作的能耗，英伟达此举意义重大。“英伟达的计算光学加速，确实对先进节点的光刻有所帮助。”一家国内排名靠前的IC设计公司研发人员表示，常规的光学近场修复耗时耗力，尤其是5nm节点以下工艺挑战很大，用AI加速能够分担很大一部分工作量。

AI的“iPhone时刻”

黄仁勋指出，人工智能发展至今，对社会的影响可能像苹果iPhone打开智能手机市场那样。

在本次大会上，黄仁勋多次提及生成式AI，将ChatGPT称为AI的“iPhone时刻”。2022年11月底，OpenAI发布聊天机器人ChatGPT，迅速引发全球旋风，仅用两个月全球独立访问用户便过亿。

黄仁勋认为，生成式AI是一种新型计算机，一种可以用人类语言进行编程的计算机，每个人都可以命令计算机来解决问题，这之前是只有程序员才能接触的领域，而现在每个人都能是程序员。正如此前的互联网一样，生成式AI也将重塑每个行业。

针对部署像ChatGPT这样的大语言模型（LLM），英伟达发布了AI重磅产品H100，它将英伟达的两个H100GPU拼接在一起。“当前唯一可以实际处理ChatGPT 的 GPU是英伟达HGXA100。与前者相比，现在一台搭载四对H100和双NV-LINK的标准服务器速度能快10倍，可以将大语言模型的处理成本降低一个数量级。”黄仁勋说。

英伟达还介绍，会把由8块旗舰版A100或H100芯片集成的DGX超级AI计算系统通过租赁的方式开放给企业，每月租金为37000美元，以推动加速这轮大语言模型引领的AI繁荣。

“我们在欧美与云服务提供商合作，提供英伟达的DGX系统AI超级计算机的能力。在中国，我们有特别定制的Ampere和Hopper芯片。这些会通过中国云提供商，比如阿里巴巴、腾讯、百度这些企业提供落地的能力，我完全相信他们有能力去提供顶级的系统服务，对于中国初创公司一定会有机会来开发自己的大语言模型。”黄仁勋在接受媒体采访时表示。

此外，英伟达还推出云服务Nvidia AI Foundations，提供语言、数据和生物学模型的定制服务，与Adobe、GettyImages、Shut-terstock等进行合作。

“人工智能的iPhone时刻已经开始。”黄仁勋指出，人工智能发展至今，对社会的影响可能像苹果iPhone打开智能手机市场那样。

用软件做建模的计算光刻

光刻图案未来将一步步走向模糊，或者说没有很高的保真度。

据黄仁勋介绍，所谓计算光刻就是为芯片生产制作光掩模（pho-tomask）的技术，掩膜是一种平面透明或半透明的光学元件，上面有芯片加工所需的图案，并通过曝光将图案转移到光刻胶层上。

光刻加工过程开始后，通过控制光刻机的曝光和开关操作，可以将光束根据掩膜上的图案进行分割和定位，使得光束只照射到需要曝光的区域，从而将芯片上的图案转移到光刻胶层上，实施芯片光刻。

“其实，光刻就像是用‘光刀’在晶圆上‘雕刻’一样。而雕刻需要刻出特定图案。这个图案首先要呈现在光掩膜上。掩膜板就像是漏字板，激光一照，通过镜头，漏字板上的图案也就落到了硅片上。”长期关注半导体行业发展的资深观察人士黄烨锋生动地解释光刻原理。

事实上，晶体管、器件、互联线路都需要经过这样的光刻步骤。因为每种芯片都要经历多次曝光，所以光刻中使用的掩膜数量不尽相同。“实际生产要复杂得多，比如现在的芯片上下很多层，不同的层就需要不同的光刻和掩膜板，且某些层如果器件间距很小，就可能需要多次光刻。”黄烨锋说。比如，NVIDIA H100（台积电4N工艺，800亿晶体管）需要89张掩膜，英特尔（Intel）的14nm CPU需要50多张掩膜。

黄烨锋指出，光刻过程其实很反常识，比如要在晶圆上光刻一个类似“＋”的图案，那么掩膜板要做成形似二维码样的图案。对此，英伟达先进技术副总裁Vivek Singh解释说，半导体经过几十年的发展，晶体管互联间距变得越来越小，但“大概30年前，晶体管的尺寸变得比（光刻机所用的）激光波长还要小，于是衍射效应就产生了，晶体管成像就会变得模糊。”

“对于相机而言，当光圈小到某种程度以后，照片受到衍射效应的影响就会显著增大，导致画面解析力的大幅下降。实际上，超高像素（或小像素）也受制于衍射效应。”黄烨锋表示，尽管光刻机所用光源也发生过几次大的迭代，比如目前讨论最多的DUV（深紫外线）和EUV（极深紫外线），但哪怕是波长显著变小的EUV极紫外光刻，其波长与器件间距之间的差异，也变得比过去更小，“换句话说，光刻图案未来将一步步走向模糊，或者说没有很高的保真度。”

因此，计算光刻得以切入，借助计算光刻缓解衍射效应所带来的像差对芯片制造的不良影响。据黄烨锋介绍，此前ASML中国就曾提起过计算光刻，计算光刻已是ASML（阿斯麦）的“铁三角”业务之一。“ASML说计算光刻是通过软件对整个光刻过程来做建模和仿真，对工艺流程做优化，比如说形貌优化、掩膜板修正等。”他说。

GPU通用计算加速的又一方向

GPU加速后，生产光掩模的计算光刻工作用时可以从两周减少到8小时。

随着晶体管和互联线宽的持续微缩，掩膜板的复杂度越来越高，相应的对计算光刻的算力要求也变高。

“按照过去15年的趋势，如果某个foundry（集成电路代工厂）现有3座数据中心，那么未来10年内就要100座这样的数据中心。”Vivek Singh说，“功耗方面，45兆瓦可能还能接受，但如果是45千兆瓦，问题就比较大了。对此，英伟达给出的回答是全新的AI加速技术cuLitho。”

Vivek Singh还提到，包含于计算光刻中的OPC（光学临近效应修正）含有大量矩阵乘法运算，这种运算很适用于GPU加速。说到底，计算光刻也是GPU通用计算加速的某个应用方向，站在这个角度看，就不难理解英伟达发布cuLith加速库了。

此前，这种“精雕细琢”的计算光刻依赖CPU（图形处理器）服务器集群。据介绍，英伟达cuLitho可以实现在500套DGXH100（包含4000颗Hopper GPU）完成与4万颗CPU运算服务器相同的工作量，但速度快40倍，功耗低9倍。

可见，GPU加速后，生产光掩模的计算光刻工作用时可以从两周减少到8小时。台积电可以通过在500个DGX H100系统上使用cuLitho加速，将功率从35MW降至5MW，从而替代用于计算光刻的4万台CPU服务器。也就是说，传统的计算模式两周才能完成的任务，同时使用英伟达的芯片和软件就能在一夜之间搞定。

值得注意的是，黄仁勋还提到了cuLitho在台积电2nm工艺中的使用。借助cuLitho，台积电可以缩短原型周期时间，提高晶圆产量，减少芯片制造过程中的能耗，并为2nm及以上的生产做好准备。据悉，台积电将于6月开始对cuLitho进行生产资格认证，并会在2024年对2纳米制程开始风险性试产，2025年开始量产。

“可以大胆预测，对于IC设计中的版图设计，这个AI工具（指cuLitho）应该也会有很大帮助。”前述国内IC设计公司研发人员表示。不过，对于cuLitho是否运用AI，Vivek Singh并没有明确回答。

对于是否支持旧工艺的问题，Vivek Singh表示，cuLitho是用作提升解析力、消除衍射的计算光刻，那么对于存在这种需求的工艺来说都适用。“不过，我认为这还涉及到成本和foundry的选择问题，包括cuLitho究竟能多大程度提升良率。”黄烨锋说。

英伟达方面表示，除了台积电之外，还正在与ASML、Synopsys合作，将这种技术推向市场。Synop-sys表示，正将cuLitho软件库整合到EDA软件中，而ASML则是“与英伟达在GPU和cuLitho方面紧密合作，计划将GPU支持整合到所有的计算光刻软件产品中”。