2022，科技大厂迷上AI作图_

微软也忍不住对AI作图软件下手了。

据报道，美国微软公司上周三（美东时间10月12日）宣布，将推出一款名为“Desinger”的图形图像设计软件（基于 OpenAI 推出的人工智能Dell-E 2模型），用户只需要输入文字指令，软件就能够自动设计对应图案。据悉，这一软件将提供免费版，同时推出高端版，并纳入微软“Office全家桶”。

虽然微软明确表示 Adobe 将是公司的主要竞争对手，但明眼人都知道其实它是瞄准的行业内占据优势地位的另外一款设计软件“Canva”，该软件号称拥有一亿的月度活跃用户。Canva的开发商位于澳大利亚悉尼市，在去年的一次融资交易中，该公司被估值为400亿美元，成为全世界估值最高的非上市科技公司之一。

微软并非是本次AI作图热的唯一选手，在2022年8、9、10月短短三个月时间内涌现出数十个AI作图软件。例如，在今年9月，国外的一位游戏设计师去参加了在科罗拉多州博览会举办的美术比赛，并凭借一幅AI绘制的画作《Theatre Dopera Spatial》拿到了一等奖，并在其介绍中带火了AI作图软件——Midjourney；而在国内，近期也涌现出了多款AI作图APP，例如Dream by Wombo（APP）、盗梦师（小程序）等等，科技公司迷上AI作图。

01、AI作图越来越成熟

在这波AI作图热之前，AI作图已被科技大厂带入人们的视线。

2016年，国内科技巨头阿里巴巴推出了一款名为“鲁班”的AI作图系统，当时号称鲁班已经可以实现一天制作4000万张海报，平均每秒可实现设计8000张海报，按照当前阿里内部对技术岗位的评判体系，海报设计AI鲁班，已经达到了P6水准。

不过受制于技术问题，这主要是因为缺少标注数据（今天所有的人工智能都基于大规模结构化标注数据），并且无先例可循，再加上设计的不确定性（设计是个很不确定的东西，设计需求把握和结果评估都存在人类主观意识）等等原因，使得鲁班并不是像当今这样，用人类描述一段话就能生成相应的图像，还是需要人工手动添加要素的。

但大厂在AI作图上的探索并没有因此停下脚步。2021年，由马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联合创始人彼得·蒂尔等硅谷科技大亨创立的人工智能研究公司OpenAI发布了AI作图模型——DALL-E。在发布会上，OpenAI表示这是一个可以根据书面文字生成图像的AI系统。例如，针对提示 " 一个牛油果形状的皮包，一个模仿牛油果的皮包 "，该系统可以对牛油果皮包的想法生成几十次迭代。

2022年4月，OpenAI又发布了最新的AI作图模型——DALL-E 2，它能收集用户的需求，然后调动自己的知识储备，浏览人类历史中上亿张已有的图片，当你输入描述性语句后（支持的语言更多了），就能生成一张独一无二的图像。尽管Dall-E 2 仍然处于“第一次迭代”阶段，但该模型生成的图片已被作为商业用途使用，许多人将Dall-E 2（每周100万人使用）创造的图片用在了儿童读物的插图、新闻通讯的艺术图、游戏的概念艺术和角色图等方面。

02、AI是怎么作图的？

在这波AI作图热中，OpenAI发布的图像生成模型DALL-E 2无疑是使用最为广泛的底层模型，即便是强如微软也得乖乖使用DALL-E 2，无疑DALL-E 2代表了当前AI作图的最高水平，那么DALL-E 2是怎么作图的呢？

首先，将文本 prompt 输入到经过训练以将 prompt 映射到表征空间的文本编码器中；然后，称为先验的模型将文本编码映射到相应的图像编码，该图像编码捕获文本编码中包含的 prompt 的语义信息；最后，图像解码模型随机生成图像，该图像是该语义信息的视觉表现。

举个例子，你输入“戴帽子的小熊”后，DALL-E 2需要理解“帽子”、“戴帽子”、“小熊”等人类自然语义中词汇的概念，这个时候DALL-E 2就要调动OpenAI另一个模型CLIP理解自然语言片段。然后DALL-E 2需要反转 CLIP 刚刚学习的图像编码映射，通过使用其先前模型 GLIDE来执行此图像生成。然后，DALL-E 2 使用另一个名为“先验模型”，从图像标题的文本编码映射到其相应图像的图像编码；最后，DALL-E 2将所有的功能组件链接在一起，然后就生成了“戴帽子的小熊”。

但是哈佛大学的一份新研究论文表明，尽管DALL-E 2生成的图像很精致，但它可能只是把文本中的几个实体粘合在一起，甚至都没有理解文本中表述的空间关系。所以为了探究DALL-E 2是否真的能理解文本中的语义关系，研究人员选择了15类关系，其中8个为空间关系（physical relation），包括in, on, under, covering, near, occluded by, hanging over和tied to；7个动作关系（agentic relation），包括pushing, pulling, touching, hitting, kicking, helping和hindering。实验结果发现，DALL-E 2生成的图像和用于生成图像的文本提示之间一致性的平均值在75个prompt中仅为22.2%。

尽管DALL-E 2生成的图像很精致，但是哈弗大学的研究报告也说了，这就是一个缝合怪，如果是想要得到真正贴合心意的图片，那么用户的体验也与哈弗的研究结果差不多——满意度较低，这也是为什么AI生成图像只能在数亿次生成实验后才能偶尔得一个创作奖，科技大厂迷上AI创作或许只是为了秀一下肌肉吧！