百度回应“文生图中翻英”质疑：模型自研，使用全球公开数据训练_

3月23日，百度针对网友对“文心一言”文生图功能的质疑作出回应。百度表示，文心一言完全是百度自研的大语言模型，文生图能力来自文心跨模态大模型ERNIE-ViLG。

此前，有博主发文质疑称，百度文心一言的文生图功能，其实是把中文句子机翻成英语单词，再用国外刚刚开源的人工智能Stable Diffusion生成图画，返还给用户。

在3月16日，百度召开发布会，发布了预训练生成式大语言模型“文心一言”。百度称，文心一言是「延续了百度知识增强的大模型理念，大幅度提升了事实性问题的准确率」。

在发布会上，百度主要展现了文心一言的五个使用场景：包括文学创作、商业文案创作、数理推算、中文理解和多模态生成。

其中，在多模态生成领域，文心一言展示了其除根据问题生成文本以外，还能根据这些信息进一步处理内容，生成图片、音频和视频等多形式内容。

“文生图”功能测试

根据博主举例，中翻英的现象在一些尝试中可以体现出来，比如在文心一言中要求其画出“鼠标”和“总线”，文心一言作出的画是“老鼠”和“公共汽车”，而“鼠标”和“总线”对应的英文正是“mouse”和“bus”。

目前，该问题正在随着用户反馈被修正。另镜在文心一言中进行测试，发现现在输入“鼠标”和“总线”已能正确画出。

另外有网友反馈，文心一言无法识别一部分“菜谱”，如可乐鸡翅、驴打滚、干炒牛河、夫妻肺片。

该问题也得到改进，另镜在文心一言中测试了画“干炒牛河”、“可乐鸡翅”、“狮子头”等画法，都能正确画出。

另镜同样测试了文生图功能对诗句、成语的理解：

但在要求文心一言画出“万里无云”时，文心一言并未能准确理解。

在文心一言的发布会中，百度提到了文心一言的中文理解能力，如能理解成语。这基于百度其作为中文第一大搜索引擎，积累了大量的中文语料库。但文生图中文理解的偏差，或是因为百度的画图AI采用了英文标注的开源图片素材进行训练。亚洲视觉科技研发总监陈经在接受媒体采访时表示，“百度的画图AI采用了英文标注的开源图片素材进行训练，因此需要中翻英来当prompt（提示词）。目前，全球AI研发有开源的传统，特别是训练数据库，不然收集图片效率太低了。而且图片是要标注的，这更加大了收集整理图片的难度。当前也有中文标准的训练数据，但是少很多。”

对于网友质疑，百度回应称，在大模型训练中，百度使用的是互联网公开数据，符合行业惯例。外界也能从接下来文生图能力的快速调优迭代，看到百度的自研实力。

“文心一言正在大家的使用过程中不断学习和成长，请大家给自研技术和产品一点信心和时间，不传谣信谣，也希望文心一言能够给大家带来更多欢乐。”

先发布再优化

与GPT-4相比，文心一言还有待加快迭代。在OpenAI示例中，GPT-4.0可以编写网站代码、识别图片输入，在回答专业性、推理和跨语种能力方面也更为深入。

“大家的期望值，是百度对标ChatGPT、对标GPT-4，这个门槛有点高。”百度创始人、董事长兼首席执行官李彦宏在文心一言发布会上坦然承认。

李彦宏在近期接受媒体采访时表示，中国基本上不会再出一个OpenAI。

“OpenAI诞生是因为美国大厂都不看好这个方向，但现在中国的大厂都看好AI大模型，都在做这个方向。创业公司重新做一个ChatGPT其实没有多大意义，基于大语言模型开发应用机会很大，没有必要再重新发明一遍轮子。”

李彦宏认为，大模型时代，最大的创业机会在应用。移动互联网时代，操作系统其实没几个，最成功的是微信、抖音、淘宝这些应用。未来十年，可能诞生价值十倍于这些应用的机会。

文心一言大模型也带来三大产业机会：新型云计算（MaaS模型即服务）、行业模型精调（工业、金融、交通、能源、媒体等）、应用开发（文字、图像、音视频生成、数字人、3D生成等）。

刚刚推出的文心一言并没有完全对公众开放，尚处于邀请测试阶段。从3月16日起，首批用户即可通过邀请测试码，在文心一言官网体验产品，后续将陆续开放给更多用户。

百度表示，目前排队申请百度智能云文心一言企业版API调用服务测试的企业用户突破10万，与百度智能云基于文心一言展开合作咨询已达6815条，文心一言邀测超85万人申请。

“文心一言是典型的需要靠反馈才能不断提升的产品，所以希望这个产品尽早发布。”李彦宏表示。