百度回应“文生图中翻英”质疑:模型自研,使用全球公开数据训练

百度回应“文生图中翻英”质疑:模型自研,使用全球公开数据训练
2023年03月27日 14:25 另镜D-MIRROR

3月23日,百度针对网友对“文心一言”文生图功能的质疑作出回应。百度表示,文心一言完全是百度自研的大语言模型,文生图能力来自文心跨模态大模型ERNIE-ViLG。

此前,有博主发文质疑称,百度文心一言的文生图功能,其实是把中文句子机翻成英语单词,再用国外刚刚开源的人工智能Stable Diffusion生成图画,返还给用户。

在3月16日,百度召开发布会,发布了预训练生成式大语言模型“文心一言”。百度称,文心一言是「延续了百度知识增强的大模型理念,大幅度提升了事实性问题的准确率」。

在发布会上,百度主要展现了文心一言的五个使用场景:包括文学创作、商业文案创作、数理推算、中文理解和多模态生成。

其中,在多模态生成领域,文心一言展示了其除根据问题生成文本以外,还能根据这些信息进一步处理内容,生成图片、音频和视频等多形式内容。

“文生图”功能测试

根据博主举例,中翻英的现象在一些尝试中可以体现出来,比如在文心一言中要求其画出“鼠标”和“总线”,文心一言作出的画是“老鼠”和“公共汽车”,而“鼠标”和“总线”对应的英文正是“mouse”和“bus”。

目前,该问题正在随着用户反馈被修正。另镜在文心一言中进行测试,发现现在输入“鼠标”和“总线”已能正确画出。

另外有网友反馈,文心一言无法识别一部分“菜谱”,如可乐鸡翅、驴打滚、干炒牛河、夫妻肺片。

该问题也得到改进,另镜在文心一言中测试了画“干炒牛河”、“可乐鸡翅”、“狮子头”等画法,都能正确画出。

另镜同样测试了文生图功能对诗句、成语的理解:

但在要求文心一言画出“万里无云”时,文心一言并未能准确理解。

在文心一言的发布会中,百度提到了文心一言的中文理解能力,如能理解成语。这基于百度其作为中文第一大搜索引擎,积累了大量的中文语料库。但文生图中文理解的偏差,或是因为百度的画图AI采用了英文标注的开源图片素材进行训练。亚洲视觉科技研发总监陈经在接受媒体采访时表示,“百度的画图AI采用了英文标注的开源图片素材进行训练,因此需要中翻英来当prompt(提示词)。目前,全球AI研发有开源的传统,特别是训练数据库,不然收集图片效率太低了。而且图片是要标注的,这更加大了收集整理图片的难度。当前也有中文标准的训练数据,但是少很多。”

对于网友质疑,百度回应称,在大模型训练中,百度使用的是互联网公开数据,符合行业惯例。外界也能从接下来文生图能力的快速调优迭代,看到百度的自研实力。

“文心一言正在大家的使用过程中不断学习和成长,请大家给自研技术和产品一点信心和时间,不传谣信谣,也希望文心一言能够给大家带来更多欢乐。”

先发布再优化

与GPT-4相比,文心一言还有待加快迭代。在OpenAI示例中,GPT-4.0可以编写网站代码、识别图片输入,在回答专业性、推理和跨语种能力方面也更为深入。

“大家的期望值,是百度对标ChatGPT、对标GPT-4,这个门槛有点高。”百度创始人、董事长兼首席执行官李彦宏在文心一言发布会上坦然承认。

李彦宏在近期接受媒体采访时表示,中国基本上不会再出一个OpenAI。

“OpenAI诞生是因为美国大厂都不看好这个方向,但现在中国的大厂都看好AI大模型,都在做这个方向。创业公司重新做一个ChatGPT其实没有多大意义,基于大语言模型开发应用机会很大,没有必要再重新发明一遍轮子。”

李彦宏认为,大模型时代,最大的创业机会在应用。移动互联网时代,操作系统其实没几个,最成功的是微信、抖音、淘宝这些应用。未来十年,可能诞生价值十倍于这些应用的机会。

文心一言大模型也带来三大产业机会:新型云计算(MaaS模型即服务)、行业模型精调(工业、金融、交通、能源、媒体等)、应用开发(文字、图像、音视频生成、数字人、3D生成等)。

刚刚推出的文心一言并没有完全对公众开放,尚处于邀请测试阶段。从3月16日起,首批用户即可通过邀请测试码,在文心一言官网体验产品,后续将陆续开放给更多用户。

百度表示,目前排队申请百度智能云文心一言企业版API调用服务测试的企业用户突破10万,与百度智能云基于文心一言展开合作咨询已达6815条,文心一言邀测超85万人申请。

“文心一言是典型的需要靠反馈才能不断提升的产品,所以希望这个产品尽早发布。”李彦宏表示。

目前,文心一言的回答准确性在根据用户反馈不断迭代。一些网友反映的“中翻英”文生图现象已得到改进,对同一问题的回答也不断更新。

在文心一言发布当天,另镜在其中提问提问,如何获得其邀请码,其回应如下:

但当另镜继续提问:“文心一言QQ群号是多少?”其并不能准确回答。

但今日,另镜在文心一言中再度询问该问题,其回答已进行改进。

目前,大语言模型和生成式AI代表了一个新技术范式,但整体而言,这类大语言模型还远未到发展完善的阶段,它们有时候会有很惊艳的表现,但不少场景下,细究起来还有明显的bug,进步空间很大。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部