12月5日,记者从字节跳动获悉,该公司旗下智能AI助手豆包文生图能力升级,可支持一键生成指定文本。也就是说,用户只要在生图提示词中加入文本要求,即可生成带有指定汉字的图片。目前该功能已在豆包APP开启测试,在AI创作工具即梦上也开始小范围测试。
对文生图大模型而言,如何在图像中精准生成文本一直是行业难题,尤其是中文文字,在生成过程中经常会出现乱码现象。豆包大模型团队相关负责人介绍,这是因为,相比英文字母,汉字字符结构更复杂,且字符数量要多两个数量级。而豆包文生图模型则通过打通了LLM(大型语言模型)和DIT构架(即Diffusion With Transformer,是一种图像生成扩散模型)。“这也意味着,豆包将具备更好的原生中文数据学习能力,并在此基础上强化了汉字生成能力,大幅提升了生成效果。”上述负责人表示。
记者观察到,当前,用户已经可尝试使用该能力制作表情包、漫画,或辅助生成海报,并在社交媒体平台发布。但是,当前该功能仅支持文生图时添加文字,暂不支持上传图片生成文字。
上述负责人表示,该功能因处在测试阶段,仍在完善和优化中。目前绝大多数情况下豆包能够准确生成指定文字,但仍存在少部分错字、漏字或小字乱码等情况。据悉,豆包网页及电脑版也将在近期上线该功能。
来源:北京日报客户端
4000520066 欢迎批评指正
Copyright © 1996-2019 SINA Corporation
All Rights Reserved 新浪公司 版权所有
All Rights Reserved 新浪公司 版权所有