“超级知识助手”来了,科大讯飞发布首个长文本、长图文、长语音的大模型

“超级知识助手”来了,科大讯飞发布首个长文本、长图文、长语音的大模型
2024年04月26日 11:03 砍柴网

砍柴网讯 4月26日,讯飞星火大模型V3.5(以下简称“讯飞星火”)春季上新。面向用户高效准确知识获取的痛点,科大讯飞发布业界首个长文本、长图文、长语音大模型,不仅能够把各种信息来源的海量文本、图文资料、会议录音等进行快速学习,还能够在各种行业场景给出专业、准确回答。

科大讯飞进一步升级星火语音大模型,首发多情感超拟人合成,具备情绪表达能力,并推出一句话声音复刻功能,让科技更有温度。

同时,面向企业应用场景,科大讯飞推出星火智能体平台,帮助企业解决大模型落地的最后一公里难题。

持续用技术进步解决真实刚需,讯飞星火也在获得越来越多用户的认可。据七麦数据显示,讯飞星火APP在安卓端的下载量已经超过9600万次,在国内工具类通用大模型APP中排名第一。

首发长文本、长图文、长语音大模型,助力知识高效获取

为什么科大讯飞要做长文本、长图文、长语音的大模型?

通过讯飞星火APP可以看到,用户使用的最高峰不是周末,而是工作日的上午9:30和下午3:30。这意味着,大部分用户用讯飞星火来解决和工作相关的刚需问题。而高效的知识获取是用户和开发者都高度关注的问题。

科大讯飞分析发现,在知识获取和学习的过程中,广大用户能拿到的资料往往不仅是现成的长文本,还有随手可见的报刊书籍内容、各种研讨会的PPT内容,老师黑板上的板书、同学的笔记,以及各种会议录音、访谈,各种网上的发布会、培训教育视频等,能不能把这些文本、图片、语音等都上传到讯飞星火中,快速地获取知识?

为此,科大讯飞推出首个支持长文本、长图文、长语音的大模型,来解决用户真实场景中多源信息的获取需求。

本次讯飞星火长文本功能全新升级后,具备长文档信息抽取、长文档知识问答、长文档归纳总结、长文档文本生成等能力,总体已经达到GPT-4 Turbo 4月最新长文本版本的97%水平,而在银行、保险、汽车、电力等多个垂直领域的知识问答任务上,讯飞星火长文本总体水平已经超过GPT-4 Turbo。

长文本功能的落地需要解决信息高效处理的问题:面对上百万甚至上千万文字,长文本大模型消耗的运算资源非常大。

为了解决大模型应用效率和准确率问题,刘庆峰谈道,基于讯飞星火V3.5对长文本的理解、学习、回答能力,科大讯飞进行了重要的模型剪枝和蒸馏,从而推出业界性能最优的130亿参数的大模型,在效果损失仅3%以内的情况下,使得星火在文档上传解析处理、知识问答的首响时间以及文字生成方面都获得了极大的效率提升。测试显示,在保障长文本效果的情况下,无论是10K、64K、128K token,还是更长的文本上,星火大模型的性能都做到业界最优。

面向复杂的图文场景,科大讯飞在图文识别、公式识别大赛多年国际第一的技术积累基础上,首次推出星火图文识别大模型。

相比传统小模型逐行文字识别的限制,星火图文识别大模型具有三大优势:1)能够直接处理非常复杂的版面分析,目前已经覆盖31个典型场景,比如书刊、学术论文、专利、报纸、海报、PPT等,同时能自动识别标注出18类不同的版面要素,比如页眉、页脚、标题、段落、表格、公式、印章、手写等;2)融合篇章上下文语义进行文字识别,识别更精准;3)面向教育、金融、医疗、科研等专业领域深度优化,能自动实现更多领域的专业符号识别。

根据国际公开的权威英文测试集来看,讯飞星火的图文识别效果超过微软和谷歌。从典型应用场景来看,在科研、金融以及企业产品技术文档等识别效果都处于业界领先地位。

此外,面对广泛的音视频信息高效获取需求,科大讯飞也推出长语音功能,将国际领先的语音识别和翻译技术结合起来,可以实现会议录音、学习视频等的一键研读,实现音视频场景的高效知识获取。

发布合同助手、升级AI学习机,以技术进步解决真实刚需

讯飞星火长文本、长图文、长语音能力的升级,进一步推动大模型在各个场景的落地。刘庆峰重点介绍了讯飞星火在招投标、合同、教育等场景下的应用。

在招投标场景,此前凭借讯飞星火领先的文本理解、逻辑推理和数学能力,科大讯飞和国家能源物资公司在企业采购场景合作了智能无人评审系统,已经在国资委网站上被作为典型案例推荐。据介绍,在国家能源集团已评审5.7万余单,评审准确率达97%。这一次,叠加本次升级的长文本和长图文能力,可以让评标更便捷、更高效、更准确。

日常生活中,我们在买卖商品、装修房屋或者是购买汽车保险时经常会遇到各种各样的合同,看不懂存在风险怎么办?科大讯飞推出星火合同助手,它可以对我们的合同进行风险审核、合同比对,摘要总结以及合同生成,迅速识别潜在风险漏洞,成为你口袋里的“法务助手”。

在教育场景,科大讯飞进一步升级了讯飞AI学习机产品,不仅对作文的批改、对理科的批改更加精准,也让智能化辅学更有针对性更高效;也结合本次多模态能力升级了百科问答功能,星火大模型理解并融合了大量图书知识,对于孩子的奇思妙问等复杂问题,“爱因斯坦”和他的大咖虚拟人朋友都能回答,让孩子们在趣味互动中学知识、长见识,同时提升了孩子主动提问的意愿和能力。

智慧黑板也再次升级,搭载长文本和长语音能力,让实录转写效率得以提升的同时,提升篇章梳理能力。其次是星火教师助手,融入长文本能力后,可以把优质教辅内容融入,教师在备课的过程中就可以直接融入教辅教参中的内容,进一步丰富备课资源,提升备课效率。

此外,星火科研助手目前已在中国科学院、三亚崖州湾科技城、北京邮电大学、哈尔滨工业大学等机构高校铺开应用。多模态能力升级下,讯飞星火科研助手也进一步提升了论文问答、综述生成、实验解读等的效果,使得解析的学术资料更加丰富,进一步赋能高校和科研院所的科研工作。

能“情感共鸣”,还能“一句话声音复刻”

万物互联时代下需要更真实的AI语音交互。年初讯飞星火V3.5发布会上,科大讯飞推出了超拟人对话功能,AI的声音更自然更真实,拟人度达到了83%,受到用户的广泛欢迎。无论是语音可懂度、流畅度还是表现力,效果均超过OpenAI、微软。

此次科大讯飞发布多情感超拟人合成,进一步提升了情绪表达的可感知度,对高兴、抱歉、安慰、撒娇、困惑等情绪表达的可感知度达到85%以上,AI语音更加生动、真实。

昊铂HT 2024 款车型行业率先搭载科大讯飞超拟人合成技术,已在4月25日正式全球上市。

除了超拟人对话,科大讯飞还推出“一句话声音复刻”功能,一句话就可以定制你的AI助手声音。比如模仿小朋友的声音,每天给爷爷奶奶读书读报;在我们出差的时候,模仿我们的声音给孩子讲故事。这个功能可以让世界变得更有温度。

刘庆峰谈道,科大讯飞在个性化语音合成一直处于业界领先,目前已进阶至一句话声音复刻。当年讯飞AI模仿林志玲的声音需要去台湾录一个星期的声音,到后来模仿郭德纲需要一天的声音,再往后需要5分钟的录音,现在一句话就可以模仿。大家可以在讯飞星火APP上体验。

发布星火智能体平台,为企业注入新质生产力

自今年1月30日发布以来,讯飞星火V3.5作为首个全国产算力训练的大模型,受到了各行业伙伴和开发者的广泛欢迎。据刘庆峰介绍,大模型云边端的整体解决方案正在赋能汽车、家电、运营商等越来越多的行业;在过去不到3个月的时间里,讯飞新增了55万实名认证的开发者,其中一半以上来自企业。

对企业来说,如何高效地获取和学习知识同样是痛点,科大讯飞给出的答案是智能体,并面向企业场景推出全新的智能体平台。

企业构建智能体的环节主要涉及任务理解、外部信源打通、内部各个IT系统打通以及私域知识深入融合等环节,最终根据每个任务的执行结果输出答案,这样一个完整的过程才能够最终完成智能体的构建。

刘庆峰谈道,在讯飞星火智能体平台上,针对用户的输入,首先,基于讯飞星火大模型非常聪明的底座能力,会自动实现用户输入的精准理解和任务规划。其次,解析完了相关的任务和对应的工具之后,讯飞星火也构建形成了包括天气、航班、企查查等成体系的外部信息来源的对接;同时,星火智能体平台还通过互认证的机制,实现了往往是独立的、隔离的OA系统、CRM系统以及ERP系统的打通,完成相应操作;最后,通过私域知识融入机制,智能体平台很容易实现企业所属行业以及企业私域知识的融入,实现更精准的专业理解和知识问答。

此外,星火智能体平台还可以通过拖拽方式实现新智能体的创建和多智能体的协作。星火智能体平台,敏捷触达大模型应用企业落地的最后一公里。

据刘庆峰透露,科大讯飞将在6月27日发布讯飞星火大模型V4.0,进一步解放生产力、释放想象力。

今年全国两会上,开展“人工智能+”行动,加快发展新质生产力首次写入《政府工作报告》。大模型带来的知识管理革命正在上演,无论企业还是个人,都可以站在人工智能的肩膀上,实现新的比较优势。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部