700多亿字样本中出现不规范字词135.9万次 如何才能不再出错

700多亿字样本中出现不规范字词135.9万次 如何才能不再出错
2023年06月13日 16:31 铀媒

近日,数字生态内容实验室通过人工智能、大数据等技术手段对4946.3万条、706.6亿字内容的样本进行全面梳理,整理出出错频率最高的“不规范字词TOP20”。

“不规范字词TOP20”(部分)

对错误类型进行统计,“常见错误”在不规范字词TOP20中占9项,是互联网上主要出现的不规范用字词形式。TOP20中,“常见错误”类型的帐(账)号等属于误用形近别字,其出现错误频次超过1万次。TOP20中,异形词、繁体字各有5项出现。其中,颤(战)栗、架式(势)等误用读音相近字的错误频次均超过千次。

TOP20中繁体字中岀(出)、沒(没)等与正确用字的字形非常相近,在快速输入或手机等小屏幕输入场景中易混淆;妳(你)、愛(爱)等被部分网友用于表达个性,因此出现频率较高。

面对使用次数高达135.9万次的不规范字词统计结果,报告从多角度分析不规范使用的原因,包括人机交互输入方式的限制、创作者能力参差不齐、网络个性化表达促成不规范用字用词等。报告认为,互联网时代的人机交互方式是导致互联网汉字不规范使用的重要原因。相比手写等传统记录方式中逐字思考记录,使用计算机录入可通过输入法的联想功能大大加快内容输入速度,但更容易出现形近、音近字选择疏忽,而且输入法选词推荐同时呈现字音相同、字形相近、字义不同的易错词,增加了误用的可能性。

作为数字生态内容实验室的共建者之一,上海蜜度信息技术有限公司结合行业先进的自然语言处理、知识图谱与图像识别等技术推出一款智能校对软件校对通,协助内容发布者正确用字用词,提高文稿质量。

AI智能校对平台--蜜度校对通

蜜度校对通围绕中文语言特点和使用习惯,以百亿级训练语料为基础,实现中文文本错误和语义关系的自动发现与纠正处理,支持文字标点差错校对、知识性差错校对、内容导向风险识别三大类型27个分类全栈式校对,可广泛应用于政府公文、新闻稿件、日常写作等场景,提升文本质量,降低差错概率。

  • 12类文字标点差错校对 助力基础内容规范性

上述网络不规范字词现象在校对类型中属于错别字,蜜度校对通可以轻松校对出来。

蜜度校对通校正错别字:帐(账)号

蜜度校对通校对成语:戮(勠)力同心

除错别字外,蜜度校对通可以对多字错误、少字错误、语义重复、语序错误、句式杂糅、标点符号差错、量词和单位差错、数字差错、序号检查、句子查重、英文校对12类文字标点差错等进行快速排查。

蜜度校对通可校对中英文标点

  • 9类知识性差错校对 严守内容准确关

知识性差错往往因内容创作者在认识上模糊、知识面狭隘、表达不当造成的。蜜度校对通提供重要讲话引用、姓名和职务信息校对,以及地理名词、机构名称、专有名词及术语、法律法规名称、常识差错、时政重点词、禁用词和慎用词9类知识性差错校对,帮助更严谨的公文、新闻稿等内容提高准确性。

蜜度校对通可识别常识错误

  • 6类内容风险识别

蜜度校对通以相关要求为校对标准,可以提供针对涉黄、暴、恐、赌、毒,涉低俗辱骂,涉违法违规(如广告违禁),以及其他敏感内容,共计六类风险进行识别。

蜜度校对通可识别涉嫌低俗辱骂词汇

  • 图片、文本、视频多形式校对 为内容保驾护航

针对文稿的多种形态,蜜度校对通图片校对、文本校对、视频校对三大校对功能带给用户无需转化文本格式的畅快体验。

对于是图片形式的内容,蜜度校对通支持jpg、png、bmp、jpeg、jfif等多种格式图片的校对,无需转化格式就能快速校对图片中的文字。对视频,蜜度校对通则可以解析视频中的字幕、弹幕以及背景、画面中的关键元素,智能识别错敏或不规范内容,并高亮显示。

蜜度校对通图片校对功能

蜜度智能校对事业部总经理张晓娟表示,目前,蜜度校对通作为国内智能校对系统能够针对汉语特点,将字义、字形和字音三类信息以多模态方式编码进大规模深度神经网络中,捕捉句子的细粒度语义信息和长程语义依赖关系,实现文字差错的自动识别。同时,蜜度校对通具备主动演进策略,能够持续学习新的语言现象以改进校对效果,为提升语言文字的规范性提供了有力支撑。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部