语音是怎样被识别的呢?

语音是怎样被识别的呢?
2021年01月29日 12:17 北京萌萌客

语音识别的出现,给我们的生活带来了很多方便,比如微信中的语音打字、语音通话、电话通话视频中的语音视频,甚至是直播平台中主播在讲的音频内容。语音识别就是对音频的识别,也就是对说话内容的识别,可是说话内容会有很多,除了我们生活方面的内容,还会包括涉政、涉黄、涉赌还是广告信息等。这就涉及到对语音的审核。下面萌萌客外包客服公司的小编给各位具体介绍一下。

语音在专业角度划分为两种:视频与音频

视频识别技术

我们先来看一下视频识别。在视频上,根据内容不同,如直播、短视频、个人上传的视频,视频是画面与音频组成的以甄别单位的画面。对于音频常存在暴恐、淫秽传播、甚至是音画不同步等问题。在视频处理上面,通常采用截帧上传服务器数据对比来识别。其审核模式与图片审核相同,会判断场景(外室外还是室内)、会判断人脸(画面中出现的人是否是明星或者政治)、会判断是否色情(根据画面图片的裸露状态,可为正常、性感、色情等不同唯独)。

如抖音、映客、等以视频流为主的APP,对视频内容的审核往往通过机器的方式进大量的审核筛检,画面中存在的严重血腥、暴恐、色情、政治新闻等危害画面内容会优先被查出,而那些不以直接性的画面展示的内容机器难以审查出来,所以现在AI技术还只是辅助,很多还是需要人工审核的。

视频识别介绍完了,我们再来看一下音频识别。在音频技术识别方面,针对不同的内容有不同识别技术。针对说话内容有语音识别、关键词检索等;针对语种的判别有语种识别的技术;针对说话人的识别有声纹识别技术;针对说话内容无关的通常采用音频比对的技术来进行检测。通常一般短视频,直播或者音频平台,对音频对比、声纹的技术较为重视,是保证录音质量及外放声音很有效的一种运营手段,但对内容语音识别,则不太关注,毕竟语音识别技术对这些企业的应用场景不是刚需。

音频识别技术

基于语音识别的关键词检索是将语音识别的结构构建成一个索引网络,然后把关键词从索引网络中找出来。从上图流程中可以看到,首先把语音进行识别处理,从里面提取索引构建索引网络,进行关键词检索的时候,在通过关键词表在网络中进行频率,找到概率最高的,输出其关键词匹配结果。(在这一步可通过垃圾文本处理及上下语义分,对转化的文本进行处理)

目前音频的识别技术能力还远远达不到准确阶段,比如音频出现的“娇喘声”单靠技术根本无法识别,或识别(转化)出来就是一串乱字。再如在人潮拥挤的杂音中,出现的音频,也无法准确的转化成文字识别。遇到这种隐晦场景下的文本,通常还是需要人工去审核的。

通过萌萌客外包客服公司的小编上面的介绍,各位对语音识别应该有进一步的了解了吧。希望上面的内容可以对各位有实际的帮助。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部