41页PPT深入解析高通量计算在大规模视频处理中的特点、挑战及应用实践【附PPT下载】

41页PPT深入解析高通量计算在大规模视频处理中的特点、挑战及应用实践【附PPT下载】
2020年07月09日 21:54 智东西
出品 | 智东西公开课

讲师 | 郭南 中科睿芯的应用创新研发总监

导读:

中科睿芯的应用创新研发总监郭南去年8月曾在智东西公开课进行了计算机视觉应用合辑第一讲的直播讲解,主题为《高通量计算在大规模视频处理中的应用》。

在本次讲解中,郭南老师首先从高通量计算的特点入手,之后分析了大规模视频处理面临的挑战及市场需求,最后从样例匹配、场景检测、目标识别、内容鉴伪四个方面深入讲解大规模视频处理的应用。

本文为此次课程主讲环节的图文整理:

正文:

大家好,我是中科睿芯AI应用开发负责人郭南,很荣幸能在智东西平台和大家一起分享今天的课题。今天分享的主题为《高通量计算在大规模视频处理中的应用》,主要分为以下3个部分:

1、高通量计算应用开发特点

2、大规模视频处理面临的挑战及市场需求

3、大规模视频处理在网络内容安全和安防中的应用

高通量计算应用开发特点

据统计,我们每天创造约2.3万亿的数据,而当前的网络流量中有70%以上都是视频。这些视频规模庞大,有24小时不断更新的监控视频,还有移动智能终端的拍摄和分享数据,比如传统的媒体和自媒体抖音等。这些视频不仅规模庞大,还具有高并发大容量的显著特性,高并发意味着单位时间内产生的任务数量大,无论对国家公共安全还是日益增长的互联网经济,对这些具有高并发性的海量视频数据进行分析和处理,为视频内容监管和应用服务提供关键技术支持,已成为一个亟待解决的问题,我们需要从并行计算硬件支撑和图像视频计算模型优化两个方向来解决这类问题。

硬件方面就需要高通量计算机。从上世纪40年代,人类第一台计算机诞生开始,信息基础设施经历了70多年的发展,万物互联所产生的巨大数据流量,要求大型数据中心能够在提供一级以上并发请求访问能力的同时,还可以有效的保障质量,这对计算机系统提出了巨大的挑战,仅靠计算设备的堆积将无法完全解决上述问题,因为计算设备的堆积会产生大量的电力或者功率方面的消耗,而高通量计算机适应是适应新兴应用负载特征,在强时间约束下能够全局可控处理高吞吐量请求的一种高性能计算机,其设计目标也相应的从追求传统单个任务的“快”,转变为追求单位时间内处理任务数量的“多”。

传统的高性能计算的特点是计算密集型,追求的目标是高速度,主要用于科学计算。而高通量计算的特点是请求密集型,追求的目标是高通量,即单位时间内算的多,适用于互联网新兴应用负载特征,关注高并发环境下的系统吞吐能力。在强时间约束下处理高吞吐量请求,所谓系统的吞吐量指的是计算机系统单位时间内可处理的服务请求数,它的计算特点是需要挖掘算法本身的可并行性,计算任务是基于一系列学习子任务的一个较大任务,这些子任务之间使用相同的数据或者关联数据,如果能充分利用子任务间的相关性和数据的相关性,就能提高计算的并行度和计算效率。另外一个特点就是多任务多特征学习,在多个特征表示上构建图像分析模型,或者在单个特征上进行模型学习,最后融合多个特征统计模型的判别结果。

随着移动互联网技术和智能终端的普及,海量的咨询娱乐、音视频内容分布在传统互联网和移动互联网上,使得视频内容服务成为互联网主要服务之一。面向视频信息处理的应用越来越多,包括视频转码服务、视频会议、视频版权鉴定、内容检索服务、场景识别服务等。其中有一些违规内容,如色情暴力、政治有害也充斥其间,有必要采取对应的监管策略和手段,进行网络视频内容安全检测与促进网络的安全。

大规模视频处理面临的挑战及市场需求

伴随着巨大的市场需求,视频处理面临着一系列挑战,比如说数据处理量大,训练数据获取困难,我们将详细介绍这些挑战的具体表现形式,对应的市场需求以及相应的解决方法。

上图是网络视频处理的整个流程。首先对网络流量进行粗拼装,提取音视频数据,经过音视频编解码、内容分析处理,返回结果,解码和视频分析的计算量都很大,需要进行相应的硬件加速。其中解码对应的有解码卡之类的专用硬件加速单元,一般的显卡上即NVIDIA的GPU上面也会有这个单元,内容分析从AI加速卡算法优化软硬件同时加速,分析的内容可以归类为压力匹配、目标识别、场景检测和伪造识别。

上图是对上面视频处理过程的一个细化过程,包括拓扑链接逻辑,数据处理逻辑和软硬件层方面。拓扑链接逻辑方面,包括分光器,前后端捕包机,后端服务器等一些设备,中间是并发数据的处理逻辑,体现了数据量的处理量比较大。最下面的软硬件部分展示了视频处理中常用的服务器和处理平台。比如TensorFlow,还有数据大数据处理平台,FPGA等。

对应上述流程音视频是解码设计方面主要包括4个模块,绘画管理模块进行绘画的上下文管理,解复用模块的调度,解复用模块是从视频容器中提取码流的信息,解码模块,就是实现解码的整个过程,IO模块来实现音视频解码模块与外部的数据交互,来实现内存的缓存管理。

要实现对大规模网络视频的解码工作,还需要考虑以下方面:

首先是有模块之间的调度,以提高系统的运行效率,还需要统一的内存管理,避免内存频繁的拷贝,需要优化现成的调度和同步,减少线程休眠和Cache失效引起的性能损耗。针对不同的视频格式需要进行解复用优化,提取解码所需要的关键信息,以减少内存的占用量。

解码技术的难点一是需要建立非常强的容错机制,在视频流数据缺失的情况下可以保证稳定性,防止死锁与崩溃。针对不同的格式特点进行优化解码,在视频传输有错的情况下,解码出尽量多的数据量。难点二是需要维护大量并发路数,以保持满负载,并且控制内存用量。网络实时流媒体数据的重要特点有统一,时间流媒体传输的数据量大,同一路流媒体在用户观看过程中持续活跃,数据间歇性传输等。我们的解决方法是可配置的cavhe系统、节目超时淘汰算法、针对常用格式的内存优化等。

解码还需要支持网络中多种多样的封装格式和编码格式。睿芯也有自己的专用的音视频解码卡,在解码能力、功耗、性价比方面有很大的优势,在国家一些部门以及企业也具有了批量的应用,能够支持网络中所有常见的编码格式。

刚才我们提到的是解码方面的内容,视频应用分析方面也是计算量消耗比较大的一个方面。在网络内容安全以及安防方面,视频分析的市场需求可以概括为以下4个方面:

第一是内容审查,实时检测和分析网络流中传输的音视频数据内容,对涉暴、涉恐等有害内容进行实时审查,来保证网络中传输内容的健康、安全性。第二个是目标识别,目标识别主要是实现对网络视频流中台标、人脸、车辆、敏感设施以及音频中的多语种敏感语音进行检测识别。第三是样例匹配,是通过实时分析视频数据进行管控。样例匹配除了安全方面,还可以实现平时的视频推荐的功能。第四是内容鉴伪的应用,主要是检测伪造的图像、音视频,来防止敏感内容被滥用到非法渠道。

大规模视频处理在网络内容安全和安防中的应用

对应前面市场需求所提出的4个类别,样例匹配、场景检测、目标识别、内容鉴伪,将逐一介绍技术以及应用场景。

– 样例匹配

样例匹配面向图片、视频、音频三个方向,通过实时分析网络数据,对匹配的音视频内容进行监管,我们自研的多媒体检索系统也能够实现百万级别视频的快速检索,在一定程度上解决了特征提取速度,数据内存耗费以及检索效率等一系列问题。现在图像、视频、音频它的准确率和召回率都已经能够满足实际应用当中的需求,并且能够根据客户的需求来做到秒级响应或者是毫秒级的响应。

视频用例匹配具有广泛的应用场景,它可以应用于版权保护的问题来阻止盗版视频的传播,还可以解决非法内容检测问题,一些用户和团体借助网络平台恶意传播非法视频,以扰乱社会秩序,导致多类问题视频在各个视频网站、交友社区、聊天工具等平台中不断传播危害社会,而依靠人力在网络海量数据中找出这些视频是不现实的。还有的应用是视频监控处理的问题,一些用户、商家希望知道某视频片段在网络流媒体中某个时间段内出现的次数。还有视频推荐,个性化的推荐服务是各大平台促进用户体验的重要手段。依据文本标签匹配外联合视觉内容进行视频推送,可以达到更准确的推送效果。

前三个应用场景主要使用近重复检索技术,而视频推荐会使用到基于内容的检索,对于样例匹配设计的两种具体技术即近重复视频检索和基于内容的检索,近重复视频是基于已有的原视频,在海量数据中寻找与之相同或近似的视频。

以上这些图片就展示了我们经常能够看到的一些近重复视频片段,这些近似变换的方式有插入图标,模拟录像,尺度改变和画中画这些方式,一般来说插入图标、字幕的复制变化比较容易检测,而模拟录像、画中画和后期加工等变换在视觉上变化相对较大,检测比较困难。基于内容的视频检索则是主要查询语义相似的视频,语义相似的程度会与我们给他的训练数据有关系。目前对于样例匹配这两种方式都使用基于深度学习的方法,两者之间是没有明确的技术界限。

样例匹配的基本框架主要包括4个步骤,首先是特征提取,建立索引,特征匹配和时间对齐。图像中虚线是表示离线的步骤,实现在线检测步骤。对于数据库视频的建模是离线,对于查询视频需要进行在线检测,无论对于视频库中的视频还是查询视频,首先都需要进行特征提取。视频描述特征,我们可以分为视频帧级别的特征和整体描述特征,视频有大量的图片帧以及关于不同帧的时间和空间的概念。因此导致了视频帧级别特征数据量很大,视频整体描述特征提取也需要较大的计算量。

在传统方法中,视频帧特征中有颜色直方图,尺度不变特征SIFT。为了提高匹配效率,采用视觉词袋模型,把一个帧内的众多局部描述字合成一个单一特征来表征视频帧,具有较好的扩展性和准确率。视频整体描述特征则是关联了中间的时域信息,在获得特征之后进行建立索引的操作。对于海量数据库视频的复制检测问题,使用直接的特征一一匹配方式十分耗时。为了达到更高效的检索,建立索引是一种非常有必要的手段,索引结构不仅需要提高检索速度,还应控制因建立索引而产生的量化误差,对于查询视频进一步进行特征匹配的操作。

上图是我们对几种特征提取方法进行比较,在检测方面取得了不错效果的传统特征,有指纹特征、SIFT、BOW特征,还有现在的深度学习特征。其中指纹特征一般是指视频帧的均匀感知哈希,这种特征占用内存少,提取速度快,方便使用哈希检索,效率比较高,但是对各种变化的支持会比较弱一些。SIFT、BOW磁带模型特征它对旋转变形等干扰的鲁棒性较好,但是计算较复杂,并且与深度学习特征相比,没有语义表达能力。使用深度特征具有优良的泛化能力和鲁棒性,特征表达紧凑,语义表达能力强,缺点是深度学习模型的计算量相对较大,需要AI硬件加速,应该加速的硬件现在也很多,所以深度学习现在不是一个问题,计算量方面是大家共同关注的问题。

对于更高数量级的视频检索,比如说百万级的千万量级的,一般都需要使用哈希二进制特征,便于在检索的时候使用层次聚类树等二进制检索方式,以提供比较快的检索速度,但是浮点特征向二进制特征进行转换,会造成一定的信息损失,所以准确度会略有下降。

上图是之前使用传统方法进行视频样例匹配的一种方法的框架图。这种方法当中针对传统方法的一些特点,然后提取了提出了一些模块来改善它的效果。比如提取显著区域来提高人为添加字幕,加黑边,这些视频检测的鲁棒性,后面还有一个消除帧间信息冗余来减少数据量,提高检索效率。

再介绍一种我们自己开发的一种基于深度学习的视频整体描述特征:RLH。RLH特征是从4个层次来提取特征,因为它涉及到了ResNet、LSTM和Hash网络,所以我们将它简称为RLH,首先是采用ResNet获取视频帧的空间特征,ResNet在图像分类任务中表现卓越,能够获取很鲁棒的特征,然后用LSTM进行时空特征融合,保留视频空间特征的同时,进行降维处理,在对时空特征进行大福降维处理,进行二次编码,得到视频的哈希码。RLH网络能够对特征进行大幅的降维同时保留视频帧空间信息以及视频帧中间时序信息,具有很好的视频描述能力。

在训练过程当中,首先对视频以秒为单位,进行小片段分割,保留其帧间的时序信息,并且基于三元组的数据输入方式,设计了对比损失函数,用迭代的方式对RLH网络进行训练,使网络快速收敛。在组织训练数据时,从点云数据集中挖掘不相似点对,再现online和offline的挖掘方式,可以有效的进行哈希训练。因此我们采用类似的方式,从视频特征中挖掘三元组来进行快速有效的训练,我们经过实验大量的实验对比证明,相比于其他的特征提取方法,我们提出的RLH特征能够有效的提高近重复视频检索的精度,并同时降低时间和空间复杂度。

对于角度问题,如果商品的特征集中在顶部,可直接采用一个垂直向下的角度,而且这种角度,遮挡的可能基本消除。但在便利店的场景中,需要识别很多瓶子类的商品,它的特征集中在侧面,就须架起一定的角度。以我们的经验,大概是用到70-80度的角度,既能够看到侧面,又不会增加太多的前后遮挡。

– 场景检测

场景检测我们一般分为公共安危害行为检测和色情内容检测。公共危害行为检测网络流传输的视频数据是否包含公共危害行为内容。这种检测广泛应用于直播平台或者是社交网络平台的实时内容审查,可以识别常见的暴力行为场景。色情内容检测是检测网络流传输的视频数据是否包含色情内容。对于场景检测在视频安全领域当中,我们应用的时候一般需要较快的响应时间,因为你要在用户感知到它的危害性之前,将其进行一定的控制和管理,所以我们一般需要10毫秒以内的单帧响应时间,并且对整个视频要在三秒或者是5~10秒这些时间内给出判断,这样才能控制不良视频在网络上的播放

公共危害行为,我们一般指的是暴恐、火灾、抢劫、破坏公共财物等,这种检测用于突发公共危害行为的报警和直播平台社交网络中的内容审查,场景检测的技术实现方式包括两类,一般包视频帧、图像分类和视频分类相结合来应用。图像分类是视频深度学习能解决的最基本问题,视频分类有处理的方式,需要处理时域之间的关联,关联有LSTM 3DCNN等解决方案。目前问题的关注点是数据源的获取以及标注,这些数据比较难以获得。

色情检测的应用场景也会比较广泛,网络内容的监管,非法色情传播源头的监管,还有运用在校园里面,保护青少年的成长。这一个问题的主要实现方式也是以图像分类为主,视频分类为辅,因为图片分类已经是很准,准确度很高,而视频分类存在一定误检的情况,但是图片分类可能会漏掉一些场景,或者是对一些场景进行误检,需要视频分类做一些辅助。

– 目标识别

(1)人脸识别

识别是计算机视觉应用的非常广泛的应用,因为我们一般是分类识别检索等一系列应用,识别目前准确度也比较高。人脸识别也是计算机视觉落地的热点应用,尤其是近几年对动态人脸识别的要求会更多一些。人脸识别主要关注的功能是检测视频流中的人脸,并与人脸数据库进行匹配识别。浏览信息是重要的身份识别标志,在网络内容安全和公安机关各警种业务中都取得举足轻重的作用。以前我们人脸信息可能用于闸机,现在摄像头采集的数据会更广泛一些。

人脸识别的应用方面,在网络内容安全方面,需要对关键人物进行视频关键人物的视频进行管控。对于公安这方面在刑事案件调查时,会由于大量的视频录像,造成时间和精力的浪费。同时在日常巡逻、户籍调查、出入境管理等业务中,干警都会通过辨识人脸来核实相关人员的身份,有了人脸识别之后,我们就可以加快整个过程,并且降低对人员和时间的消耗。

检测到人脸之后,在进行人脸关键点的分析,人脸对齐的处理,然后采用人脸识别模型来提取人脸特征,对提取出的人脸特征与库中的人脸进行检索匹配,根据匹配结果进行相似性排序,然后再结合阈值来判定是否会同一个人。人脸检测和识别都是基于深度学习的卷积网络,是用大量数据训练出的人脸特征模型,并且准确率已经提升到了人类的水平。人脸识别作为一个应用广泛的计算机视觉方面的应用。网络中介绍人脸识别的资料也有很多,我们上面对基础的人脸识别的流程做了简单的介绍。下面我们说一下高并发条件下的处理,对应我们的高通量处理。

上图是高并发人脸的检测效果。我们这是做的一个展示demo,我现在是并发12路,12路其实是一个比较少的路数,我们在实际使用当中可能并发的路数会更多,并发意味着我们要不仅要实现实时的检测,还要实现超实时的检测,也就是说在实时的条件下,我们需要同时实时检测30路、50路或者是更高的路数。

对于高并发的人脸识别,首先我们必须具备基本的人脸识别功能,准确率要高,准确度要高,能够满足用户对准确性的要求。接下来要处理的难点是处理来源多样的视频源,来适应低质量的人脸图片,通过融合多种规整技术改善图像。因为人脸识别,我们现在对闸机的识别准确度还是相对来说比较高的,但是对于摄像头识别就存在一定的问题。首先是各个摄像头并不一定是统一规格的,并且摄像头本身也具有一些参数调整,需要手动调整或者一些问题,那就会存在光照不统一,或者是清晰度不统一,然后还有一些聚焦的问题,对于高并发的识别,同时解决这些问题,就需要算法有一定的自己的选择能力。

在处理这种不同质量的图片,不同曝光的图片以及不同清晰度这种图片处理的方式,一种方式是我们改善算法进行一些预处理,另外还是要从因为对于深度学习,从数量数据方面入手,需要比较来源广泛的训练数据,必要时可能需要使用GNN、3D模型来制作各种应用场景下的人脸数据,比如说模糊的图像,我们可能会通过GAN来生成,有些多个角度的会通借助3D模型,然后或者是佩戴一些口罩或者是眼镜之类的,都需要我们这些数据仅仅靠自己人工采集的数据可能是,当然这些是必要的,但是还不足够使用,所以要制作的数据和人工打标注的数据同时使用。

(2)台标识别

台标识别是一种很传统的应用,在90年代以来就一直在用台标识别,这是一个看起来很简单,但是要做的好是很难的一件事情。因为台标它不同于自然结构,它有些结构可能变化多样,有些可能比较复杂,有些可能是大家设计的logo会比较简单,同时它的数据量可能会比较少,还有一些半透明的或者是旋转的台标,这样都给台标识别造成了很大的难度。但是台标识别又是一个非常有用的应用,它可以运用在各种电视台的监管,有对境外敏感电台的监管,分级电视台的监管,还有电视台内容盗用监管等一系列内容安全方面的应用。

台标识别的流程与整体检测的流程都是类似的,它是提取视频帧中的台标区域,在使用特征提取与分类算法,对提取出的台标区域进行识别,判断出属于哪一类台标。同样的与高并发的人脸识别一样,高并发的台标识别也要处理更多的挑战,在基本的台标识别功能能够实现的前提下,还要处理数据来源复杂的问题,以及数据管理的问题。

来源复杂与我们刚才提到的清晰度会有很大差别。尤其是网络中传输的数据,它的码流不同,就算分辨率很高,它的清晰度可能很差,这是一种非常广泛的现象。另外还有一些数据管理问题,因为并发多路对数据ID的控制以及内存的消耗、内存的控制,而且因为台标存在动态台标,还要从视频的角度来判断它属于哪种台标。另外因为台标识别它一般是结合其他应用一起作为一种综合的应用来实现的,并不是一个部门只是在做台标识别,往往情况下我们可能将台标识别和视频检索等一系列或者是其他物体的识别放在一起来应用,在这种条件下留给台标识别的计算环境可能会更少,并且我们可能在单帧上面下的功夫就会少一些,来降低它的计算消耗。网络视频流中同一视频数据到达接收端,从视频的角度来处理台标识别问题的时候,需要对每一路视频管理来进行管理,结合帧间识别统计策略,准确的说出每路视频的台标检测结果。

上图是对检台标检测的传统算法和深度学习算法进行效果的对比。因为台标检测和今天检测一样,作为一个从90年代就开始,然后既有传统算法长期的发展,以及深度学习算法长期发展的两种应用。这里介绍的是一种传统的机器学习方法,使用HOG特征和SVM分类算法。HOG特征是具有一定鲁棒性的边缘特征。SVM支持向量机在深度学习之前是机器学习算法当中,综合性能会比较好的一种分类方式。我们这种方法是通过轮廓的快速定位,来从视频级别来选择台标区域,并且使用滑块与轮廓结合的便利的方式,来识别以准确检测台标这种方法的检测速度和视频侦监变化量相关,身份变化量较大,它的检测速度会更快一些。我们这个方案对大部分视频的测试效果都很好,已经获得商业应用。

同时我们通过视频数据统计来进行参数优化,避免了检测对帧间变化的依赖。另外就是迁移学习来检测台标,因为台标的数据不可能做到非常大,所以就需要使用到迁移学习方式,使用迁移方法来训练分类器,来识别台标,特别是一些较高难度的台标,这个难度就是体现在视频复杂多样性,然后台标的间断性出现,还有台标的动态台标等,深度学习的识别的准确率会较高。它主要是在处理一些复杂的背景下面,具有非常强的鲁棒性。同时我们使用千亿模型在一定程度上降低了对数据量的要求,但是与传统方法相比较,它对数据的消耗还是要多一些的。

在传统方法和深度学习方法当中应该如何选择呢?传统方法它的数据量要求较低,深度学习方法的鲁棒性更好。我们选择的时候就要根据用户能够提供的数据量,数据量大的话可以选择深度学习方法。是否可有可能做数据增强?如果数据本身就比较相似,做数据增强也没有太大的意义,然后还有标志的变换程度,变换程度,然后还有硬件的功率的要求,当然还有并发路数与其他程序软件平台的兼容性等。

下面介绍一个更通用的检测,以敏感设施检测为代表,敏感设施检测就是检测视频流中设施与敏感设施库进行匹配识别,应用场景有保护军事设施影像资料,防止涉密、涉密设施的泄密及查询宗教信仰设施等。同时这类方法也支持于飞机、军舰以及其他一些通用的建筑物的检测。与前面人脸识别和台标识别的区别在于一般提到敏感设施检测,它的数据量就会更少一些,并且会更具有特色。比如飞机它可能更注重轮廓信息,而建筑物可能有些时更关注它的纹理信息,这样在深度学习训练的时候就要有一定的特殊性。虽然是检测问题,需要结合检索和检测多种方式来同时处理,因为数据是一个比较大的问题。解决方式有我们现在正在研究的一些 few-shot learning或者是online learning,也就是说在检测过程当中同时进行在线的学习,来提高这类检测的一些效果,这类检测在应用过程当中是相比于人脸、车牌还有台标,它的准确率都是相对来说比较低的,但是现在也有一定的优化方式能够让它达到市场上应用的水平,我们也有相关的优化方法。

前面我们对识别是讲的比较细的,然后下面我们就是来解释一下,就是识别这些遇到的问题,我们应该如何处理,就在于数据的问题,常见的目标识别、车牌摩托车各种车船的检测,交通标志的检测、旗帜的检测,广泛使用的目标识别,有开源的数据集,比如说小汽车就有非常广泛的数据集,更多的我们提到敏感物体检测之类的检测,它的数据是需要开发者自己标注数据的,而一般的目标检测方法,需要人工标注,目标矩形,这一过程往往需要耗费大量的人力和时间成本,因为它比标图片要难多了,你标每一张图片,可能我们现在已经有一些标注工具,但它的速度还是相对较慢。

目前有一种技术是弱监督目标检测,这种技术是在仅仅利用图像分类标注的数据下,学习目标检测模拟模型仅适用于图像级别的标注,不利用任何关于位置的信息,这样能够大量的节约标注成本,在标注数据相对昂贵的场景下有着重要的应用价值,还包括一些医学的应用场景,我们是用我们针对弱监督物体识别,然后设计了基于耦合的检测框架。

现有的弱监督的目标检测方法的主要问题是容易收敛到目标最具区分性的局部,也就是说它可能只能检测到显著性区域比较大的目标。我们通过将两个以互补方式工作的弱监督检测分支的定位信息进行耦合,来提高检测性能,多个检测器的信息进行耦合,就可以避免网络收敛到局部最优,同时召回多个检测目标。

网络结构图如上图所示,其中CMIDN是我们提出的 cascade multiple instance detection network,就是说级联度多实例检测网络,网络结构当中的ODR指的是online detector refinement,就是指的是在线检测优化,还有SGPR指的是segmentation guided proposal removal,分割引导的建议区域移除。

在这个框架中,我们提出了利用候选框移除的方法,来让两个弱监督检测分支以互补的方式工作,引入弱监督分割信息,来提高候选框移除的鲁棒性。同时我们还提出一种量化弱监督检测器不稳定性的指标,并且利用这种不稳定性来提高弱监督检测器的性能。我们的弱监督检测方法是也发表在了计算机视觉顶会上面,然后同时这种检测方式运用到我们的项目当中,降低了我们标注的工作量,然后也能让我们的每一种识别的算法能够尽快的应用,就是用户提供少量数据的情况下,我们就可以尽快标注数据,然后尽快进行一个落地的应用。

下面说下网络舆论上比较关注的伪造内容识别,其实伪造视频一直都存在,比如说你找个演员扮演一下,然后就能造成一定的社会影响。在使用就是深度学习之前,伪造的视频是比较假,然后高仿真的视频伪造代价也比较大,人工智能流行之后伪造视频变得容易,比如Deep Fake和Face to Face是用于生成超逼真伪造视频的两种技术,这种技术可能普通学生就能够实现。那么对于深度学习生成的伪造视频,人的肉眼也无法识别真伪的区别,伪造视频被用到非法渠道里面,就会对社会造成一定的危害。

对于人工智能生成的伪造视频,就用人工智能来对抗人工智能,来检测伪造的视频和图像。我们这里使用的是Xception model能够自动检测伪造的人脸和图像识别,辨别敏感人群的视频是否存在合成滥用到非法渠道。视频是包括语音和图片两种,一般情况下我们在以前图片和语音会单独的处理,因为语音会产生更大的干扰,来减少对图片这方面的干扰性。现在我们也进行多模态的研究,将图片语音文字进行同时处理,然后这样的精确度会比较高。当然它的计算消耗量计算量消耗也会比较大。

下面简单说下音频方面的一些传统的处理方式。首先说下音频方面,因为对应伪造视频识别,它肯定里面的音频也是造假的,那么伪装语音就是通过某种技术手段生成和系统中已有的用户声音特点相似语音,从而欺骗过鉴别系统。伪装语音的生成过程也有特点获取和特点对应的一些相应的步骤。在右边的框架当中也显示了我们检测伪造语音识别的一些步骤,因为生成的伪造语音,他其实如果是误认为是由真人发出,就会认为合成语音是合法用户的声音,也会对系统的对整个安全性造成一定的危害。

目标识别也会包括语音检测,有可能用户传来一段视频,让你同时检测视频当中的物体以及对一些语音当中的关键词的检测。语音的目标识别就是根据语义进行及时地告警和管理,应用场景主要是对音频的一些舆情分析,或者是配合视频剪视频当中物体的目标检测在一起进行应用。

上面是高通量音视频一体机基础架构示意图,最上面是我们刚才介绍的4类应用场景和中间应用场景,刚才也主要是从4个类别来介绍,并且对识别做了详细介绍,就是为了展开我们在深度学习或者是人工智能在视频处理方面遇到的一些问题,还有其他一些应用,中间使用的是编解码加速平台和是深度学习的加速平台。硬件方面有使用到高通量服务器和音视频加速卡,AI加速卡,还有加解密加速卡。因为网络数据是加密的,是加密信息,在应用当中还需要使用加解密方面的加速设备,来提高整个系统的处理速度。

上图是高通量音视频一体机的硬件形态,对应用的支持,数据处理量,还有功率消耗体积都可以定制,体积方面1U、2U都是有的。我们致力于提供能耗比、性价比和应用效果都最佳的解决方案,上面是我们设计的,可以看到我们的音视频解码加速,深度学习加速,还有加密数据处理加速这些硬件设备也在很多领域都进行了非常大批量的落地应用。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部