基于MediaPipe手势算法，这家公司让你用手语控制AR/VR_

在许多线上会议中，利用AI算法实现多语言机器翻译已经越来越常见了。那么，如果是用手语交流，又该如何进行翻译呢？对于不懂手语的人来讲，通过AI算法进行机器翻译，实用又方便。但是手语并非基于语音，因此无法以来语音识别实现转换，而是需要用到计算机视觉技术。

目前，基于计算机视觉的手势识别方案越来越多样化，而且效果逐渐成熟。比如，谷歌在2019年开源的MediaPipe手势识别算法，就已经可以识别单手21个骨骼节点，甚至在2020年底更新后，可识别手指之间的遮挡。

而利用MediaPipe算法，机翻手语技术公司SignAll研发了一种基于手势识别的手语翻译SDK，它不仅可以翻译手语，还可以将手语作为一种输入方式，听障人士无需打字就能输入指令和文字。

据了解，SignAll SDK可作为一种手语识别基础，帮助开发者在自己的应用中加入手语翻译功能。此前，SignAll的解决方案依赖多颗摄像头和配有彩色标记的手套，而现在结合MediaPipe算法，只需要手机的一颗摄像头，无需追踪手套即可实现手语识别。除此之外，SignAll还发布了手语学习app：《Ace ASL》，可以让你一边学手语，一边通过手势识别验证学习结果。

关于MediaPipe

MediaPipe是一种基于机器学习技术的手势识别算法，其特点是准确率高，支持五指和手势追踪，可根据一帧图像推断出单手21个立体节点。与目前市面上较先进的手势识别技术相比，谷歌的全新技术不需要依赖台式机来计算，而是在手机上就能进行实时追踪，并且还能同时追踪多只手，可识别遮挡。

据悉，谷歌在开源MediaPipe时就曾表示：该算法可识别基础手语，可实现手势操控，用于AR/VR。因此，将MediaPipe用于手语识别本身就是自然的场景，SignAll是在原本算法基础上进一步对手语识别进行优化。

细节方面，MediaPipe框架有3个模型组成，包括：手掌识别模型BlazePalm（用于识别手的整体框架和方向）、Landmark模型（识别立体手部节点）、手势识别模型（将识别到的节点分类成一系列手势）。

其中，BlazePalm是一个可识别单帧图像的模型，主要为Landmark模型提供准确剪裁的手掌图像，在经过训练后手掌识别准确率可达95.7%。这大大降低了对旋转、转化和缩放等数据增强方式的依赖，让算法将更多计算能力用在提高预测准确性上。此外，BlazePalm可识别多种不同手掌大小，还能识别手部遮挡，并且能通过对手臂、躯干或个人特征等的识别来准确定位手部。

而Landmark模型，则是在BlazePalm基础上识别到的21个立体节点坐标，这些节点之间的位置遮挡也可被识别。

接下来，通过手势识别模型，从Landmark提取的数据来推断每根手指伸直或弯曲等动作，接着将这些动作与预设的手势匹配，以预测基础的静态手势。这些预设手势包括一些美国、欧洲、中国通用的数数手势，以及竖大拇指、握拳、OK、“蜘蛛侠”等等。

基于MediaPipe的手语识别系统

SignAll称，其手语识别系统通过多层计算来识别手语，比如：底层识别包括从2D和3D摄像头提取关键的手部、身体和面部数据。在基于标记手套的方案中，底层识别会通过识别手套的颜色来创建3D手掌模型，而利用MediaPipe的Hands、Pose和Face Mesh三个功能，无需手套也能识别面部、手势和姿态。

在训练算法过程中，SignAll在多个不同的位置分别放置摄像头和深度传感器，并将采集到的数据过滤，在MediaPipe算法识别到的关键点基础上适配原本手套方案中使用的彩色标记，以此来兼容SignAll现有的算法。据悉，这种多摄像头方案可从多个角度捕捉手势，并生成准确的关键点位置信息，可识别手指遮挡或靠近。

在兼容性方面，尽管手套方案与无手套方案依然存在一些差异，但足以在无手套方案中，利用已经标记的30多万个手语视频进行算法培训。

结合MediaPipe框架

在结合MediaPipe的手势识别功能后，SignAll又继续利用MediaPipe框架对多个平台进行定制和规模化应用，实现对Windows、iOS、安卓、浏览器等客户端的兼容。

不过，为了能够在单颗摄像头方案中实现准确的手语识别，因此SignAll需要加入额外的算法逻辑，将单颗摄像头捕捉到的2D数据转化为3D手势。比如：根据摄像头移动来动态识别3D手势，等等。

此外，还需要重新训练3D手势识别算法，在原来的训练视频基础上，进一步标记更多细节。于是，SignAll可以通过处理过的动捕数据，模拟手指、骨骼、面部特征在各个角度的样子。

目前，SignAll的手语识别算法支持手机端等平台，不过其性能依然受不同摄像头配置和算力影响。而功能性上，它可以用来输入人名、签名、填写地址、点餐等等。或者，也可以在多人视频会议中，帮助不懂手语的人进行翻译。

总之，手语识别和翻译可作为语音输入之外的另一种输入方式，尤其是对于听障人士，是一个有价值的应用。如果用手语作为AR/VR头显的输入方式，甚至可能进一步提升听障人士远程沟通效率。参考：Google

头条号入驻

青亭网链接科技前沿，服务商业创新

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

基于MediaPipe手势算法，这家公司让你用手语控制AR/VR

头条号入驻

训练速度提升300倍，Niantic最新VPS视觉定位方案亮相

从单目数据生成3D模型，Meta智能眼镜摄像头校正算法揭秘

不受环境干扰，这套声学全息方案实现了虚实交互

财经自媒体联盟更多自媒体作者

热文排行榜