现在,只用WiFi就能“看”到你在房间里干啥了……
(你…干…嘛……啊啊啊啊)
多人追踪也是so easy:
过程中完全不需要拍下图像、不需要摄像头。
输入的仅是WiFi一维信号,输出则是三维人体姿态。
两台路由器即可搞定!换算成本都不到500块。
而且还不受环境光线、目标被遮挡的影响,效果接近于基于2D图像进行识别的方法。
啊这,难道说WiFi能“看到”我?更进一步……WiFi能监视我??
OMG,蝙蝠侠剧情要照进现实了??
要知道在《暗黑骑士》里,哥谭市所有人的手机都变成了监控设备,同一空间里所有人的一举一动都能被实时记录。
网友们已经构思恐怖脑洞了:
想象一下,只需一台连接WiFi接收器的电视机,别人就能看到我们全家在干啥了。
有人甚至说,以后可能必须要在身上涂保护层来屏蔽WiFi信号。
搞全身追踪,不要用摄像头了
如上提到的方法,是卡耐基梅隆大学(CMU)机器人研究所的新成果。
研究的本身目的是为了保护隐私,毕竟在很多非公共场所,如养老院、独居老人家中,监控非常有必要,但是使用摄像头又很难保证隐私安全。
使用雷达倒是能解决隐私问题,但价格和具体可操作上就很劝退了。
于是,该团队想到了用现在几乎各家必备的WiFi来进行识别。
所以在设备上,仅需两台再也普通不过的家用路由器(每个至少有3根天线)就可以了。
原理也很简单,就是利用WiFi信号中的信道状态信息(CSI)数据。
这些数据是一堆复杂的十进制序列,可以表示发射信号波和接收信号波之间的比率。
当它们在发射器和接收器之间传输时,一旦接触到人体,就会被修改。
于是,通过解读这些“改变”,就可以检测到人体姿态。
为此,研究人员开发了一个“基于区域”的卷积神经网络分析pipeline,该pipeline可以定位人体的各个部位。
然后再将WiFi信号的相位和振幅映射到24个人体区域里的坐标,实现最终的全身姿态追踪。
具体来说,模型通过三个分量从WiFi信号中生成人体表面的UV坐标。
首先,通过振幅和相位Sanitization步骤对原始CSI信号进行“净化”处理。
然后,将处理过的CSI信号通过双分支编码器-解码器网络转换为2D特征图。
接着,将2D特征馈送到一个叫做DensePose RCNN的架构中。
该架构灵感就来自Facebook已经开源的人体姿势实时识别系统DensePose。DensePose入选了2018年CVPR的Oral环节,主要是把2D图像转换成3D人体模型。
所以这步的目的就是算出2D特征图对应的3D姿态,也就是估计出UV坐标。
最后,在训练主网络之前,作者还将用图像生成的多层次特征图与WiFi信号生成的多水平特征图之间的差异进行了最小化,进一步完善了最终结果。
尽管我们从肉眼看上去,两种方法的最终结果差不多,但在数据方面,基于图像的方法效果还是更好一些。
比如在同样环境布局下,基于WiFi方法的精确度都低于图像方法。
△数值越高意味着越好
不同环境布局的情况也是如此。
与此同时,如果遇到数据集中不包含的动作,该方法也无法识别成功。如果人数超过3个,也发生“丢人”情况。
下图中左边两幅是罕见动作失败案例,右边两幅是3人以上识别失败情况。
不过团队认为,如上问题可以通过进一步扩充数据集来解决。
除此之外,该方法对路由器的放置位置要求很高,并且会对其他WiFi网络造成影响。
来自CMU团队,有2位华人作者
论文一作为Jiaqi Geng,他来自卡耐基梅隆大学,去年8月获得了机器人专业硕士学位。
另一位华人作者是Dong Huang,他现在是卡耐基梅隆大学高级项目科学家。
他的研究方向一直都是利用深度学习进行信号识别。比如之前已经实现了用WiFi信号实时识别2D人体姿态。
最后一位作者是Fernando De la Torre,他现在卡耐基梅隆大学机器人研究所副教授。
他的研究方向主要为计算机视觉,涉及领域包括人体姿态识别、AR/VR等。
2014年曾创办过一家开发人脸识别技术的公司FacioMetrics LLC,2年后被Facebook收购。
作者团队表示,目前该方法性能还受限于可用来训练的数据不多,未来,他们计划扩充数据集。