千万别在有WiFi的房间里摆这种姿势-3809游略网

现在，只用WiFi就能“看”到你在房间里干啥了……

（你…干…嘛……啊啊啊啊）

多人追踪也是so easy：

过程中完全不需要拍下图像、不需要摄像头。

输入的仅是WiFi一维信号，输出则是三维人体姿态。

两台路由器即可搞定！换算成本都不到500块。

而且还不受环境光线、目标被遮挡的影响，效果接近于基于2D图像进行识别的方法。

啊这，难道说WiFi能“看到”我？更进一步……WiFi能监视我？？

OMG，蝙蝠侠剧情要照进现实了？？

要知道在《暗黑骑士》里，哥谭市所有人的手机都变成了监控设备，同一空间里所有人的一举一动都能被实时记录。

网友们已经构思恐怖脑洞了：

想象一下，只需一台连接WiFi接收器的电视机，别人就能看到我们全家在干啥了。

有人甚至说，以后可能必须要在身上涂保护层来屏蔽WiFi信号。

搞全身追踪，不要用摄像头了

如上提到的方法，是卡耐基梅隆大学（CMU）机器人研究所的新成果。

研究的本身目的是为了保护隐私，毕竟在很多非公共场所，如养老院、独居老人家中，监控非常有必要，但是使用摄像头又很难保证隐私安全。

使用雷达倒是能解决隐私问题，但价格和具体可操作上就很劝退了。

于是，该团队想到了用现在几乎各家必备的WiFi来进行识别。

所以在设备上，仅需两台再也普通不过的家用路由器（每个至少有3根天线）就可以了。

原理也很简单，就是利用WiFi信号中的信道状态信息（CSI）数据。

这些数据是一堆复杂的十进制序列，可以表示发射信号波和接收信号波之间的比率。

当它们在发射器和接收器之间传输时，一旦接触到人体，就会被修改。

于是，通过解读这些“改变”，就可以检测到人体姿态。

为此，研究人员开发了一个“基于区域”的卷积神经网络分析pipeline，该pipeline可以定位人体的各个部位。

然后再将WiFi信号的相位和振幅映射到24个人体区域里的坐标，实现最终的全身姿态追踪。

具体来说，模型通过三个分量从WiFi信号中生成人体表面的UV坐标。

首先，通过振幅和相位Sanitization步骤对原始CSI信号进行“净化”处理。

然后，将处理过的CSI信号通过双分支编码器-解码器网络转换为2D特征图。

接着，将2D特征馈送到一个叫做DensePose RCNN的架构中。

该架构灵感就来自Facebook已经开源的人体姿势实时识别系统DensePose。DensePose入选了2018年CVPR的Oral环节，主要是把2D图像转换成3D人体模型。

所以这步的目的就是算出2D特征图对应的3D姿态，也就是估计出UV坐标。

最后，在训练主网络之前，作者还将用图像生成的多层次特征图与WiFi信号生成的多水平特征图之间的差异进行了最小化，进一步完善了最终结果。

尽管我们从肉眼看上去，两种方法的最终结果差不多，但在数据方面，基于图像的方法效果还是更好一些。

比如在同样环境布局下，基于WiFi方法的精确度都低于图像方法。

△数值越高意味着越好

不同环境布局的情况也是如此。

与此同时，如果遇到数据集中不包含的动作，该方法也无法识别成功。如果人数超过3个，也发生“丢人”情况。

下图中左边两幅是罕见动作失败案例，右边两幅是3人以上识别失败情况。

不过团队认为，如上问题可以通过进一步扩充数据集来解决。

除此之外，该方法对路由器的放置位置要求很高，并且会对其他WiFi网络造成影响。

来自CMU团队，有2位华人作者

论文一作为Jiaqi Geng，他来自卡耐基梅隆大学，去年8月获得了机器人专业硕士学位。

另一位华人作者是Dong Huang，他现在是卡耐基梅隆大学高级项目科学家。

他的研究方向一直都是利用深度学习进行信号识别。比如之前已经实现了用WiFi信号实时识别2D人体姿态。

最后一位作者是Fernando De la Torre，他现在卡耐基梅隆大学机器人研究所副教授。

他的研究方向主要为计算机视觉，涉及领域包括人体姿态识别、AR/VR等。

2014年曾创办过一家开发人脸识别技术的公司FacioMetrics LLC，2年后被Facebook收购。

作者团队表示，目前该方法性能还受限于可用来训练的数据不多，未来，他们计划扩充数据集。