五个手势的点云数据经过预处理并被分离。图13展示了逆时针手势的预处理结果,从左到右的处理步骤包括:叠加、最大速度限制、第一次DBSCAN、对齐、K均值分离手部和身体、第二次DBSCAN。提取了点云的时间序列特征数据用于训练。为了加快训练和数据处理速度,我们对数据进行了标准化处理。具体来说,我们将MinMaxScaler应用于时间序列特征数据的(x, y, z)坐标,将数据缩放至0-1范围。此外,将MaxAbsScaler应用于时间序列特征数据的平均速度,将数据缩放至-1至1的范围。为了观察,我们从输出中抽取了6帧来观察点云质心的变化。顺时针手势点云质心的变化如图14所示。红点代表当前的质心位置,蓝点代表之前的质心位置。顺时针手势的质心沿顺时针方向移动,逆时针手势的质心沿逆时针方向移动。类似地,向右手势的质心水平向右移动,向左手势的质心水平向左移动。最后,拳击手势的质心垂直向上和向下移动。
对于五个手势,总共有14,480条样本数据。这些数据被随机重新排序,并分成三组:60%用于训练,20%用于验证,20%用于测试。模型使用GRU、LSTM和RNN进行了40次迭代的训练。图15展示了这三个模型的混淆矩阵。GRU、LSTM和RNN模型的预测准确率分别为99.51%、99.37%和81.11%。GRU模型的表现优于其他模型。就模型预测时间而言,GRU耗时0.462毫秒,LSTM耗时0.483毫秒,RNN耗时0.461毫秒。RNN模型在预测速度上最快。尽管RNN模型在预测速度上较快,但在准确率上不如GRU和LSTM模型。相比之下,GRU模型不仅更准确,而且在时间消耗上也较少。总的来说,GRU在训练毫米波手势识别模型方面表现更好
表III显示了三种模型在实际手势识别测试中的准确率。在测试每种模型时,我们对每个手势挥动了10次,并记录了手势是否被正确识别。可以看出,GRU模型优于LSTM和RNN模型。
表III. 三种模型在实际手势识别测试中的准确率
模型 | 顺时针手势 | 逆时针手势 | 向右手势 | 向左手势 | 拳击手势 | 平均准确率 |
GRU | 10月10日 | 10月10日 | 10月10日 | 10月10日 | 10月10日 | 10月10日 |
LSTM | 9月10日 | 9月10日 | 9月10日 | 9月10日 | 9月10日 | 9月10日 |
RNN | 7月10日 | 7月10日 | 7月10日 | 7月10日 | 7月10日 | 7月10日 |
C. 结合热成像仪的毫米波雷达手势识别
除了毫米波点云数据外,我们还提取了热成像仪坐标随时间变化的归一化时间序列特征数据用于手势识别。在实际手势测试中,热成像仪使用识别手部图像并记录手部图像坐标的随时间变化。五个手势的坐标变化结果如图16所示
在手势识别过程中,毫米波雷达捕获了20帧的点云数据。然而,用于YOLOv7手部识别的热成像仪执行速度较慢。在热成像仪执行12帧手部图像识别所需的时间内,毫米波雷达可以捕获20帧数据。如果热成像仪在某一帧未能检测到手部图像,则最终捕获的时间序列数据少于12帧。为了确保热成像仪的坐标随时间变化信息包含在毫米波时间序列特征数据中用于手势模型训练,我们对热成像仪的坐标随时间变化曲线进行了插值处理。这使得数据增加到了20帧而不改变波形。数据随后进行了MinMaxScaler归一化处理。这一过程重复了9次,数据被拼接成200帧的时间序列数据。结合热成像仪和毫米波雷达的手势识别模型相较于仅使用毫米波雷达的模型有所改进。在这个模型中,毫米波的平均速度、热成像仪坐标的时间序列变化以及毫米波时间序列特征数据作为输入用于训练。同样地,模型使用GRU、LSTM和RNN进行了40次迭代的训练。五个手势共有14,480条样本数据。这些数据被随机重排,并分成三组:60%用于训练,20%用于验证,20%用于测试。图17展示了三个模型的混淆矩阵。GRU、LSTM和RNN模型的预测准确率分别为100%、100%和98.14%。
表IV显示了实际手势识别测试的结果,比较了仅使用毫米波雷达与结合毫米波雷达和热成像仪的准确性。结合使用毫米波雷达和热成像仪显著提高了准确性。
这句话意味着表IV提供了实际手势识别测试中不同配置下的模型准确率对比。具体来说,表IV展示了仅使用毫米波雷达和结合毫米波雷达与热成像仪两种情况下的准确率。
表格内容示例:
模型配置 | punch | 顺时针 | 逆时针 | 左 | 右 | 平均准确率 |
GRU (毫米波) | 70% | 80% | 80% | 70% | 70% | 74% |
GRU (+ 热成像) | 90% | 80% | 80% | 80% | 70% | 80% |
LSTM (毫米波) | 80% | 90% | 90% | 80% | 80% | 84% |
LSTM (+ 热成像) | 50% | 60% | 50% | 40% | 50% | 50% |
RNN (毫米波) | 70% | 80% | 70% | 70% | 60% | 70% |
RNN (+ 热成像) | 70% | 80% | 60% | 60% | 50% | 64% |
IV. 结论
本研究中,采用了一种结合毫米波雷达、热成像仪和深度学习的大动作手势识别系统。热成像仪捕捉了手部图像的信息,包括坐标运动变化。这些信息与毫米波雷达的点云数据(包括三维坐标和速度)结合,生成了时间序列数据。预处理后的数据被输入神经网络进行训练,开发出手势识别模型。Jetson Xavier NX嵌入式评估板实现了实时手势识别。实验结果表明,结合热成像仪和毫米波雷达显著提高了手势识别的准确性。此外,使用GRU训练的模型在手势识别任务中的表现优于LSTM和RNN。