论文1：多模态人类活动识别综述

论文题目：A Review of Multimodal Human Activity Recognition with Special Emphasis on Classification, Applications, Challenges and Future Directions

文献偏旧-2021

1、专业词汇：

Human activity recognition (HAR)-人类活动识别

Wearable sensors-可穿戴传感器

2、摘要

论文从七个合理的方面对现有工作进行了分类和讨论：

(a）HAR的应用是什么；

(b) HAR 的单模态和多模态传感是什么；

(d) 基于可穿戴传感器的系统对 HAR 有何贡献以及如何贡献；

(e) 有哪些不同的多模式 HAR 方法；

(f) 视觉和基于可穿戴惯性传感器的系统的结合如何为 HAR 做出贡献；

(g) HAR 的挑战和未来方向。

3、介绍

3.1 用于HAR监测的信息传感器：

基于视觉和非视觉传感器。

视觉传感器包括RGBD相机、红外、飞行时间、多光谱、光场、热感相机等。

非视觉传感器包括加速度计、陀螺仪、磁力计、音频信号、电热活动响应等。

非视觉和视觉方法的结合可以提高准确性

3.2 主要的监测设备和模态

可穿戴惯性传感器
摄像机等外部设备

基于视觉的方法、惯性传感器和多模态方法（视觉+惯性传感器）

3.3 HAR的应用场景

在游戏、人机交互、康复、运动、健康监测、视频监控和机器人等各种任务中有着重要的应用

3.4 HAR的挑战

由于人类和多人交互所形成的复杂姿势，HAR 具有挑战性。
场景中常见的各种伪影（例如照明变化、杂乱、遮挡、背景多样性）进一步增加了 HAR 的复杂性。

4、基于视觉的方法的HAR

4.1 常规的RGB摄像头

4.2 视频动作识别

识别（recognizing）视频中人类动作的任务称为视频动作识别。

4.2.1数据集

4.2.2 手工提取特征

不足：手工制作的基于特征的方法由于计算成本高、需要领域专业知识[以及难以扩展和部署[56]而受到影响。

4.2.3 循环神经网络

主要的网络结构：CNN + LSTM（GRU）

4.2.4 深度 CNN 架构

主要网络结构：双流网络

代表论文：K. Simonyan, A. Zisserman, Two-stream convolutional networks for action recognition in videos, arXiv preprint arXiv:1406.2199 (2014).

4.3 带有 RGB-D 传感器的 HAR

深度图像：深度信息能够更好地处理照明变化和保护隐私 .

论文：S. Park, J. Park, M. Al-Masni, M. Al-Antari, M. Z. Uddin, T. Kim, A depth camera-based
human activity recognition via deep learning recurrent neural network for health and social
care services, Procedia Computer Science 100 (100) (2016) 78–84.

论文：X. Zhang, C. Xu, X. Tian, D. Tao, Graph edge convolutional neural networks for skeleton-
based action recognition, IEEE transactions on neural networks and learning systems (2019).

4.4 基于点云的 3D HAR

点云是一种由大量点集合组成的 3D 数据格式，可以准确感知场景的几何信息，同时对不同的照明条件具有鲁棒性。

5、基于可穿戴设备的HAR

5.1 可穿戴设备

据估计，到 2025 年，可穿戴设备的数量将达到约 30 亿台。

重点：惯性传感器（IMU）

5.2 基于可穿戴惯性传感器的 HAR

惯性传感器在人体上的放置在 HAR 中也发挥着重要作用。大多数情况下，放置在腰部的惯性传感器可以提供更好的精度。

传统方法的不足：传统的 HAR 方法基于浅层手工特征，其中包括平均值、方差、幅度和频率等统计信息。这些算法对于站立、坐着、行走等低级活动表现良好，但在上下文感知和细粒度活动的情况下会失败。

A. Murad, J.-Y. Pyun, Deep recurrent neural networks for human activity recognition, Sensors
17 (11) (2017) 2556.--使用了 CNN 和 RNN

5.3 基于鞋类的 HAR

5.4 基于自我中心相机的可穿戴 HAR

5.4.1 以自我为中心的HAR

数据集：

苏达卡兰等人。 [232, 233] 提出了长短期注意力（LSTA），它由具有软注意力的 LSTM 模型组成，用于基于自我中心视频的 HAR。

5.4.2 未来活动预测

6 多模态HAR

本节介绍结合视觉和可穿戴惯性传感器的多模式 HAR 方法。

6.1 概述（Overview）

数据同步和预处理：准确的时间同步对于融合来自不同模式的传感器数据是必需的。

动作分割（检测动作开始和结束）

特征提取：深度和惯性传感器的文献研究了从原始传感器数据到高特征描述符的各种特征提取技术。例如，[277 通过融合来自 Kinect 和惯性传感器的数据提出了手势识别框架。

分类和融合方法：融合来自不同模态传感器的信息有多种方法，一般来说，最常见的方法是数据级、特征级和决策级融合[281]。数据级融合发生在来自不同传感器的原始数据被组合时，特征级融合发生在从原始数据中提取特征之后进行融合，决策级融合发生在融合从分类器或决策者获得的决策。

6.2 多模态融合方法

早期融合，或特征级融合：在早期融合方法中，通过降维和创建新的特征向量来组合不同模态传感器的特征。

与早期融合方法相比，该方法分割每个模态传感器的数据，分别学习每个模态的参数，并组合它们的概率模型。

论文[10]报告了基于 CNN 的多模态 HAR 传感器融合技术的比较，他们研究了四种融合多模态数据的方法。

[10]S. M¨unzner, P. Schmidt, A. Reiss, M. Hanselmann, R. Stiefelhagen, R. D¨urichen, Cnn-based
sensor fusion techniques for multimodal human activity recognition, in: Proceedings of the
2017 ACM International Symposium on Wearable Computers, 2017, pp. 158–165.

6.3 相关工作

6.3.1 深度信息和惯性传感器的融合

决策级融合则使用 Dempster-Shafer 理论

数据集：对于结合使用视觉和可穿戴传感器的多模式 HAR，公开可用的数据集非常有限 [137,269,297]。公开的 UTD-MHAD [137] 数据集由 4 种时间同步的数据模式组成，包括 RGB 视频、深度视频、骨架位置和惯性传感器信号。该数据集由 8 名受试者使用 Kinect 深度传感器摄像头和由加速计和旋转传感器组成的可穿戴惯性传感器收集，涵盖 27 项人类活动 [137]。

6.3.2 普通RGB相机与惯性传感器的融合

与其中之一相比，摄像机和惯性传感器的组合提高了识别性能。

6.3.3 多个可穿戴传感器的融合

6.3.4 基于深度学习的多模态 HAR

蒙兹纳等人解决了用于活动识别的深度学习方法的 3 个关键方面，

S. M¨unzner, P. Schmidt, A. Reiss, M. Hanselmann, R. Stiefelhagen, R. D¨urichen, Cnn-based
sensor fusion techniques for multimodal human activity recognition, in: Proceedings of the
2017 ACM International Symposium on Wearable Computers, 2017, pp. 158–165.

1. 数据特定标准化，

2. 多模态传感器的最佳融合，

3. 方法相对于可用数据的鲁棒性。

根据[322]，CNN 更适合步行和跑步等周期性活动，而 RNN 更适合手势等短期活动。->设计一个并行的多模型特征提取器。