论文1:多模态人类活动识别综述

论文题目:A Review of Multimodal Human Activity Recognition with Special Emphasis on Classification, Applications, Challenges and Future Directions

文献偏旧-2021

1、 专业词汇:

Human activity recognition (HAR)-人类活动识别

Wearable sensors-可穿戴传感器

2、 摘要

论文从七个合理的方面对现有工作进行了分类和讨论:

(a)HAR的应用是什么;

(b) HAR 的单模态和多模态传感是什么;

(c) HAR 有哪些不同的基于愿景的方法;

(d) 基于可穿戴传感器的系统对 HAR 有何贡献以及如何贡献;

(e) 有哪些不同的多模式 HAR 方法;

(f) 视觉和基于可穿戴惯性传感器的系统的结合如何为 HAR 做出贡献;

(g) HAR 的挑战和未来方向。

3、介绍

3.1 用于HAR监测的信息传感器:

基于视觉和非视觉传感器。

视觉传感器包括RGBD相机、红外、飞行时间、多光谱、光场、热感相机等。

非视觉传感器包括加速度计、陀螺仪、磁力计、音频信号、电热活动响应等。

非视觉和视觉方法的结合可以提高准确性

3.2 主要的监测设备和模态

  • 可穿戴惯性传感器
  • 摄像机等外部设备

 基于视觉的方法、惯性传感器和多模态方法(视觉+惯性传感器)

3.3 HAR的应用场景

在游戏、人机交互、康复、运动、健康监测、视频监控和机器人等各种任务中有着重要的应用

3.4 HAR的挑战

  • 由于人类和多人交互所形成的复杂姿势,HAR 具有挑战性。 
  • 场景中常见的各种伪影(例如照明变化、杂乱、遮挡、背景多样性)进一步增加了 HAR 的复杂性。 

4、基于视觉的方法的HAR

4.1  常规的RGB摄像头

 4.2 视频动作识别

识别(recognizing)视频中人类动作的任务称为视频动作识别。

4.2.1数据集

4.2.2 手工提取特征

不足:手工制作的基于特征的方法由于计算成本高、需要领域专业知识[以及难以扩展和部署[56]而受到影响。

4.2.3 循环神经网络

主要的网络结构:CNN + LSTM(GRU)

4.2.4 深度 CNN 架构

主要网络结构:双流网络

代表论文:K. Simonyan, A. Zisserman, Two-stream convolutional networks for action recognition in videos, arXiv preprint arXiv:1406.2199 (2014).

4.3 带有 RGB-D 传感器的 HAR

深度图像:深度信息能够更好地处理照明变化和保护隐私 .

论文:S. Park, J. Park, M. Al-Masni, M. Al-Antari, M. Z. Uddin, T. Kim, A depth camera-based
human activity recognition via deep learning recurrent neural network for health and social
care services, Procedia Computer Science 100 (100) (2016) 78–84.

论文:X. Zhang, C. Xu, X. Tian, D. Tao, Graph edge convolutional neural networks for skeleton-
based action recognition, IEEE transactions on neural networks and learning systems (2019).

4.4  基于点云的 3D HAR

点云是一种由大量点集合组成的 3D 数据格式,可以准确感知场景的几何信息,同时对不同的照明条件具有鲁棒性。

5、基于可穿戴设备的HAR

5.1 可穿戴设备

据估计,到 2025 年,可穿戴设备的数量将达到约 30 亿台。

重点:惯性传感器(IMU)

5.2 基于可穿戴惯性传感器的 HAR

惯性传感器在人体上的放置在 HAR 中也发挥着重要作用 。大多数情况下,放置在腰部的惯性传感器可以提供更好的精度。

传统方法的不足:传统的 HAR 方法基于浅层手工特征,其中包括平均值、方差、幅度和频率等统计信息 。 这些算法对于站立、坐着、行走等低级活动表现良好,但在上下文感知和细粒度活动的情况下会失败。

A. Murad, J.-Y. Pyun, Deep recurrent neural networks for human activity recognition, Sensors
17 (11) (2017) 2556.--使用了 CNN 和 RNN

5.3  基于鞋类的 HAR

5.4 基于自我中心相机的可穿戴 HAR

5.4.1  以自我为中心的HAR

数据集:

苏达卡兰等人。 [232, 233] 提出了长短期注意力(LSTA),它由具有软注意力的 LSTM 模型组成,用于基于自我中心视频的 HAR。

5.4.2 未来活动预测

6  多模态HAR

本节介绍结合视觉和可穿戴惯性传感器的多模式 HAR 方法。

6.1 概述(Overview)

数据同步和预处理:准确的时间同步对于融合来自不同模式的传感器数据是必需的。

动作分割(检测动作开始和结束)

特征提取:深度和惯性传感器的文献研究了从原始传感器数据到高特征描述符的各种特征提取技术。 例如,[277 通过融合来自 Kinect 和惯性传感器的数据提出了手势识别框架。

分类和融合方法:融合来自不同模态传感器的信息有多种方法,一般来说,最常见的方法是数据级、特征级和决策级融合[281]。 数据级融合发生在来自不同传感器的原始数据被组合时,特征级融合发生在从原始数据中提取特征之后进行融合,决策级融合发生在融合从分类器或决策者获得的决策。

6.2 多模态融合方法

早期融合,或特征级融合:在早期融合方法中,通过降维和创建新的特征向量来组合不同模态传感器的特征。

与早期融合方法相比,该方法分割每个模态传感器的数据,分别学习每个模态的参数,并组合它们的概率模型。

论文[10]报告了基于 CNN 的多模态 HAR 传感器融合技术的比较,他们研究了四种融合多模态数据的方法。

[10]S. M¨unzner, P. Schmidt, A. Reiss, M. Hanselmann, R. Stiefelhagen, R. D¨urichen, Cnn-based
sensor fusion techniques for multimodal human activity recognition, in: Proceedings of the
2017 ACM International Symposium on Wearable Computers, 2017, pp. 158–165.

6.3 相关工作

6.3.1  深度信息和惯性传感器的融合

决策级融合则使用 Dempster-Shafer 理论

数据集:对于结合使用视觉和可穿戴传感器的多模式 HAR,公开可用的数据集非常有限 [137,269,297]。 公开的 UTD-MHAD [137] 数据集由 4 种时间同步的数据模式组成,包括 RGB 视频、深度视频、骨架位置和惯性传感器信号。 该数据集由 8 名受试者使用 Kinect 深度传感器摄像头和由加速计和旋转传感器组成的可穿戴惯性传感器收集,涵盖 27 项人类活动 [137]。

6.3.2 普通RGB相机与惯性传感器的融合

与其中之一相比,摄像机和惯性传感器的组合提高了识别性能。

6.3.3 多个可穿戴传感器的融合

6.3.4  基于深度学习的多模态 HAR

 蒙兹纳等人解决了用于活动识别的深度学习方法的 3 个关键方面,

S. M¨unzner, P. Schmidt, A. Reiss, M. Hanselmann, R. Stiefelhagen, R. D¨urichen, Cnn-based
sensor fusion techniques for multimodal human activity recognition, in: Proceedings of the
2017 ACM International Symposium on Wearable Computers, 2017, pp. 158–165.

 1. 数据特定标准化,

2. 多模态传感器的最佳融合,

3. 方法相对于可用数据的鲁棒性。

根据[322],CNN 更适合步行和跑步等周期性活动,而 RNN 更适合手势等短期活动。->设计一个并行的多模型特征提取器。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/780467.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

android中activity与fragment之间的各种跳转

我们以音乐播放、视频播放、用户注册与登录为例【Musicfragment(音乐列表页)、Videofragment(视频列表页)、MusicAvtivity(音乐详情页)、VideoFragment(视频详情页)、LoginActivity&…

时钟资源(参考ug472)

目录 时钟资源(参考ug472)7系列 FPGA 时钟连接差异时钟资源连接关系表时钟资源连接示意图不同时钟区域资源连接图Clock-Capable Inputs介绍布局规则 全局时钟 bufferBUFGCTRL介绍原语参数及端口INIT_OUTPRESELECT_I0/1I0/1CE0/1S0/1IGNORE0/1 真值表时序 BUFGBUFGCE&#xff0c…

日本服务器托管需要注意哪些问题

日本服务器托管是一项涉及多方面因素的重要决策,为了确保托管服务的稳定、高效与安全,企业或个人在托管过程中需要注意以下几个关键问题: 首先,数据中心的基础设施建设标准是决定托管稳定性的关键。这包括数据中心的建筑抗震、抗洪…

单片机关键任务优先级的实现学习

与总体产品联调时,需要各个单机系统严格按照总体要求,进行数据输出,时间的偏差将出现系统异常,控制失败等不稳定情况产生,甚至影响到产品安全。 因此必须确保某些关键任务的优先执行。单片机任务优先级一般有两种方式…

Java 基础知识之 switch 语句和 yield 关键字

传统 switch 语句 传统的 switch 语句我们已经写了一万遍了,以下是一个典型的 switch 语句: int dayOfWeek 3; switch (dayOfWeek) {case 1:System.out.println("星期一");break;case 2:System.out.println("星期二");break;case…

STM32-I2C

本内容基于江协科技STM32视频学习之后整理而得。 文章目录 1. I2C通信1.1 I2C通信简介1.2 硬件电路1.3 I2C时序基本单元1.3.1 起始条件和终止条件1.3.2 发送一个字节1.3.3 接收一个字节1.3.4 发送应答和接收应答 1.4 I2C时序1.4.1 指定地址写1.4.2 当前地址读1.4.3 指定地址读…

Java应用系统设计与实现--学生信息管理系统(附解决方案源码)

一、实验目的及要求 1.1实验目的 掌握Java GUI编程技术,了解Swing框架的使用。 掌握MySQL数据库的基本操作,了解如何在Java中连接和操作数据库。 掌握用户权限管理的基本概念和实现方法。 提升综合运用所学知识设计和实现一个完整应用系统的能力…

QThread moveToThread的妙用

官方文档描述 总结就是移动到线程的对象不能有父对象,执行start即起一个线程,示例是将myObject移动到主线程中。QT中这种方式起一个线程是非常简单的。 示例描述以及代码 描述往Communicate线程中频繁添加任务,等任务结束的时候统计计算的结…

【python教程】数据分析——numpy、pandas、matplotlib

【python教程】数据分析——numpy、pandas、matplotlib 文章目录 什么是matplotlib安装matplotlib,画个折线 什么是matplotlib matplotlib:最流行的Python底层绘图库,主要做数据可视化图表,名字取材于MATLAB,模仿MATLAB构建 安装matplotlib&…

Node 中基于 Koa 框架的 Web 服务搭建实战

前言 在《Node之Web服务 - 掘金 (juejin.cn)》一文中,我们使用 HTTP 模块构建了后端接口,从而实现了后端服务的开发。可以对此进行进一步优化 http模块代码回顾 const http require("http");const server http.createServer((req, res) > {if (reqUrl.pathna…

【面试八股文】java基础知识

引言 本文是java面试时的一些常见知识点总结归纳和一些拓展,笔者在学习这些内容时,特地整理记录下来,以供大家学习共勉。 一、数据类型 1.1 为什么要设计封装类,Integer和int区别是什么? 使用封装类的目的 对象化:…

阶段三:项目开发---搭建项目前后端系统基础架构:任务13:实现基本的登录功能

任务描述 任务名称: 实现基本的登录功能 知识点: 了解前端Vue项目的基本执行过程 重 点: 构建项目的基本登陆功能 内 容: 通过实现项目的基本登录功能,来了解前端Vue项目的基本执行过程,并完成基…

前端面试题17(js快速检索方法详解)

在前端JavaScript中,快速检索数据通常涉及到数组或对象的搜索。这里我会介绍几种常见的快速检索方法,并提供相应的代码示例。 1. 数组的find和findIndex方法 find: 返回数组中满足条件的第一个元素的值。findIndex: 返回数组中满足条件的第一个元素的索…

基于LSTM的股票价格预测

摘要 本课设旨在利用LSTM(长短期记忆)网络实现股票价格预测,通过收集、预处理股票数据集,并构建预测模型进行训练与优化。实验结果显示,经过优化调整模型参数,模型在测试集上取得了较为理想的预测效果。尽…

《征服数据结构》SparseArray

摘要: 1,SparseArray的介绍 2,SparseArray的代码实现 1,SparseArray的介绍 前面我们讲过《ArrayMap》,用它来实现哈希表,其中存放key和value的数组长度是存放散列表数组长度的二倍。 在哈希表中如果key值是…

SwiftData 模型对象的多个实例在 SwiftUI 中不能及时同步的解决

概览 我们已经知道,用 CoreData 在背后默默支持的 SwiftUI 视图在使用 @FetchRequest 来查询托管对象集合时,若查询结果中的托管对象在别处被改变将不会在 FetchedResults 中得到及时的刷新。 那么这一“囧境”在 SwiftData 里是否也会“卷土重来”呢?空说无益,就让我们在…

【项目设计】负载均衡式——Online Judge

负载均衡式——Online Judge😎 前言🙌Online Judge 项目一、项目介绍二、项目技术栈三、项目使用环境四、项目宏观框架五、项目后端服务实现过程1、comm模块设计1.1 Log.hpp实现1.2 Util.hpp实现 2、compiler_server 模块设计2.1compile.hpp文件代码编写…

vb.netcad二开自学笔记2:认识vs编辑器

认识一下宇宙第一编辑器的界面图标含义还是很重要的,否则都不知道面对的是什么还怎么继续? 一、VS编辑器中常见的图标的含义 变量 长方体:变量 局部变量 两个矩形块:枚举 预定义的枚举 紫色立方体:方法 橙色树状结构…

通过AIS实现船舶追踪与照射

前些天突然接到个紧急的项目:某处需要实现对夜航船只进行追踪并用激光灯照射以保障夜航安全。这个项目紧急到什么程度呢?!现场激光灯都安装好了,还有三个星期就要验收了,但上家没搞定就甩给我们了:( 从技术上看&#…

Java -- 实现MD5加密/加盐

目录 1. 加密的引出2. MD5介绍3. 解决MD5不可解密方法4. 实现加密解密4.1 加密4.2 验证密码 1. 加密的引出 在MySQL数据库中,一般都需要把密码、身份证、电话号码等信息进行加密,以确保数据的安全性。如果使用明文来存储,当数据库被入侵的时…