基于SimA3D模型的热防护瓦胶接工艺时序行为识别技术

通信作者：

黄翔，教授，博士，研究方向为飞机装配。

编辑

责编　：晓月

流转信息

收稿日期 : 2025-05-15

退修日期 : 2025-06-24

录用日期 : 2025-07-10

引用格式

引文格式：郭城达, 李泷杲, 候国义, 等. 基于SimA3D模型的热防护瓦胶接工艺时序行为识别技术[J]. 航空制造技术, 2026, 69(5): 25020153.

Temporal Behavior Recognition Technology of Thermal Protection Tile Gluing Process Based on SimA3D Model

Citations

GUO Chengda, LI Shuanggao, HOU Guoyi, et al. Temporal behavior recognition technology of thermal protection tile gluing process based on SimA3D model[J]. Aeronautical Manufacturing Technology, 2026, 69(5): 25020153.

航空制造技术第69卷第5期 150-160

Aeronautical Manufacturing Techinology Vol.69 No.5 : 150-160

DOI: 10.16080/j.issn1671-833x.25020153

研究论文（RESEARCH）

基于SimA3D模型的热防护瓦胶接工艺时序行为识别技术

郭城达
李泷杲
候国义
施嘉明
黄翔 ^✉

南京航空航天大学机电学院，南京 210016

通信作者：

黄翔，教授，博士，研究方向为飞机装配。

中图分类号：

文献标识码：

流转信息	收稿日期 : 2025-05-15 退修日期 : 2025-06-24 录用日期 : 2025-07-10

引用格式

引文格式：郭城达, 李泷杲, 候国义, 等. 基于SimA3D模型的热防护瓦胶接工艺时序行为识别技术[J]. 航空制造技术, 2026, 69(5): 25020153.

摘要

高超声速飞行器热防护瓦胶接质量直接影响隔热性能和飞行安全。目前胶接工艺主要由人工严格遵循既定的工艺顺序完成，其动态复杂、严格时序的特点使得操作顺序错误与零件混装问题频发，亟需智能化的时序行为识别与管控手段。因此，本文在定义瓦块胶接工艺时序行为的基础上，通过将SimAM无参注意力机制融入到C3D网络中，构建了面向胶接工艺时序行为识别的SimA3D模型；引入余弦退火动态学习率策略配合自适应AdamW优化器，提高模型收敛稳定性；提出三重协同数据增强策略，扩充样本多样性和输入数据的复杂度，显著缓解时序行为小样本下的过拟合问题。试验结果表明，SimA3D模型取得了98.32%的胶接工艺行为识别准确率，准确率较基线C3D网络提升了19.9个百分点。

关键词

热防护瓦;时序行为识别;胶接工艺;深度学习;飞行器装配;

Temporal Behavior Recognition Technology of Thermal Protection Tile Gluing Process Based on SimA3D Model

GUO Chengda
LI Shuanggao
HOU Guoyi
SHI Jiaming
HUANG Xiang ^✉

College of Mechanical and Electrical Engineering, Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China

Citations

Abstract

The gluing quality of thermal protection tile on hypersonic vehicles directly affects thermal insulation performance and flight safety. Current gluing process predominantly relies on manual operations strictly following established procedures. However, their dynamic complexity and strictly time-sequenced characteristics lead to frequent occurrences of operational sequence errors and component mis-assemblies, necessitating intelligent temporal behavior recognition and monitoring methods. To address these challenges, this study first defines the temporal behavioral characteristics of tile gluing process. Subsequently, we construct the SimA3D model for temporal behavior recognition by integrating the SimAM parameter-free attention mechanism into the C3D network architecture. A cosine annealing dynamic learning rate strategy is introduced in conjunction with an adaptive AdamW optimizer to enhance model convergence stability. Furthermore, a triple collaborative data augmentation strategy is proposed to expand sample diversity and input data complexity, effectively alleviating overfitting issues in small-sample temporal behavior recognition scenarios. Experimental results demonstrate that the SimA3D model achieves 98.32% recognition accuracy for gluing process behaviors, and the accuracy is improved by 19.9 percentage points over the baseline C3D network.

Keywords

Thermal protection tile; Temporal behavior recognition; Gluing process; Deep learning; Aircraft assembly;

陶瓷纤维刚性热防护瓦作为可重复使用高超声速飞行器热防护系统中应用最为广泛的被动式防热结构，主要由热防护瓦和应变隔离垫组成，通过有机硅胶依次胶接于机体表面完成铺贴，胶接质量直接影响飞行器隔热性能和飞行安全。

传统的热防护瓦装配以人工操作为主^{[
[1] 郭朝邦, 李文杰. 高超声速飞行器结构材料与热防护系统[J]. 飞航导弹, 2010(4): 88-94.GUO Chaobang, LI Wenjie. Structural materials and thermal protection system of hypersonic vehicle[J]. Aerodynamic Missiles Journal, 2010(4): 88-94.
1 ]}，胶接工艺尤为关键，需严格遵循既定工艺顺序，如图1所示。以配胶、涂胶等工艺为例，配胶须按序控制胶体配比与搅拌时序，因对胶体流动性具有一定的要求，需目视判断胶体黏度；涂胶须严格遵循贴合面到隔离垫的涂覆顺序，并根据瓦块曲面调整施力角度和施力方向，确保表面平整无凸起，工艺具有动态过程复杂的特点，这些具有严格时序约束的行为构成了典型的胶接工艺时序行为。由于飞机表面热防护瓦块数量多达上万块，使得胶接工作量较大，因此胶接工艺时序行为对操作者的技能经验与专注度要求极高，极易因疲劳或规程执行偏差引发操作顺序出错、零件混装等不规范行为，从而影响装配质量、效率和安全。

图1　热防护瓦胶接工艺

Fig.1　 Thermal protection tile gluing process

传统工业领域聚焦产品质量监测，通过质量监测追溯操作问题，无法实时规避装配人员操作失误，难以适应现代装配制造需求^{[
[2] 王天诺. 基于深度学习的装配操作监测研究[D]. 青岛: 青岛理工大学, 2019.WANG Tiannuo. Research on assembling operation monitoring based on deep learning[D]. Qingdao: Qingdao University of Technology, 2019.
2 ]}。随着计算机技术的突破性发展，行为识别已成为计算机领域的研究热点之一，这使得人工装配过程的智能化监测成为可能，可有效规避人工失误导致的缺陷问题。

传统行为识别依赖于梯度方向直方图（HOG）、灰度共生矩阵（GLCM）和加速鲁棒特征（SURF）^{[
[3] 乔琦. 装配过程中的动作识别与作业规范性判别方法研究[D]. 西安: 西安理工大学, 2023.QIAO Qi. Research on action recognition and operation normative discrimination method in manual assembly process[D]. Xi’an: Xi’an University of Technology, 2023.
3 ]}等手工特征，面临预处理复杂、速度慢、稳定性不足等问题，难以有效捕捉动态时序细节。Carreira等^{[
[4] CARREIRA J, ZISSERMAN A. Quo vadis, action recognition a new model and the kinetics dataset[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu: IEEE, 2017: 4724-4733.
4 ]}提出了膨胀3D模型（I3D），通过将一个现有优秀2D模型扩张到3D，避免重构3D网络的巨大工作量，其精度首次超越手工特征方法，推动了行为识别领域的深度学习研究。当前基于双流CNN与3D卷积神经网络的人体行为识别算法已成为主流方法^{[
[5] 邹新雷. 基于3D卷积神经网络的行为识别研究与应用[D]. 成都: 电子科技大学, 2022.ZOU Xinlei. Research and application of action recognition based on 3D convolutional neural networks[D]. Chengdu: University of Electronic Science and Technology of China, 2022.
5 ]}。双流CNN模型由于需要提取光流，因而速度不佳；3D卷积核则是通过扩展时间维度（帧序列）可直接提取时空特征，如图2所示，契合行为识别对连续动作建模的需求，2015年，Tran等^{[
[6] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]//2015 IEEE International Conference on Computer Vision (ICCV). Santiago: IEEE, 2015: 4489-4497.
6 ]}提出的C3D模型采用纯3D卷积核堆叠结构，通过多层3D卷积和池化操作逐层捕捉行为模式，使用UCF101数据集训练，识别率为85.2%。但该模型应用于胶接工艺时序行为识别任务时，测试准确率仅为78.42%。

图2　三维卷积核运算示意图

Fig.2　 Schematic of 3D convolution kernel operation

目前，工业领域中与行为识别的相关研究相对较少。Jones等^{[
[7] JONES J D, CORTESA C, SHELTON A, et al. Fine-grained activity recognition for assembly videos[J]. IEEE Robotics and Automation Letters, 2021, 6(2): 3728-3735.
7 ]}针对组装过程中的行为识别任务，通过融合运动学建模与多模态感知，实现了对装配动作的细粒度识别，展现出高精度与强鲁棒性。Chen等^{[
[8] CHEN C J, WANG T N, LI D N, et al. Repetitive assembly action recognition based on object detection and pose estimation[J]. Journal of Manufacturing Systems, 2020, 55: 325-333.
8 ]}提出一种基于双流深度学习模型的装配工人操作行为识别方法，旨在实现装配操作次数统计与动作类别的精准识别。但热防护瓦胶接工艺相关行为仍依赖于人工自我约束和检测人员的提醒，智能化监测技术滞后于其他工业领域，缺乏深入研究。

综上考虑，针对热防护瓦胶接工艺的人工装配环节缺少有效监督且易出错影响装配效率、装配质量的问题，本文提出了一种应用于热防护瓦胶接工艺的时序行为识别模型-SimA3D模型。原始C3D模型针对胶接工艺的时序行为进行识别时效果并不理想，为此本文首先融入SimAM无参注意力机制，在不引入训练参数的前提下，通过能量函数引导网络聚焦关键时空区域，增强时序行为的高动态特征相应。结合批归一化处理，缓解梯度传播异常；引入余弦退火动态学习率策略配合自适应优化器，动态调整优化步长以提升时序边缘特征的收敛稳定性；最后设计数据增强策略，引入Mixup策略，扩充样本多样性及输入数据的复杂度，缓解模型的过拟合现象。

1　胶接工艺时序行为识别模型构建

1.1　胶接工艺时序行为定义

本文所提出的模型为针对瓦块胶接工艺的典型行为。典型行为有：配胶、热防护瓦贴合面涂胶、隔离垫面A涂胶以及隔离垫面A与贴合面胶接这4类行为，具有重复性、强瞬态特征以及严格时序关系的特点。

热防护瓦配胶为胶接工艺的初始环节，操作者根据配比，往容器中按量分别倒入3种胶体，通过搅拌动作，消除气泡，确保黏度稳定性，因此热防护瓦配胶具体行为定义为：添加胶体以及搅拌；热防护瓦贴合面涂胶需要操作者使用刮板铲取胶液，平整涂抹于热防护瓦基底表面，具体行为定义为：取胶A、贴合面涂胶；隔离垫面A涂胶需要操作者同样使用刮板铲出胶液，涂抹于隔离垫面A，具体行为定义为：取胶B、隔离垫A涂胶；隔离垫面A与瓦贴合面粘接是在已有操作基础上，将涂有胶体的瓦块贴合面和隔离垫面A进行手工粘接，具体行为定义为：隔离垫与贴合面粘接。将上述行为定义为胶接工艺时序行为，如图3所示。

图3　胶接工艺时序行为

Fig.3　 Temporal behavior of the gluing process

1.2　 C3D网络

C3D（Convolutional 3D）网络是一种专为视频时空特征提取设计的深度学习架构，其核心优势在于通过扩展3D卷积核（3D conv）的同时捕获视频中的局部运动模式与空间结构信息，显著提升了行为识别任务的性能。

如图4所示，C3D网络由对称堆叠的卷积层、池化层以及全连接层构成。各卷积层的滤波器数量依次为64、128、256、512、512，所有卷积核尺寸均遵循Tran等^{[
[6] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]//2015 IEEE International Conference on Computer Vision (ICCV). Santiago: IEEE, 2015: 4489-4497.
6 ]}提出的最优设计准则，即采用3×3×3的时空卷积核，并设置步长（stride）与填充（padding）为1×1×1，以确保输入与输出的时空维度一致。特征图尺寸的缩减由3D最大池化层实现，首层池化核尺寸为1×2×2；其余池化层核尺寸与步长均为2×2×2。此设计避免了早期时间维度的过度下采样的同时适配标准16帧输入长度。网络的输入张量维度为（3×16×112×112），表示为C×L×H×W，其中C为通道数（RGB图像为3）；L为时序长度（帧数）；H与W分别为帧高与帧宽。训练过程中采用随机梯度下降（SGD）优化算法，激活函数为ReLU，并引入Dropout（P=0.5）以抑制过拟合^{[
[9] 席志红, 冯宇. 基于改进型C3D网络的人体行为识别算法[J]. 应用科技, 2021, 48(5): 47-53.XI Zhihong, FENG Yu. A human behavior recognition algorithm based on improved C3D network[J]. Applied Science and Technology, 2021, 48(5): 47-53.
9 ]}。

图4　 C3D模型结构

Fig.4　 C3D model architecture

1.3　 SimA3D模型构建

1.3.1　 SimAM注意力机制

胶接工艺时序行为的特点包括：（1）高动态性。关键操作在时间轴上呈现密集的特征，传统3D卷积神经网络（C3D）的固定时序采样易导致关键帧信息丢失。（2）局部显著性。特定时间点的微小动作对整体装配质量具有决定性影响，需增强模型对局部时空特征的敏感性。因此要求网络精准聚焦关键帧并抑制冗余时序噪声。标准C3D网络因均匀池化与固定卷积核限制，难以动态调整时空特征权重。为此，本文引入SimAM无参注意力机制^{[
[10] YANG L X, ZHANG R Y, LI L D, et al. SimAM: A simple, parameter-free attention module for convolutional neural networks[C]//International Conference on Machine Learning. New York: PMLR, 2021.
10 ]}，通过轻量化特征校准提升高动态时序行为的建模能力。

相较于传统的SE^{[
[11] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132-7141.
11 ]}、ECN^{[
[12] WANG Q L, WU B G, ZHU P F, et al. ECA-net: Efficient channel attention for deep convolutional neural networks[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA: IEEE, 2020: 11531-11539.
12 ]}、CBAM^{[
[13] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module[C]//Computer Vision-ECCV 2018. Cham: Springer, 2018: 3-19.
13 ]}等通道或空间注意力机制，SimAM是一种结合通道信息和空间信息的3D权重注意力机制，在不增加网络参数的情况下，可为时序特征图的每个神经元生成自适应3D权重，其模型结构如图5所示。

图5　 SimAM三维注意力机制

Fig.5　 SimAM 3D attention module

SimAM注意力机制基于神经科学理论^{[
[14] BARBEY A K. Network neuroscience theory of human intelligence[J]. Trends in Cognitive Sciences, 2018, 22(1): 8-20.
14 ]}，通过神经元能量函数量化其相对重要性，神经元能量越低，它与其他神经元的差异就越大，随之重要性越高。每个神经元的能量函数为

e_{t} (w_{t} t, b_{t}, y, x_{i}) = {(y_{t} - \hat{t})}^{2} + \frac{1}{M - 1} \sum_{i = 1}^{M - 1} {[y_{0} - {\hat{x}}_{i}]}^{2}

（1）

其中，

w_{t} = - \frac{2 (t - μ_{t})}{{(t - μ_{t})}^{2} + 2 δ_{t}^{2} + 2 λ}

（2）

b_{t} = - \frac{1}{2} (t + μ_{t}) w_{t}

（3）

\hat{t} = w_{t} t + b_{t}

（4）

{\hat{x}}_{i} = w_{t} x_{i} + b_{t}

（5）

μ_{t} = \frac{1}{M - 1} \sum_{i = 1}^{M - 1} x_{i}

（6）

δ_{t}^{2} = \frac{1}{M - 1} \sum_{i = 1}^{M - 1} {(x_{i} - μ_{t})}^{2}

（7）

式中，t、i、x_i分别为输入通道上的目标神经元、空间维度索引和其他神经元；μ_t和 $δ_{t}^{2}$ 为所有神经元在单通道的均值和方差；y为标签，代表是否为重要神经元；M为该通道上所有神经元的数目；y_t和y₀为二值类标签；λ为超参数；w_t为权重；b_t为偏差。

y_t和y₀采用二值标签（1和-1），并添加正则项，最终的能量函数定义为

\begin{array}{l} e_{t} (w_{t} t, b_{t}, y, x_{i}) = \frac{1}{M - 1} \cdot \\ \sum_{i = 1}^{M - 1} {[- 1 - (w_{i} x_{i} + b_{t})]}^{2} + {[1 - (w_{t} t + b_{t})]}^{2} + λ w_{t}^{2} \end{array}

（8）

SimAM注意力机制的无参数特性有效规避了样本数据稀缺导致的过拟合风险，提升模型泛化性。其能量驱动的权重计算能自主捕捉动态工具操作，对于胶接工艺时序行为输入特征图，神经元能力越低，表明其特征显著性越高，低能量值的神经元对应着时空特征中的一个显著突变点，如胶接工艺中工具抓取（如手部接触刮板）、胶体倒出以及工具-工件交互（如使用刮板铲取胶液、接触贴合面和隔离垫）等瞬态特征以及关键特征。通过SimAM注意力机制，赋予其更高的权重，从而能够精准聚焦关键帧，强化细粒度动作鉴别能力，实现对胶接工艺时序行为的精准识别。

1.3.2　正则化策略

在胶接工艺时序行为识别任务中，C3D模型因时序数据的高动态性和动作重复性易陷入过拟合。高动态性导致时序信息有限，加剧参数更新波动；未归一化数据造成层间输入分布不稳定，迫使模型采用更低学习率和精细参数初始化策略，显著延缓收敛速度。同时，时序行为的微小位移及背景干扰易被未归一化特征放大噪声影响，加之不同装配场景的输入分布偏移，导致模型泛化能力下降。为此，本文采用批归一化处理^{[
[15] IOFFE S, SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]//Proceedings of the 32nd International Conference on International Conference on Machine Learning-Volume 37. New York: ACM, 2015: 448-456.
15 ]}（Batch normalization，BN）来对网络进行正则化处理。

在SimA3D网络的3D卷积核后使用批归一化处理BN和激活函数ReLU，对时空维度的激活值进行归一化，计算公式为

\hat{x} = \frac{x - μ_{B}}{\sqrt{σ_{B}^{2} + ε}}, y = γ \hat{x} + β

（9）

式中，x为输入数据；μ为输入数据的均值；σ²为输入数据的方差；γ与β为可训练参数参与到神经网络的训练过程，用于还原数据分布。

批归一化处理通过动态归一化时空特征，约束激活值异常偏移以缓解梯度异常，其噪声抑制机制有效增强模型对光照、设备干扰的鲁棒性，同步提升训练稳定性、收敛效率与泛化能力。改进后的模型即SimA3D神经网络（Similarity-aware activation 3D network）模型架构如图6所示。

图6　 SimA3D模型结构

Fig.6　 SimA3D model structure

1.4　 SimA3D模型优化

针对胶接工艺高动态、强时序约束及噪声干扰等特性导致模型收敛困难的问题，本文提出融合余弦退火学习率（CosineAnnealingLR）与AdamW优化器的改进策略。前者通过周期性学习率调节促进损失曲面自适应探索，突破传统固定策略在平台期的优化停滞；后者结合自适应矩估计与权重解耦机制，缓解SGD对系数梯度的敏感性。

1.4.1　优化方法的改进

原始C3D网络采用随机梯度下降（Stochastic gradient descent，SGD）^{[
[16] RUDER S. An overview of gradient descent optimization algorithms[EB/OL]. [2025-04-16]. https://arxiv.org/abs/1609.04747.
16 ]}优化器，进行随机抽取单样本或小批量样本的梯度更新，该策略引入了梯度噪声，导致参数更新偏离全局最优轨迹。由于工业场景中的光照突变、机械振动等干扰，输入数据的时序关联性与空间一致性易受破坏，进一步加剧梯度偏差。为此，本文采用AdamW算法，该算法在经典Adam优化器基础上进行改进。

Adam（Adaptive moment estimation）^{[
[17] KINGMA D P, BA J. Adam: A method for stochastic optimization[EB/OL]. [2025-04-16]. https://arxiv.org/abs/1412.6980.
17 ]}是一种融合AdaGrad与RMSProp双重优势的自适应优化算法。其更新规则包括计算梯度的一阶矩估计和二阶矩估计，并使用这些估计值来调整每个参数的学习率。Adam优化器可以表示为

m_{t} = β_{1} m_{t - 1} + (1 - β_{1}) g_{t}

（10）

v_{t} = β_{2} v_{t - 1} + (1 - β_{2}) g_{t}^{2}

（11）

{\hat{m}}_{t} = \frac{m_{t}}{1 - β_{1}^{t}}, {\hat{v}}_{t} = \frac{v_{t}}{1 - β_{2}^{t}}

（12）

W_{t + 1} = W_{t} - \frac{η}{\sqrt{{\hat{v}}_{t}} + ε} {\hat{m}}_{t}

（13）

式中，m_t和v_t分别为一阶动量项与二阶动量项；β₁与β₂分别取0.9和0.999；g_t为当前参数的梯度。

AdamW（Adam with weight decay）^{[
[18] LASHKARI M, GHEIBI A. Lipschitzness effect of a loss function on generalization performance of deep neural networks trained by Adam and AdamW optimizers[EB/OL]. 2023: arXiv: 2303.16464. https://arxiv.org/abs/2303.16464.
18 ]}在Adam基础上解耦权重衰减与梯度更新，设参数为θ_t，梯度为g_t，学习率为η，权重衰减系数为λ₁，动量系数为β₁，β₂，时刻为t，其更新步骤为

θ_{t} = θ_{t - 1} - η \cdot (\frac{{\hat{m}}_{t}}{\sqrt{{\hat{v}}_{t} + ε}}) - η \cdot λ_{1} \cdot θ_{t - 1}

（14）

式中， ${\hat{m}}_{t}$ 和 ${\hat{v}}_{t}$ 为偏差校正后的一阶、二阶矩估计；λ₁为独立的权重衰减系数。

权重衰减（Weight decay）^{[
[19] PRASAD R, UDEME A U, MISRA S, et al. Identification and classification of transportation disaster tweets using improved bidirectional encoder representations from transformers[J]. International Journal of Information Management Data Insights, 2023, 3(1): 100154.
19 ]}作为经典正则化技术，通过在损失函数中添加权重的平方范数惩罚项来限制模型参数的大小，从而减少过拟合的风险。与Adam优化器不同，AdamW通过解耦权重衰减与参数更新，确保正则化强度与学习率无关，从而更有效抑制过拟合。这种改进使得AdamW能够更好地控制模型的复杂度，提高模型的泛化能力，提升对工业场景下噪声干扰的鲁棒性。

1.4.2　学习率策略改进

原始C3D三维卷积神经网络采用固定步长学习率衰减策略（StepLR），其数学形式为

η_{t} = η_{0} \times γ^{[t / s]}

（15）

式中，η₀为初始学习率；γ为衰减系数（通常取0.1）；s为衰减步长（如每30个epoch衰减1次）。

该策略在应用于胶接工艺时序行为识别任务时，面临如下问题：（1）动态适应性不足。由于胶接工艺时序行为具有突发性和高动态性，导致损失函数曲面复杂且非稳态，固定衰减步长难以适应梯度动态变化，影响模型关键帧特征捕捉；（2）局部最优陷阱。StepLR的单调衰减机制使后期学习率趋近于0，易陷入工业噪声引入的鞍点，导致含噪数据识别率骤降；（3）衰减步长s与系数γ需人工调优，不当设置可能导致欠拟合或过拟合现象，使得模型表现不稳定。为此，本文引入余弦退火动态学习率策略（CosineAnnealingLR）^{[
[20] CAZENAVE T, SENTUC J, VIDEAU M. Cosine annealing, mixnet and swish activation for computer go[M]//Advances in Computer Games. Cham: Springer International Publishing, 2022: 53-60.
20 ]}。

余弦退火策略通过周期性重启学习率，平衡全局探索与局部收敛，其表达式为

η_{t} = η_{\min} + \frac{1}{2} (η_{\max} - η_{\min}) (1 + \cos (\frac{T_{cur}}{T_{\max}} π))

（16）

式中，η_max与η_min为学习率上下界；T_cur为当前周期内迭代步数；T_max为周期长度。由于余弦退火策略可以根据训练过程动态地调整学习率，因此可适配特定任务中非稳态损失曲面，并且周期性重启机制可帮助模型逃离次优解区域，提升在噪声干扰场景下关键行为识别准确率，提升泛化能力。

通过结合AdamW自适应优化器与余弦退火动态学习率策略，可显著提升模型对胶接工艺时序行为的捕捉能力与工业噪声的鲁棒性，其精度、效率与鲁棒性全面优于传统策略。

1.5　数据增强策略

针对胶接工艺高动态和强逻辑顺序依赖性特点，系统性构建了胶接工艺时序行为识别数据集（Gluing process temporal behavior recognition dataset，GPTBRD）。GPTBRD依据实际胶接工艺流程，定义了添加胶体、搅拌、取胶A、贴合面涂胶、取胶B、隔离垫A涂胶、隔离垫与贴合面粘接这7种具体时序行为。

针对胶接工艺数据集受成本、安全和隐私限制导致的样本稀缺与类别失衡问题，本文提出三重协同数据增强策略以抑制小样本过拟合。首先，通过多相机阵列实现多视角同步采集，利用视角间特征互补提升模型姿态鲁棒性；其次，加入高斯噪声、动态模糊及对比度调整方法，模拟传感器噪声、运动模糊与光照波动等干扰；最后结合Mixup策略进行时空特征线性插值。该框架实现了数据规模与质量的双重优化。

本文设计了多相机视角数据采集方案，采用多分辨率工业相机（（720×540）~（2448×2048））与多视场角配置（40°~80°），实现装配全局与操作细节的多尺度捕捉；通过配置70~500 fps的帧率，抑制运动模糊效应。该数据采集方案有效解决了单一视角数据表征不足的问题，使得原始数据集GPTBRD的样本空间复杂度提升300%，形成数据集GPTBRD-A。

GPTBRD-A具体包括7种时序行为，该数据集共有2587个视频段，总时长为4.0 h，最短的视频段时长为4.65 s，最长的视频段时长为10.17 s，平均时长为5.61 s，分辨率为720×540、1208×1024、2448×2047，帧率为70 fps、200 fps、500 fps，数据集详情如表1所示。

表1　 GPTBRD-A数据集的数据详情

Table 1　 Data details of GPTBRD-A dataset

时序行为类别	视频段数量/个	总时长/h	总帧数	平均时长/s	平均帧数
添加胶体	357	0.52	1441438	5.24	4037
搅拌	344	0.48	1330559	5.02	3867
取胶A	375	0.53	1469162	5.09	3917
贴合面涂胶	369	0.65	1801805	6.34	4882
取胶B	383	0.55	1524596	5.17	3980
隔离垫A涂胶	374	0.67	1857247	6.45	4965
隔离垫与贴合面粘接	385	0.64	1774073	5.98	4607

在增强数据集多样性方面，采用5个参数的高斯噪声、5个模糊核的高斯模糊以及20组对比度调整的增广方式扩充样本数量。具体数据集样本数量如下表2所示。

表2　数据多样性增强结果

Table 2　 Data diversity enhancement results

序号	数据集名称	增强方法	单一样本数量n
1	GPTBRD-A	多相机视角录制	3
2	GPTBRD-B	高斯噪声	15
3	GPTBRD-C	高斯模糊	15
4	GPTBRD-D	对比度	60
5	GPTBRD-E	合并上述数据	93

在增强数据集质量方面，本文融合了Mixup数据增强策略^{[
[21] ZHANG H Y, CISSE M, DAUPHIN Y N, et al. Mixup: Beyond empirical risk minimization[EB/OL]. [2025-04-16]. https://arxiv.org/abs/1710.09412.
21 ]}。Zhang等^{[
[22] ZHANG L J, DENG Z, KAWAGUCHI K, et al. How does mixup help with robustness and generalization [EB/OL]. [2025-04-16]. https://arxiv.org/abs/2010.04819.
22 ]}证明了Mixup算法可以帮助模型提高鲁棒性和泛化能力，减少过拟合风险。Mixup数据增强策略表达式为

\tilde{x} = λ x_{i} + (1 - λ) x_{j}

（17）

\tilde{y} = λ y_{i} + (1 - λ) y_{j}

（18）

式中，（x_i，y_i）和（x_j，y_j）为训练数据中任意两条样本；x为样本特征，y为样本标签。从文献[ [23] GREEN S B. How many subjects does it take to do a regression analysis[J]. Multivariate Behavioral Research, 1991, 26(3): 499-510.
23 ]可知，λ∈[0，1]的概率值，λ服从参数α的Beta分布。（ $\tilde{x}$ ， $\tilde{y}$ ）是样本（x_i，y_i）和（x_j，y_j）在λ服从β（α，α）情况下新生成的数据，新生成的数据融合了训练样本的特性，可以候选加入样本集中优化模型。在实际应用以及试验过程中发现，参数α的选择对训练结果有很大的影响，因为Mixup本质上是对两张图像进行线性插值。参数α的设置将影响两段行为序列混合的效果，设置较小α值的效果通常较好，α值较大时网络性能变化不大甚至出现下降，这是由于过度的混合破坏了原有行为序列的图像空间特征，因此将参数α设置为α≤0.4。经过Mixup增强后（α≤0.4）的数据效果如图7所示。

图7　 Mixup数据增强示例

Fig.7　 Mixup data enhancement example

在胶接工艺时序行为识别任务中，Mixup的作用主要体现在以下方面：（1）通过融合不同动作片段的时空特征，强化动作连续性和过渡状态的建模；（2）通过合成样本模拟真实场景中因遮挡或光照突变导致的类别模糊性，提升噪声鲁棒性；（3）生成多样化的虚拟样本以平衡数据分布，缓解工业场景小样本缺陷。

2　试验设计与验证

本节将依次开展5个模型改进试验，分别为数据增强策略、注意力模块嵌入、批归一化处理、SimA3D与主流模型对比以及SimA3D模型推理速度试验。其中后4项试验均基于数据增强后的GPTBRD-E合并数据集进行，本文中“提升”均指准确率的绝对差值。

2.1　试验环境和参数设置

本试验中网络的迭代周期（epoch）为300次，学习率（learning rate）设置为0.0001。每次批量迭代数据量（Batch_size）为16，随机失活率（dropout）设置为0.5。使用交叉熵函数作为损失函数。表3为具体使用的编译环境的设置信息。

表3　试验编译环境

Table 3　 Experimental compilation environment

编译环境	环境设置
CPU	i9-12900K
GPU	Nvidia GeForce RTX3090-24G
Pytorch	1.10.1
Cuda+Cudnn	11.3+8.2.0.0

2.2　基于数据增强策略的模型改进试验

在SimA3D模型下开展验证，通过50轮训练，综合评估不同数据增强策略对模型识别精度的影响，训练过程曲线如图8所示。试验结果表明，融合多策略的GPTBRD-E数据集表现较为突出，其结合Mixup数据增强策略后最终准确率达98.32%，较原始数据集GPTBRD-A准确率提升了23.43个百分点，如表4所示。

图8　数据增强试验

Fig.8　 Data enhancement experiments

表4　数据增强训练结果

Table 4　 Data-enhanced training results

序号	方法	准确率/%	相对原始数据集提升/%
1	GPTBRD-A	74.89	0
2	GPTBRD-B	88.03	13.14
3	GPTBRD-C	90.48	15.59
4	GPTBRD-D	83.24	8.35
5	GPTBRD-E	97.45	22.56
6	GPTBRD-E+Mixup（α≤0.4）	98.32	23.43

分析可知，模糊和噪声的策略分别提升精度15.59%和13.14%，前者通过运动模糊强化整体结构感知而非局部噪声，增强时序特征捕获；后者虽提升了鲁棒性，却抑制了细粒度特征表达。针对GPTBRD-E的准确率最高，说明单一数据增强仅针对特定类型的干扰或特征进行增强，而组合使用可覆盖更全面的数据分布变化，模拟真实场景中噪声、光照、模糊等综合干扰。

值得注意的是，经过Mixup训练过的网络，准确率达到98.32%，相较不采用Mixup策略的网络，准确率提升了0.87个百分点，表明其能有效扩展潜在数据分布覆盖范围，增强模糊边界处理能力。

2.3　嵌入SimAM注意力模块的模型改进试验

2.3.1　不同嵌入位置的对比试验

注意力机制的插入位置可对网络性能产生不同的影响，选择合适的插入位置可以最大程度地发挥注意力机制的优势^{[
[24] 赖素晖, 贾振堂. 改进YOLOv7的快递包裹检测算法[J]. 计算机工程与设计, 2025, 46(2): 537-545.LAI Suhui, JIA Zhentang. Improved YOLOv7 for enhanced express package detection[J]. Computer Engineering and Design, 2025, 46(2): 537-545.
24 ]}。因此，本文针对SimAM模块设计了两种嵌入方案进行对比，验证集准确率曲线如图9所示。

图9　不同嵌入位置对比试验

Fig.9　 Comparison experiments of different embedding positions

方案1：在C3D卷积层的激活函数与池化层之间嵌入SimAM模块。

方案2：在C3D各池化层后嵌入SimAM模块。

试验表明，SimAM模块嵌入激活函数与池化层之间更优，能提高胶接工艺时序行为识别任务的性能。在池化层后嵌入SimAM模块，丢失空间细节，注意力可能过度关注高层抽象而非微小的动作差异。

2.3.2　不同注意力机制对比试验

为验证引入注意力机制的有效性，在C3D基准模型中分别嵌入SE、CBAM及SimAM模块进行对比。测试集结果如表5所示，原始C3D准确率为78.42%，添加SimAM模块后准确率提升至83.89%，显著优于SE（37.38%）和CBAM（56.23%）。验证集准确率曲线如图10所示，一致证明嵌入SimAM模块的性能最优。

表5　不同注意力机制测试集对比试验

Table 5　 Comparison experiments on test sets of different attention mechanisms

注意力机制	测试集准确率/%
C3D	78.42
C3D+SE	37.38
C3D+CBAM	56.23
C3D+SimAM	83.89

图10　不同注意力机制对比试验

Fig.10　 Comparison experiments on different attention mechanisms

为此，分析差异来源于SE模块仅建模通道维度，忽略时空特征相关性有关，难以捕捉装配行为的动态变化；CBAM虽融合通道与空间维度，但其分离式结构破坏时序连续性；二者依赖可使训练参数生成权重，易干扰核心特征学习。相较而言，SimAM通过无参三维注意力机制同步捕捉时空关键特征，避免过拟合的同时实现时序行为精准建模。

2.4　添加批归一化处理的模型改进试验

为验证批归一化处理对模型性能的有效性，在GPTBRD-E数据集上设计对比试验。试验采用随机梯度下降（SGD）优化器。经过300轮训练周期，训练过程曲线如图11所示。

图11　添加批归一化处理对比试验

Fig.11　 Comparison experiment of add batch normalization treatment

对比试验结果表明，集成批归一化处理的C3D模型在训练时可提升收敛速度，并且当准确率曲线趋于收敛时，准确率曲线抖动性较小，稳定性好，相对平滑的收敛曲线表明批归一化处理对特征分布对齐的有效性。

2.5　最优模型与主流模型的对比试验

为了客观验证SimA3D模型及其优化方法的优越性，试验选取I3D^{[
[25] Carreira J, Zisserman A. Quo vadis, action recognition, a new model and the kinetics dataset[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 6299-6308.
25 ]}和SlowFast^{[
[26] Feichtenhofer C, Fan H, Malik J, et al. Slowfast networks for video recognition[C]. Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 6202-6211.
26 ]}作为基准模型。所有模型均在GPTBRD-E数据集下统一使用相同Mixup数据增强策略（α=0.4），并全部采用AdamW优化器（weight_decay=5e-4），配合余弦退火动态学习率策略（T_max=20）。在相同的试验环境下，试验对比结果如图12所示。

图12　主流模型对比试验

Fig.12　 Comparison experiment of mainstream models

试验结果表明，本文提出的SimA3D模型结合优化方法在胶接工艺时序行为识别任务中性能显著优于基准模型。模型仅训练35个周期即达到96.70%的验证准确率（I3D和SlowFast的准确率分别为77.14%和80.70%）。

2.6　 SimA3D模型推理速度试验

为了验证SimA3D模型在工业场景实时行为识别的可应用性以及高效性，选取C3D、I3D网络模型作为基准模型，在相同的硬件平台下从模型参数、浮点数运算次数（FLOPs）、每秒处理帧数（FPS）3个方面对比不同模型在GPTBRD-E数据集上的推理结果。模型参数为模型需要学习的权重和偏置的数量，浮点数运算次数为模型完成一次前向推理所需的浮点运算总量。对比结果如表6所示。

表6　不同模型在GPTBRD-E数据集上的推理结果对比

Table 6　 Comparison of inference results between different models on the GPTBRD-E dataset

模型	模型参数/M	浮点数运算次数/GFLOPs	FPS	测试集准确率/%
C3D	78.02	38	128	78.42
I3D	11.9	42	36	82.37
SimA3D	78.03	39	87	97.26
SimA3D+Mixup（α≤0.4）	78.03	39	87	98.32

从表6中可以看出，虽然SimA3D的模型参数高于C3D和I3D，进一步结合Mixup数据增强策略后，识别准确率提升至98.32%，较C3D提升了19.9个百分点，实现显著提升，可满足胶接工艺及其他工业场景下对高精度行为识别的需求；在计算效率方面，SimA3D的浮点数运算次数与C3D模型相当，较I3D降低3 GFLOPs，相对降低7.14%，表明其更优的计算复杂度与计算效率；值得注意的是，SimA3D模型达到87 FPS的推理速度，结合其高准确率特性，表明其在胶接工艺及其他工业场景下具备高度可行的实时部署能力。

3　结论

为智能化监管热防护瓦胶接工艺的人工操作环节，本文构建了胶接工艺时序行为识别模型，得出以下主要结论。

（1）通过集成SimAM无参注意力机制至C3D网络中，增强全局信息捕捉以及强化细粒度特征提取能力，结合批归一化处理，提升模型训练的稳定性、收敛速度和泛化能力。

（2）通过融合余弦退火动态学习率策略与AdamW优化器的复合训练策略，有效缩短了训练周期，提升了模型的噪声鲁棒性。

（3）系统性地构建胶接工艺时序行为识别数据集，并提出三重协同数据增强策略，显著提高了数据规模和质量，缓解过拟合现象。

（4）试验结果验证了本文整体方案的有效性，SimA3D模型准确率为98.32%，相比基线C3D模型准确率提升了19.9个百分点，结合其高度可行的实时部署能力，为热防护瓦胶接工艺的质量管控提供了有效的技术支撑。

值得注意的是，SimA3D模型其优异的时序行为识别能力与噪声鲁棒性表明，该模型可有效推广至其他具有复杂时序操作特征以及严格时序要求的制造工艺行为识别监测场景。

后续研究将基于SimA3D时序行为识别模型，融合多源传感器，针对胶接工艺过程进行定量分析，构建热防护瓦胶接过程工艺质量的多尺度动态定量评估模型，实现对施力角度、施力方向以及表面平整度等施力参数以及胶水体积、胶水平整度等胶水参数的量化，完成胶接工艺质量缺陷的实时监测预警。

参考文献

[1]	郭朝邦, 李文杰. 高超声速飞行器结构材料与热防护系统[J]. 飞航导弹, 2010(4): 88-94. GUO Chaobang, LI Wenjie. Structural materials and thermal protection system of hypersonic vehicle[J]. Aerodynamic Missiles Journal, 2010(4): 88-94.
[2]	王天诺. 基于深度学习的装配操作监测研究[D]. 青岛: 青岛理工大学, 2019. WANG Tiannuo. Research on assembling operation monitoring based on deep learning[D]. Qingdao: Qingdao University of Technology, 2019.
[3]	乔琦. 装配过程中的动作识别与作业规范性判别方法研究[D]. 西安: 西安理工大学, 2023. QIAO Qi. Research on action recognition and operation normative discrimination method in manual assembly process[D]. Xi’an: Xi’an University of Technology, 2023.
[4]	CARREIRA J, ZISSERMAN A. Quo vadis, action recognition a new model and the kinetics dataset[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu: IEEE, 2017: 4724-4733.
[5]	邹新雷. 基于3D卷积神经网络的行为识别研究与应用[D]. 成都: 电子科技大学, 2022. ZOU Xinlei. Research and application of action recognition based on 3D convolutional neural networks[D]. Chengdu: University of Electronic Science and Technology of China, 2022.
[6]	TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]//2015 IEEE International Conference on Computer Vision (ICCV). Santiago: IEEE, 2015: 4489-4497.
[7]	JONES J D, CORTESA C, SHELTON A, et al. Fine-grained activity recognition for assembly videos[J]. IEEE Robotics and Automation Letters, 2021, 6(2): 3728-3735.
[8]	CHEN C J, WANG T N, LI D N, et al. Repetitive assembly action recognition based on object detection and pose estimation[J]. Journal of Manufacturing Systems, 2020, 55: 325-333.
[9]	席志红, 冯宇. 基于改进型C3D网络的人体行为识别算法[J]. 应用科技, 2021, 48(5): 47-53. XI Zhihong, FENG Yu. A human behavior recognition algorithm based on improved C3D network[J]. Applied Science and Technology, 2021, 48(5): 47-53.
[10]	YANG L X, ZHANG R Y, LI L D, et al. SimAM: A simple, parameter-free attention module for convolutional neural networks[C]//International Conference on Machine Learning. New York: PMLR, 2021.
[11]	HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132-7141.
[12]	WANG Q L, WU B G, ZHU P F, et al. ECA-net: Efficient channel attention for deep convolutional neural networks[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA: IEEE, 2020: 11531-11539.
[13]	WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module[C]//Computer Vision-ECCV 2018. Cham: Springer, 2018: 3-19.
[14]	BARBEY A K. Network neuroscience theory of human intelligence[J]. Trends in Cognitive Sciences, 2018, 22(1): 8-20.
[15]	IOFFE S, SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]//Proceedings of the 32nd International Conference on International Conference on Machine Learning-Volume 37. New York: ACM, 2015: 448-456.
[16]	RUDER S. An overview of gradient descent optimization algorithms[EB/OL]. [2025-04-16]. https://arxiv.org/abs/1609.04747.
[17]	KINGMA D P, BA J. Adam: A method for stochastic optimization[EB/OL]. [2025-04-16]. https://arxiv.org/abs/1412.6980.
[18]	LASHKARI M, GHEIBI A. Lipschitzness effect of a loss function on generalization performance of deep neural networks trained by Adam and AdamW optimizers[EB/OL]. 2023: arXiv: 2303.16464. https://arxiv.org/abs/2303.16464.
[19]	PRASAD R, UDEME A U, MISRA S, et al. Identification and classification of transportation disaster tweets using improved bidirectional encoder representations from transformers[J]. International Journal of Information Management Data Insights, 2023, 3(1): 100154.
[20]	CAZENAVE T, SENTUC J, VIDEAU M. Cosine annealing, mixnet and swish activation for computer go[M]//Advances in Computer Games. Cham: Springer International Publishing, 2022: 53-60.
[21]	ZHANG H Y, CISSE M, DAUPHIN Y N, et al. Mixup: Beyond empirical risk minimization[EB/OL]. [2025-04-16]. https://arxiv.org/abs/1710.09412.
[22]	ZHANG L J, DENG Z, KAWAGUCHI K, et al. How does mixup help with robustness and generalization [EB/OL]. [2025-04-16]. https://arxiv.org/abs/2010.04819.
[23]	GREEN S B. How many subjects does it take to do a regression analysis[J]. Multivariate Behavioral Research, 1991, 26(3): 499-510.
[24]	赖素晖, 贾振堂. 改进YOLOv7的快递包裹检测算法[J]. 计算机工程与设计, 2025, 46(2): 537-545. LAI Suhui, JIA Zhentang. Improved YOLOv7 for enhanced express package detection[J]. Computer Engineering and Design, 2025, 46(2): 537-545.
[25]	Carreira J, Zisserman A. Quo vadis, action recognition, a new model and the kinetics dataset[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 6299-6308.
[26]	Feichtenhofer C, Fan H, Malik J, et al. Slowfast networks for video recognition[C]. Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 6202-6211.