融合多模态深度学习的高校课堂行为感知与教学优化策略研究

初奕萱

天津外国语大学英语学院，天津市，300204；

摘要：高校课堂教学面临行为感知手段单一、教学反馈滞后、课堂互动数据挖掘不足等问题。为此，提出一种基于多模态深度学习与改进YOLOv5-TAM模型的课堂行为感知与教学优化系统。系统整合课堂视频、语音、文本等多源数据，通过改进的目标检测网络实现学生面部表情、身体姿态等视觉特征的精准提取，采用Transformer结构完成图像、音频、文本三类特征的时序对齐与深度融合，实时识别学生注意力水平、情绪状态及互动活跃度。在此基础上，构建基于TOPSIS的教学质量综合评价模型，设计可视化反馈界面与教学策略推荐引擎。真实课堂环境测试表明，系统行为识别平均精度达到84%以上，反馈延迟低于2秒，显著提升了教师对课堂状态的感知能力与教学调控的实时性。本研究突破传统单一模态评价的局限，为高校智慧课堂建设提供了可复用的技术方案与实践参考。

关键词：多模态融合，深度学习，课堂行为感知，YOLOv5-TAM，教学优化策略

参考文献

[1]杨帆,等.基于YOLOv7与多模型融合的学生课堂行为检测系统[J].计算机工程与应用,2023,59(15):123-130.

[2]郑周杰,等.多视角课堂行为识别与注意力评估方法研究[J].现代教育技术,2023,33(4):56-63.

[3]张勇和,等.基于多模态融合与自然感知的学生兴趣建模[J].电化教育研究,2022,43(8):88-95.

[4]Liu T, et al. Student behavior detection in classroom video based on YOLOv3 with DropBlock[J]. Journal of Intelligent & Fuzzy Systems, 2020, 39(4): 5211-5221.

[5]Zheng W, et al. Automated multi-modal teaching behavior analysis framework for large-scale classroom monitoring[J]. IEEE Transactions on Learning Technologies, 2024, 17: 456-469.

[6]Zhao H, et al. BiTNet: A lightweight transformer-based network for real-time classroom behavior feedback[J]. Pattern Recognition, 2023, 138: 109382.

公司地址

152 BEACH ROAD#11-05GATEWAY EASTSINGAPORE(189721)

出版物

期刊出版　　图书出版

服务热线

邮箱 / Eamil

info@juzhikan.asia

关注聚知刊