基于YOLOv8的课堂专注度识别系统设计与实现

王怡蕊

1. 项目概述

在当今教育信息化浪潮中，如何客观评估课堂教学效果一直是教育工作者面临的难题。传统课堂中，教师往往只能凭主观印象判断学生的专注程度，这种评估方式不仅效率低下，也难以做到全面客观。我们团队开发的这套学生课堂专注度识别系统，正是为了解决这一痛点而生。

这个系统最核心的价值在于：通过计算机视觉技术，实现了对学生课堂行为的自动化分析。想象一下，当教师在讲台上授课时，系统正在后台默默工作——它不仅能识别学生是在认真听讲还是开小差，甚至能通过面部表情判断学生是否真正理解了教学内容。这种实时反馈机制，为教师调整教学策略提供了数据支持。

从技术角度看，我们选择了YOLOv8作为基础框架，这主要基于三点考虑：首先，YOLO系列算法在目标检测领域的表现有目共睹；其次，其出色的实时性能完全满足课堂场景需求；最重要的是，通过针对性的改进，我们成功解决了课堂环境中特有的小目标检测和遮挡问题。

2. 系统架构设计

2.1 整体技术栈

系统采用典型的三层架构设计：

前端：基于React构建的Web应用
后端：Django框架提供RESTful API
算法层：改进的YOLO模型负责核心检测任务

这种架构最大的优势在于解耦。前端工程师可以专注于用户体验，后端团队负责业务逻辑，而算法工程师则能集中精力优化模型性能。在实际部署时，我们建议将算法服务单独部署在GPU服务器上，通过gRPC与后端通信，这样既能保证计算效率，又不会影响Web服务的响应速度。

2.2 数据流设计

当系统运行时，数据流动是这样的：

教室摄像头采集视频流（建议使用1080P分辨率，25fps）
前端每3秒抽取一帧发送到后端
后端调用算法服务进行处理
结果存入数据库并实时推送到教师端界面

这里有个关键细节：我们采用帧抽样策略而非全量处理。实测表明，对于专注度评估这种场景，3秒间隔既能捕捉到行为变化，又能将服务器负载控制在合理范围内。

3. 核心算法实现

3.1 改进的YOLOv8模型

我们在原始YOLOv8基础上做了三点重要改进：

主干网络优化：
将默认的CSP模块替换为自研的C2f结构。简单来说，C2f通过交叉特征融合，在不增加计算量的前提下，将mAP提升了2.3%。具体实现时，我们在每个stage后添加了横向连接，让浅层特征也能参与深层预测。

注意力机制引入：
在Neck部分集成了CBAM模块。这个设计灵感来自人眼的观察方式——先快速扫描全局，再聚焦关键区域。技术实现上，CBAM包含通道注意力和空间注意力两个子模块：

python复制class CBAM(nn.Module):
    def __init__(self, channels):
        super().__init__()
        # 通道注意力
        self.ca = nn.Sequential(
            nn.AdaptiveAvgPool2d(1),
            nn.Conv2d(channels, channels//16, 1),
            nn.ReLU(),
            nn.Conv2d(channels//16, channels, 1),
            nn.Sigmoid()
        )
        # 空间注意力
        self.sa = nn.Sequential(
            nn.Conv2d(2, 1, 7, padding=3),
            nn.Sigmoid()
        )
    
    def forward(self, x):
        # 通道维度加权
        ca_weight = self.ca(x)
        x = x * ca_weight
        # 空间维度加权
        max_pool = torch.max(x, dim=1, keepdim=True)[0]
        avg_pool = torch.mean(x, dim=1, keepdim=True)
        sa_weight = self.sa(torch.cat([max_pool, avg_pool], dim=1))
        return x * sa_weight

损失函数改进：
采用Wise-IoU替代原生的CIoU。我们发现，在课堂场景中，学生bounding box的尺寸相对固定，传统IoU计算对大小变化过于敏感。Wise-IoU通过动态调整权重，使模型更关注难样本的训练。

3.2 专注度评估模型

专注度计算不是简单的规则判断，而是基于多特征融合的机器学习模型。我们构建了包含17个特征的输入向量：

特征类别	具体特征
行为特征	抬头时长占比、转头频率、举手次数...
表情特征	微笑持续时间、困惑表情次数...
交互特征	与教师眼神接触频率、与同学交流次数...

这些特征经过标准化后，输入到两层全连接网络进行综合评分。在模型训练时，我们邀请了10位资深教师对500个课堂片段进行标注，确保评估标准符合教育实际。

4. 工程实现细节

4.1 数据处理管道

课堂数据采集面临三大挑战：

隐私问题：所有图像必须匿名化处理
标注一致性：需要定义明确的行为/表情分类标准
数据不平衡：专注状态样本远多于分心状态

我们的解决方案是：

使用自动人脸模糊技术处理原始视频
开发了专门的标注工具，内置标注指南和示例
采用过采样+数据增强平衡数据集

python复制# 数据增强示例
train_transform = transforms.Compose([
    transforms.RandomHorizontalFlip(p=0.5),
    transforms.ColorJitter(brightness=0.2, contrast=0.2),
    transforms.RandomAffine(degrees=10, translate=(0.1,0.1)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], 
                         std=[0.229, 0.224, 0.225])
])