叶鹏林, 闵超, 苟良杰, 王鹏程, 黄小鹏, 李鑫, 蒙玉平
[目的/意义] 传统农作物病虫害识别普遍依赖单模态图像,信息利用不充分,导致识别精度受限。针对该问题,本研究提出融合图像与文本的多模态识别方法,旨在显著提升分类准确率与模型鲁棒性,为农业精准防控提供数据驱动的新路径。 [方法] 构建基于自监督适应性特征融合的识别模型。首先,利用大语言模型结合权威农业指南进行提示工程,将标签转化为细粒度病理语义描述;其次,基于图像文本对比学习(Contrastive Language-Image Pre-training, CLIP)提取图像与文本双流特征,设计跨模态平衡对齐模块解决样本不对称问题;再次,通过适应性融合机制动态分配模态权重,实现深层语义交互;最后,引入自监督特征重构任务以增强特征表征的鲁棒性。 [结果和讨论] 在PlantVillage标准数据集上的实验表明:模型分类准确率达99.67%,较ResNet50(96.51%)、Swin-Transformer(97.48%)和基础CLIP(98.23%)准确率高;同时,精确率、召回率与F1分数均超过99.00%,验证了方法的有效性与稳定性。 [结论] 该方法通过融合文本语义与视觉特征,有效突破了单模态识别局限,显著提升了模型在细粒度分类任务中的准确率与泛化能力。