果蝇是实验教学中最常用的重要生物材料之一。为了解决实验教学中要记录上百只果蝇身上的数个不同性状的繁琐工作量,及人工操作中标准的参差不齐,将现代计算机技术融入到遗传学实验教学中,开发使用深度卷积神经网络自动统计每只果蝇的性状,大大提高了识别的准确率,而且该系统的模型体积小,其软件可在任意安卓系统的手机端安装,适于推广使用,提高了学生的兴趣,也开拓了学生的思维。此外,该系统也可用于涉及大量果蝇分类统计分析的科研工作。
2023年3月17日,复旦大学生命科学学院生物科学国家级实验教学示范中心遗传学实验教研室在《遗传》杂志上发表题为“现代计算机技术在遗传学实验教学中的应用——移动端轻量级高精度果蝇遗传性状批量识别系统的开发应用研究”一文。文章利用现代计算机技术,构建了移动端轻量级高精度果蝇遗传性状批量识别系统。该系统模型小,其软件可在任意安卓系统的手机上安装,适于推广使用。
研究人员选用80张果蝇原始图片以及1733个定位框作为目标检测数据集。最终的性状分类数据集设为3个子集,分别对应3个果蝇性状。每个子集都有400+400个样本,该数据集的一些可视化图像见图1和图2。该系统采用了目标检测+性状分类的两阶段策略。在性状分类阶段,研究人员将果蝇的身长和翅长作为一种显性模式提供给模型,标记出长/短翅数据集的800张样本中表征身长和翅长的关键点,利用预训练+微调的分阶段学习策略,提高模型的可解释性,从而提高准确率和泛化能力。运用优化的关键点辅助图像分类方法生成的模型更接近人类判断长小翅性状的习惯,在Grad-CAM可视化方法下与普通分类的比较结果如图3所示。最后,采用适合移动端CPU计算的卷积神经网络架构,结合伪标签生成、渐进式学习、适应性正则化等多种训练策略,并通过训练后量子化技术,得到了能在手机端快速运算的轻量级模型。
图1 性状数据集中的一些图片样本
图2 3个子集的图片尺寸分布
图3 Grad-CAM结果(每列的左侧为关键点辅助分类,右侧为普通分类)
综上所述,文章所构建的果蝇遗传性状批量识别系统,最终在每只果蝇3对性状(红/白眼、长/短翅、雌/雄)的分类任务下分别达到了验证集97.5%、97.5%和98%的准确率,果蝇目标检测的召回率和精确率均为100%,并且可以在手机端10 s内完成600个果蝇性状的分类。而且该模型大小不到5 MB,具有轻量化的特点,易于在各类安卓系统手机上安装使用。该系统的开发有利于推进以果蝇为研究对象的遗传规律验证等实验的教学,也可用于涉及大量果蝇分类统计分析的科研工作。
复旦大学生命科学学院生物科学国家级实验教学示范中心遗传学实验教研室皮妍高级讲师为论文通讯作者,复旦大学生命科学学院学生安钧浩同学为论文第一作者。该研究得到复旦大学本科教学研究与改革实践项目的资助。
文章录用版链接:安钧浩,赵雪莹, 乔守怡,卢大儒, 皮妍.现代计算机技术在遗传学实验教学中的应用——移动端轻量级高精度果蝇遗传性状批量识别系统的开发应用.遗传, 2023.