服务粉丝

我们一直在努力
当前位置:首页 > 情感 > 故事 >

大数据能力提升项目|学生成果展系列之二

日期: 来源:数据派THU收集编辑:数据派THU


导读

为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。


回首2022年,清华大学大数据能力提升项目取得了丰硕的成果,同学们将课程中学到的数据思维和技能成功地应用在本专业的学习和科研中,在看到数据科学魅力的同时,也将自己打造成为了交叉复合型的创新型人才。下面让我们通过来自8个院系的10位同学代表一起领略他们的风采吧!


儿童听力损失相关生物信息学研究


听力损失是最常见的感觉障碍之一,中国每年至少有2万名新生聋儿出生,如果不进行干预,将造成巨大的社会和经济负担。听力损失按照程度分类,可分为轻度、中度、重度和极重度。根据侧别,可分为左侧、右侧和双侧听力损失。根据性质,可分为传导性、感音神经性、混合性听力损失和特殊类型“听神经病”。对听力损失程度的判断有两种方法,一是根据ABR阈值机器判断,二是根据ABR阈值人工判断。对听力损失性质的判断则是根据DPOAE、声导抗,进行人工判断。


我们的数据集为2011年1月至2021年6月于北京同仁医院儿童听力门诊采集的就诊信息。研究目标为明确新生儿听力损失检出率、听力损失程度和听力损失性质分布,进行多因素回归分析及相关性分析,并将机器学习模型应用于儿童听力损失临床诊断中。


我们采用Python语言编程,对原始数据进行了读取、整理与统计,并对各类信息进行赋值。对数据按照年龄、性别、来源、地区和高危因素进行了简单统计,对数据有了基础了解。


对听力损失检出率进行统计分析。


根据机器判断结果,计算了总体听力损失检出比例,其中总体就诊患儿听力损失检出率达到55.79%。通过对不同筛查来源患儿的听力损失检出比例进行对比发现,社区、产科复筛来源的听力损失检出率高,而托幼院所来源的明显偏低。我们统计了各年度就诊患儿听力损失检出率,除第一年和最后一年的就诊例数较少,其余年份的总体听力损失检出率都在50%—64%。双耳听力损失检出率总体呈下降趋势,单耳听力损失检出率占比总体呈上升趋势。我们将首诊筛查结果与根据ABR阈值机器判断结果进行对比,发现有首诊筛查结果的共754例,其中400例ABR测试异常,异常率高达53.05%。

对听力损失程度进行统计。


对机器判断与人工判断结果进行对比,发现两种结果的相同点为:听力损失程度分布均表现为轻度&>中度&>极重度&>重度。双耳听力损失数目高于单耳听力损失数目。不同点在于,人工判断结果与机器判断结果相比,双耳正常增多4例,单耳听力损失减少15例,双耳听力损失增多11例。不同筛查来源的听力损失程度分布显示:产科复筛来源的就诊患儿例数多,听力损失率高,是重要的来源途径。而社区来源的就诊患儿双耳极重度、双耳中度占比较大,总体听力损失率最高。这可能提示社区来源需加强转诊、随访。


对听力损失性质分布的统计。


人工判断结果显示,听力损失总耳数占比为感音神经性&>传导性&>混合性&>听神经病。双耳异常总耳数占比&>单耳异常总耳数占比,尤其体现在感音神经性耳聋上。



对数据进行回归分析。


首先是各因素与机器判断结果的分析。我们首先考虑不同因素对机器判断结果的影响,进行卡方检验。最终的结果显示,影响机器判断结果的显著因素共13项。


由于就诊患儿的诊断结果可以视为一个典型的二分类问题。因此可将影响因素纳入二分类非条件逻辑回归模型进行多因素分析,同时对自变量进行Z检验。将p值阈值设为0.05,得到对机器判断结果有显著相关性的因素有7项。


在逻辑回归分析的基础上,进一步尝试使用机器学习的方法对机器判断结果进行分类。使用逻辑回归函数和训练函数,对数据进行逻辑回归的二分类。数据训练集和测试集的比例为4:1。得到的模型预测准确度为65.44%,效果并不理想。


不同于逻辑回归算法,决策树分类过程不依赖领域知识。我们使用决策树模型来对数据分类。由此得到的模型预测准确度为58.45%,结果同样不够理想。


对人工判断结果采用同样的流程进行研究。


卡方检验显示,筛查来源、就诊年龄、高危因素里的颅面形态畸形、NICU住院超过5天共4种因素对人工判断结果的影响具有统计学意义,这些因素同样是影响机器判断结果的显著因素。逻辑回归分析结果显示:对人工判断结果有显著相关性的因素有4项,其中首诊筛查来源、高危因素里的黄疸与机器判断结果有显著相关性。


进一步尝试使用机器学习的方法对人工判断结果进行分类。得到的逻辑回归模型准确度为98%。决策树模型准确度为95.34%,都表现出比较理想的分类效果。这也意味着,我们可以通过就诊患儿的信息,用机器学习来预测就诊患儿的听力损失情况,预测结果与人工判断结果具有极高的一致性。


我们的研究有以下四点主要结论:


1.产科筛查的重要性。

2.机器判断和人工判断的一致性高。

3.感音神经性听力损失占比最大,双耳异常占比大。

4.可通过机器学习获得较好的人工判断结果预测,这为大数据预测辅助人工判断描绘了美好前景。




此次实践我巩固提升了大数据理论知识,并将其运用于解决实际问题。在实践过程中实现了团队合作和学科交叉,撰写了报告《儿童听力损失相关生物信息学研究》,并最终获得了2021年“清华大学大数据能力提升项目”实践课优秀团队奖。目前,本团队也在与北京市同仁医院继续就该项目合作,将成果转化为学术论文。


编辑:文婧
校对:程安乐

相关阅读

  • 网传中电科加班事件,警方通报调查结果!

  • 4月7日晚,@平安德阳经开区 发布一则警情通报,通报网传中电科加班事件调查结果,全文如下:(来源:@平安德阳经开区、新华网)编辑:王培 任诗音统筹:胡莹编审:闵捷
  • ChatGPT做三维!训练ChatGPT自动化3D WebGIS开发

  • 最近一段时间ChatGPT可以说是风头无两,ChatGPT给人们新鲜感的同时,也引发了恐慌与焦虑。之前小助手也体验过ChatGPT,合理的使用确实有助于我们测绘地理信息从业者工作效率的提
  • 满足“听”需 不仅是要听得见

  •  在神奇的自然中,每天充满着美妙的交响曲——清脆的蛙鸣,婉转的鸟鸣,风儿吹过树梢的沙沙声……在偌大的世间,每天都弥漫着温暖的协奏曲——亲人的关怀,朋友的问候,人逢喜事精神爽
  • AI生成游戏中基于物理的渲染(PBR)贴图探索

  • 文丨Xurong腾讯互动娱乐 技术美术| 导语AI绘图进展的如火如荼,从刚开始的“AI绘画也就图一乐”,发展到如今质量越来越好、效果越来越稳定,各种特性模型、辅助插件层出不穷,其进
  • 在日常城市生活中,你的听力可能会逐渐丧失

  • 编者按:我们会以为突然暴露在嘈杂的环境中会对听力造成损害,或者认为那些在临床试验中听力表现完全正常的人不存在听力问题,但其实不然,后者这种情况被称为隐性听力损失,目前患有
  • GPT-4救我狗命

  • 丰色 发自 凹非寺量子位 | 公众号 QbitAI这两天,一篇关于“GPT-4救了我狗的命”的帖子属实有点火:短短一两天就有数千人转发,上万人点赞,网友在评论区讨论得热火朝天。△ 是真狗
  • 如何提高决策能力,让自己更果断?

  • 编者按:在日常生活中,我们总是会遇到各种各样的决策。面对决策时,一些人优柔寡断,一些人则当机立断。如果你总是优柔寡断,不仅会影响你的做事效率,而且还可能会给你带来一系列的不

热门文章

  • 甘肃漳县:干部情撒麦田 助力夏粮归仓

  • 炎炎夏日,农事繁忙;麦穗飘香,颗粒归仓。近日,漳县马泉乡工会组织开展“干部情撒麦田,助力夏粮归仓”志愿服务行动,切实发挥广大干部职工的示范带动作用,扎实细

最新文章

  • 大数据能力提升项目|学生成果展系列之二

  • 导读为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心
  • 与花争艳!十堰百名汉服爱好者畅游牡丹花海

  • 十堰广电讯(全媒体记者 白璐)4月9日,天气晴朗,风和日丽,茅箭区东沟云上牡丹园热闹非凡,百名身着汉服的国风爱好者来到园区和各色牡丹争芳斗艳。阳光下的牡丹花开的格外鲜艳,现场也
  • 定了!快递电子运单上,禁止显示这些信息!

  • 近日实施的《快递电子运单》国家标准强化个人信息保护,禁止显示完整的个人信息,推荐对个人信息进行全加密处理,规范个人信息相关内容的读取权限。 相关媒体从市场监管总局举行