3D X射线衍射数据在冷却时经历相变的一个例子。洋红色图显示了与电荷密度波形成相关的特殊点,因为它们是由机器学习算法X-TEC揭示的。
电子及其行为为量子物理学家提出了有趣的问题,最近在来源,仪器和设施方面的创新使研究人员有可能访问更多以量子材料编码的信息。
然而,这些研究创新正在产生前所未有的——直到现在,还无法破译——的数据量。
“一块材料中的信息内容可以迅速超过国会图书馆的总信息内容,大约是20TB,”艺术与科学学院物理学教授Eun-Ah Kim说,他处于量子材料研究的最前沿,并利用机器学习的力量来分析来自量子材料实验的数据。
“传统分析模式(主要是手动分析)的有限容量正迅速成为关键瓶颈,”Kim说。
由Kim领导的一个小组成功地使用了与康奈尔大学计算机科学家共同开发的机器学习技术来分析来自量子金属Cd的大量数据。解决了关于这种特定材料的争论,并为未来的机器学习奠定了基础,这有助于深入了解材料的新阶段。
这篇论文题为“利用可解释和无监督的机器学习来解决来自现代X射线衍射的大数据”,于6月9日发表在《美国国家科学院院刊》上。
康奈尔大学的物理学家和计算机科学家合作构建了一种无监督和可解释的机器学习算法,XRD温度聚类(X-TEC)。然后,研究人员应用X-TEC来研究焦绿素氧化物金属Cd的关键元素。Cd2Re2O7.
X-TEC在几分钟内分析了8TB的X射线数据,跨越了15,000个布里渊区(唯一定义的细胞)。
“我们使用无监督机器学习算法,这些算法非常适合将高维数据转换为对人类有意义的集群,”康奈尔大学鲍尔斯计算与信息科学学院计算机科学教授Kilian Weinberger说。
通过这种分析,研究人员发现了对材料中电子行为的重要见解,检测了所谓的伪戈德斯通模式。他们试图了解原子和电子如何有序地定位自己,以优化电子和原子的天文大“群落”中的相互作用。
“在复杂的晶体材料中,多个原子的特定结构,即单元细胞,像在高层公寓大楼中一样以规则的排列重复,”Kim说。“我们发现的重新定位发生在整个建筑群的每个公寓单元的规模上。
她说,由于单元的排列保持不变,因此很难通过从外部观察来检测这种重新定位。然而,重新定位几乎自发地打破了连续的对称性,这导致了伪戈德斯通模式。
“伪戈德斯通模式的存在可以揭示系统中的秘密对称性,否则很难看到,”金说。“我们的发现是由X-TEC实现的。
Kim说,这一发现之所以重要,有三个原因。首先,它表明机器学习可用于分析大量的X射线粉末衍射(XRD)数据,作为X-TEC扩展应用的原型。X-TEC作为软件包提供给研究人员,将作为先进光子源和康奈尔大学高能同步加速器源的分析工具集成到同步加速器中。
其次,这一发现解决了关于Cd物理学的争论。Cd2Re2O7。
“据我们所知,这是使用XRD检测Goldstone模式的第一个实例,”Kim说。“这种对复杂量子材料波动的原子尺度洞察将只是回答伴随任何新物质相发现的关键科学问题的第一个例子......使用信息丰富的大量衍射数据。
第三,这一发现展示了物理学家和计算机科学家之间的合作可以取得的成就。
“机器学习算法的数学内部工作原理通常与物理学中的模型没有什么不同,而是应用于高维数据,”Weinberger说。“与物理学家一起工作很有趣,因为他们非常擅长模拟自然世界。在数据建模方面,他们真正开始运作。
更多信息:Jordan Venderley等人,利用可解释和无监督的机器学习来解决现代X射线衍射中的大数据,美国国家科学院院刊(2022)。DOI: 10.1073/pnas.2109665119
期刊信息:美国国家科学院院刊
| 留言与评论(共有 0 条评论) “” |