龙空技术网

「数据库+GN模型+OA」进行晶体结构预测,计算成本低三个数量级

ScienceAI 148

前言:

今天咱们对“并行pso算法相关c程序”都比较珍视,小伙伴们都需要了解一些“并行pso算法相关c程序”的相关知识。那么小编在网络上网罗了一些对于“并行pso算法相关c程序””的相关资讯,希望各位老铁们能喜欢,各位老铁们快快来了解一下吧!

编辑/凯霞

晶体结构预测(CSP)的目标是使用给定分子(包括中性分子和离子)的结构,预测出一定温度和压力条件下热稳定性最好的晶体结构。晶体结构预测是凝聚态化学科学中长期以来面临的挑战。机器学习(ML)最近应用于材料的性质预测。

近日,来自复旦大学物理学系龚新高院士和苏州大学能源学院尹万健教授带领的研究团队,报告了一种用于 CSP 的机器学习方法,使用图网络 (graph network,GN) 在给定数据库中建立晶体结构和形成焓之间的相关模型,并使用优化算法(OA)加速寻找具有最低形成焓的晶体结构。

所用方法的框架(数据库 + GN 模型 + OA)是灵活的。该方法中 GN、数据库和 OA 的灵活性促进了该方法的进一步发展和改进。这项研究可能为数据驱动的 CSP 开辟一条新途径。

该研究以「Crystal structure prediction by combining graph network and optimization algorithm」为题,于 2022 年 3 月 21 日,发表在《Nature Communications》上。

CSP 研究现状

在实验合成之前预测给定化学成分的晶体结构引起了凝聚态科学的极大兴趣。早期基于经验规则的尝试提供了对结构的定性描述。由于通过密度泛函理论 (DFT) 进行可靠的能量计算,目前最先进的 CSP 方法主要将 DFT 计算与结构搜索算法相结合,非常耗时。

材料科学中 ML 的进展最近集中在材料性质预测方面,例如形成焓 (ΔH)、吉布斯自由能、带隙、波函数和电子密度、X 射线吸收光谱和相变等。这种方法的准确性接近于量子力学计算的准确性;但计算成本要低几个数量级。

原则上,通过优化 ({Ri}i=1,N,L) 以最小化给定 {vi}i=1,N 的 ΔH,可以使用等式(1)有效地执行 CSP。这种方法用 ML 模型代替了 DFT 计算;因此,它有可能显著加速 CSP。

尽管有这种潜在优势,但基于 ML 的 CSP 的实用方法仍然存在挑战。首先,ML 模型应该对晶体结构有灵敏的响应。其次,将 ML 模型扩展到结构搜索是有问题的,因为搜索过程中的大多数结构候选者都是亚稳态或不稳定的,它们的相对能量对于确定基态结构 (GSS) 至关重要。最后,需要一个与 ML 模型兼容的适当优化算法。

「数据库 + GN 模型 + OA」框架

在这项研究中,研究人员构建了一个框架,在给定的数据库中建立晶体结构及其形成焓之间的图网络 (GN) 模型,然后将该 GN 模型与 CSP 的优化算法 (OA) 相结合。该框架(数据库 + GN 模型 + OA)是灵活的,允许材料数据库、晶体图表示和 OA 的变化。

图 1:GN-OA 方法的流程图。(来源:论文)

开放量子材料数据库(OQMD)版本 1.3 和 Matbench 形成能数据集(MatB)已分别用于训练 GN 模型,随机搜索(RAS)、粒子群优化(PSO)和贝叶斯优化(BO)作为 OA 实现。对不同组合的性能进行了研究和比较,以预测表 1 中列出的 29 个二元化合物的晶体结构。

表 1:GN-OA 与数据库(OQMD 和 MatB)和优化算法(RAS、PSO、BO)的不同组合对 29 种典型化合物的晶体结构预测的性能。

比较研究表明,在 MatB 上结合 BO 训练的 GN 模型,即 GN(MatB)-BO,可以以最佳的精度和极低的计算成本预测晶体结构。

GN 模型

使用两个各自数据库(即 OQMD 和 MatB)中的数据训练 GN 模型,从而产生两个不同的 GN 模型,GN(OQMD) 和 GN(MatB)。通过优化补充表 1 中的超参数,选择每个模型中性能最好的一个,以最小化测试集上 GNpredicted 和 DFT 计算的 ΔH 之间的误差。

图 2:GN 模型的性能。(来源:论文)

结果表明 GN(OQMD) MAE (16.07 meV/atom) 低于 GN(MatB) (31.66 meV/atom)。GN(MatB) 的 MAE 接近之前报告的 32.7 meV/atom。同一 MatB 数据集上 1 meV 的如此微小差异可能源于不同的数据拆分。图 2 中的插图显示 MAE 随着训练数据的数量而系统性下降。OQMD 的更好性能可归因于其更大的数据库(约 320,000 个 DFT 计算的无机化合物数据),是 MatB 的两倍多。尽管 GN(OQMD) 的 MAE 较少,但它在 CSP 上的性能不如 GN(MatB),表明 GN(OQMD) 可能过度拟合。

应用

然后应用 GN-OA 方法来识别表 1 中列出的 29 种化合物的晶体结构。

研究人员分别采用 OQMD 和 MatB 来训练 GN 模型和 RAS、PSO 和 BO 来优化算法。以 CaS 为例,比较 RAS、PSO 和 BO 在 CSP 上的性能与在 MatB 上训练的 GN 模型的性能。

图 3:GN-OA 的过程和性能。(来源:论文)

大多数 PSO 选择的结构在 1500 步后彼此靠近并位于局部最小值的能量附近。相比之下,BO 是一种在利用和探索之间取得平衡的算法。在这种情况下,GN(MatB)-RAS 和 GN(MatB)-BO 分别在第 2503 和第 372 步迭代时找到正确的 GSS,而 GN(MatB)-PSO 在 5000 步内找不到正确的 GSS。对于 GN(MatB)-BO,在第 207 步发现 GSS,晶格常数为 6.50 Å,然后 GN(MatB)-BO 显示出将晶格常数优化为 5.77 Å 的能力,接近 5.72 Å 的 DFT 计算值。

然后将 GN-RAS、GN-PSO 和 GN-BO 的方法应用于 28 种其他化合物的 CSP。结果总结在表 1 中。观察到:(i)与 CaS 所示的情况一样,无论 GN 是在 OQMD 还是 MatB 上训练,CSP 的 OA 精度遵循 BO > RAS > PSO 的顺序;(ii) 无论采用 RAS、PSO 还是 BO,在 MatB 上训练的 GN 模型对 CSP 的准确度通常比在 OQMD 上训练的要好。结果表明,GN(MatB)-BO 的性能最好。

与基于 DFT 的方法相比

准确性和效率是 CSP 方法的两个标准。需要注意的是,当前的 GN-OA 方法在非 100% 预测精度和晶格参数的变化方面的精度不如基于 DFT 的方法。实际上,GN 模型是基于 DFT 计算的数据进行训练的;因此,它无法超越 DFT 结果的准确性。在精度方面,GN(MatB)-BO 完成这些任务的效率远高于基于 DFT 的 CSP,如图 4 所示。在这里,比较了 DFT-PSO 和 GN(MatB)-BO 的计算成本预测 25 种化合物。

图 4:计算成本的比较。(来源:论文)

研究发现, GN(MatB)-BO 的计算成本比基于 DFT 的方法低三个数量级。DFT-PSO 通常需要 60~80 次 DFT 计算才能找到 GSS,这与先前报告的 70 和 120 次 DFT 结构优化以分别找到 GaAs 和 SiO2 的 GSS 一致。

总之,研究人员构建了一个灵活的框架。将该框架应用于预测 29 种典型化合物的晶体结构。对比研究表明,在 MatB 结合 BO 上训练的 GN 模型 [GN(MatB)-BO] 虽然精度低于 DFT 结果,但可以预测晶体结构计算成本比基于 DFT 的方法低三个数量级。

同时,当前 GN-OA 方法的局限性也很明显。在方法论方面,需要进一步发展几个方向,包括晶体结构表征、结构搜索和算法并行化,以更有效地预测更复杂和未知的结构。该研究可能为数据驱动的晶体结构预测开辟一条新途径,而无需在结构搜索过程中使用昂贵的 DFT 计算。

论文链接:

标签: #并行pso算法相关c程序