别再“炒菜”式合成了!利用自动数据挖掘和机器学习实现 MOF的合成预测



研究背景
金属有机框架(MOF)近几年发展迅速,有研究表明,已发现了超过100000个MOF材料,随着结构类型、结构单元和官能团的不断扩大,这个数字正在快速增加。事实上,可能的MOF结构的化学空间已经超过了数百万个结构,使得无法进行充分的实验研究。
模拟和机器学习(ML)已发展成为指导研究人员通过计算识别研究领域的重要工具。然而,为了合成新的 MOF 结构,研究人员仍然必须依靠他们的经验,采用试错法。这是一个非常具有挑战性的过程,非常耗时,属于劳动密集型工作,并且需要大量资源。因此,寻找一种最佳MOF合成条件的方法是当前加快MOF探索的瓶颈。
到目前为止,ML方法已成功应用于解决有机和无机合成中的问题。然而,MOF的逆合成设计,即自动预测目标MOF结构的合适合成条件仍然是一个未解决的挑战。
工作简介
德国卡尔斯鲁厄理工学院Pascal Friederich和Manuel Tsotsalas等人展示了MOF逆合成设计(从晶体结构到合成条件)的完整ML工作流程。1. 从MOF合成条件及其结构信息相关文献的自动数据挖掘开始;2. 建立和训练ML模型;3. 预测新MOF结构的合成条件并与专家的预测进行比较。
该方法标志着从基于经验和启发式的试错方法向MOF逆合成设计方法转变,最终在自动化实验室中实现MOF的自主合成。

图片来源:Angewandte论文截图

图片来源:Angewandte论文截图
内容详情
该研究中,作者开发了一个自动流程来提取CoRE MOF数据库中所有公开可用MOF结构的合成信息。提取的六个相关参数分别是金属源、连接物、溶剂、添加剂、合成时间和温度。
为了实现这一目标,作者最初对文献段落进行了分类,使用带有字符串搜索方法来识别与每个MOF结构相关的合成段落。在确定合成段落后,使用了ChemicalTagger软件识别句子中的重要单词,并注释段落中短语。为了评估自动提取的SynMOF-A数据库的准确性,作者还生成了手动更正的版本。
除了从MOF文献中检索合成信息外,作者还使用MOF数据库中的晶体学信息文件(CIF)自动提取连接物的结构信息和金属中心的氧化态。最终,将金属源、连接分子、溶剂、添加剂、合成时间和温度以及CIF得到的信息结合到SynMOF数据库中。这项工作的中心假设是,已建立的 SynMOF 数据库可用于训练ML模型,以促进在合成条件下发现相似模式,从而达到预测新MOF结构合成协议的最终目标。

SynMOF数据库。a) SynMOF数据库的数据挖掘;b) 最常见金属源的统计数据和;c) SynMOF 数据库中最常见连接分子的结构;d) 溶剂类型、添加剂和温度之间的关系。(图片来源:Angewandte论文截图)
除了MOF合成条件的详细信息外,SynMOF数据库目前由983个MOF结构组成,提供金属源和有机组分的统计数据。它包含46种不同金属,最常见的氧化态范围为+1至+3。正如预期的那样,大多数MOF结构由过渡金属组成,其中铜和锌占所有金属类型的近50%。在多种有机分子中,最常用的连接分子是多齿羧酸(即苯-1,3,5-三羧酸、苯-1,4-二羧酸和苯-1,2,4,5-四羧酸),含氮碱(即吡啶、三唑和四唑)。
作者发现,在80 °C至160 °C的温度范围内,DMF和水以及它们与其他溶剂的混合物是最常用的溶剂。高于160 °C的温度下的合成主要以水作为单一溶剂。此外,大多数高温(120 °C以上)MOF合成反应是在没有添加剂的情况下进行的,而在低于80°C的温度下,酸性添加剂占主导地位。
MOF结构的输入表示对ML模型的性能至关重要。作者使用两种类型的表示作为ML模型训练的输入:一种是基于连接分子的分子指纹,扩展了金属类型及其氧化态的编码;另一种是Kulik等人开发的MOF表示方法。值得注意的是,MOF领域仍在扩展,随着时间的推移,将会有越来越多的新结构和相应的合成参数可用于训练和细化ML模型,以实现其高性能。
合成时间和温度的预测是通过回归模型实现的,例如随机森林或神经网络。为了预测离散的合成参数,例如溶剂和添加剂,原则上可以使用分类模型。然而,由于多种原因,这被证明是不切实际的:文献中报道了多种可能的溶剂和添加剂,种类繁多,进而导致数据组的严重不平衡。
此外,溶剂的性质可能非常相似,使得它们在合成中可以互换,从而导致解决方案不明确。实际上MOF合成还需要各种溶剂的组合。鉴于此,作者开发了一个ML模型来预测溶剂特性,例如分配系数、沸点等。在溶剂属性空间中进行最近邻搜索会产生与ML模型预测属性相似的可能溶剂列表。这样,新的溶剂可以很容易地加入进来,甚至文献中只出现一次的溶剂也可以用来训练模型。作者还发现区分不同添加剂的主要参数是它们的酸/碱度。因此,可将数据分为三组(酸性、碱性和无添加剂),并使用分类模型进行添加剂预测。

在SynMOF-A数据库上训练的机器学习模型。a) ML工作流程;b)和c) 将ML对训练和测试集的温度和时间预测与文献中提取的初始数据进行比较;d) 温度预测学习曲线;e) 与不同的随机预测方法相比,单溶剂MOF子集的ML溶剂预测准确度;f) 加法分类的训练和测试集性能,其中 A、B 和 N 分别对应于酸、碱和无添加剂;g) 专家对 50个MOF的温度和时间预测的平均值,以评估问题的复杂性(图片来源:Angewandte论文截图)
鉴于作者目前从文献中提取的数据量,发现随机森林模型在所有预测参数中具有最佳性能。神经网络学着随数据集大小的增长更快地做出更好的预测,甚至利用不同合成参数(例如溶剂和温度)之间的相关性,而不是单独预测它们。因此,作者预计在不久的将来,有更复杂的模型优过随机森林模型。
ML模型的任务是将所需添加剂分类为酸性、碱性和无添加剂。虽然在训练集上表现良好,但对看不见的测试数据的泛化受到数据集不平衡的影响(大多数数据库条目不使用添加剂)。作何使用训练数据点的平衡校正权重,这样预测可以很好地区分涉及碱性和酸性添加剂的合成过程。然而,酸性和无添加剂或碱性和无添加剂之间的区别不太明显。原因之一可能与添加剂的种类和功能等隐藏变量有关:其中一些(无机酸和碱)具有调节pH的作用,而另一些(有机酸和碱)也参与调节财政部的增长。此外,添加剂的浓度和强度是附加的重要参数,影响添加剂的作用。未来大量的训练数据将使我们的 ML 模型的加性表示和改进成为可能,从而为合成条件预测开辟新的前景。
作者开发了一个网站,可利用该模型预测MOF的合成条件,可以通过https://mof-synthesis.aimat.Science/获得。用户可以上传自己的MOF CIF。然后,网络工具预测相应MOF的合成条件,包括合成温度、时间、溶剂和添加剂等(酸、碱或不加添加剂)。
总结
作者建立了一个SynMOF数据库,通过NLP方法自动提取数据,提供了900多个MOF的合成条件和结构信息,并基于这些数据训练ML模型来识别MOF的合成模式。
作者预计创建的SynMOF数据库将推动MOF领域的NLP研究。即使在初始阶段,ML模型也比MOF专家的合成预测要好,这既体现了合成过程背后的复杂性,也体现了开发数字预测工具的迫切需求。
该自动化按需合成预测将极大地加速发现新MOF,并为MOF领域和其他领域提供宝贵的应用工具。
附:
参考文献:MOF Synthesis Prediction Enabled by Automatic Data Mining and Machine Learning. Angew. Chem. Int. Ed. 2022.
文献链接:https://onlinelibrary.wiley.com/doi/10.1002/anie.202200242
活动预告
NEW


往期热点推荐
(点击链接阅读)
☞突发!美国对电池巨头下手了!
☞14家锂电上市公司按月披露1-2月预喜业绩!
☞重磅!蔚来、小米汽车将采用比亚迪电池!
☞豪掷490亿!大众投建最新电池工厂!
☞BYD战投30亿!又一“锂王”来了
☞锂电池引发室内火灾,新日股份被判赔偿!
☞宁德时代动力电池价格上涨20000元!
☞总投资692亿元!超大储能全产业链项目来了!
☞锂电独角兽,继续大扩产!
☞两会观点|“专利权滥用”恶意竞争要避免!
报料及投稿 | editors@ofweek.com
  广告及商务合作 | 焦小姐:19168597392/0755-83279005-870

加入锂电行业交流群
长按二维码,备注“姓名-公司-岗位”申请入群。
戳“阅读原文”报名参加OFweek 2022锂电池(动力&消费)产业大会
到顶部