先进含能材料高通量虚拟筛选系统.docx
《先进含能材料高通量虚拟筛选系统.docx》由会员分享,可在线阅读,更多相关《先进含能材料高通量虚拟筛选系统.docx(22页珍藏版)》请在优知文库上搜索。
1、引言含能材料是一类能够在一定外界刺激下,通过剧烈氧化还原反应释放出巨大能量的特殊反应性物质。自2000多年前中国发明黑火药以来,含能材料为人类的进步和繁荣做出了重大贡献。先进含能材料的能量、感度和热稳定性是最受关注的三个性能。然而,能量、感度和热稳定性之间始终存在着相互矛盾和制约的关系。一般来说,含能材料的高能量总是伴随着机械感度升高和热稳定性降低。因此,发展兼具高能量、低感度和良好热稳定性的新型含能材料仍然是一个巨大挑战。为了指导含能材料的理论设计,人们己经发展出多种经验公式,如用于预测爆轰特性的KamIet-JaCObS公式和用于预测机械感度的硝基电荷方法等。然而,这些经验公式很少能用于实
2、验合成前的含能材料的大规模预筛选,原因是该类公式通常需要进行较为耗时的量子化学计算,而且其泛化能力也难以被确定。长期以来,新型含能材料的发现在很大程度上依赖于科学直觉及反复试错的过程,这种研发模式存在效率低、不确定性高等问题。随着大数据时代的到来,含能材料的研究范式发生了深刻变化。与经验模型相比,机器学习模型通常在准确性、泛化性和处理非线性问题的能力方面表现出优势,因此被广泛应用于材料科学的各个领域。在此,本文展示了一种机器学习辅助的高通量虚拟筛选(HTVS)系统,用于加速发现具有良好能量与安全性平衡的新型含能材料。该HTVS系统将机器学习模型与高通量分子生成相结合,从25112个生成分子中快
3、速筛选出性能优良的目标分子。筛选出的化合物能够表现出类石墨层状晶体堆积结构,这种特定的晶体堆积模式通常表现出更好的能量与安全平衡特性。经过对合成可行性的进一步评估,通过三步反应合成得到了一种性能较好的5,6稠杂环骨架基含能材料一一7,8-二硝基毗唾并1,5司135三嗪-2,4-二胺(本文称为ICM-104)o性能研究表明,含能材料ICM-IO4具有良好的综合性能,包括高能量、低感度和良好的热稳定性等。上述研窕初步证明了所提出的HTVS系统的有效性以及机器学习在设计高性能含能材料方面的巨大潜力。方法(一)数据准备与增强从过去几十年的文献中收集了100o多条含能材料数据,用于训练属性回归模型。该数
4、据集包含具有多种结构的分子,涵盖脂肪族、芳香族、单环和多环化合物(有关详细样本和数据源请参见附录A中的数据集1)。附录A中的图Sl提供了有关数据集的更多特征,如数据分布。在进行模型训练时,将所有数据以80:20的比例随机分为训练数据和测试数据。将训练数据进一步分为训练集和验证集,用于进行五折交叉验证和调整超参数。五折交叉验证是指将验证集划分为5组,每组可用于一次验证,而其余4组用作训练集。最终测试分数是根据在训练过程中未使用的测试数据集计算而得。为了训练分类模型,本研究从剑桥晶体学数据中心(CCDC)获取了365个被标记为“0(表示不具有类石墨层状晶体堆积结构)的样本和22个被标记为(表示具有
5、类石墨层状晶体堆积结构)的样本(见附录A中的数据集2)o显然,现有数据量太小,不适合应用深度学习方法。因此,使用简化分子线性输入规范(SMI1.ES)的枚举技巧进行数据增强,该技巧可以生成多个代表相同分子的不同SMl1.ES字符串。SMl1.ES枚举是一种用于分子深度学习的新型数据增强技术。标记为“0和1的SMI1.ES样本被分别放大了10倍和30倍。数据增强后,总样本量扩大到4000多个。在训练卷积神经网络(CNN)和长短期记忆(1.STM)模型时,保留400个样本作为测试集来评估模型的性能。(二)特征与模型使用RDKit库提取了包括自定义描述符和电拓扑指纹在内的特征(即分子描述符)。属性预
6、测模型通过SC型退earn包中的核岭回归(KRR)算法进行训练。在KRR算法中,预测值(y*)可以表示为,给定一个核函数(k)公式(1)条件下,新样本(x*)与训练样本(x)内积的加权平均()。因此,学习过程中需要使用公式(2)计算系数矩阵(,为的第j个元素),式中X、八4和/分别为样本矩阵、标签矩阵、正则化参数和单位矩阵。使用网格搜索方法和五折交叉验证调整包括核函数在内的超参数。以决定系数R2公式(3),表示标签平均值作为模型二次拟合标准。同时采用平均绝对误差MAE,公式(4)评估模型性能。上述公式中,j和/V分别表示第i个样本和总样本数。N-I(2)(3)y*=fgk(X*,M)i=0平(
7、x,)+咪Yp2-1S(-)!io1(y.-y)N-1MAE=RE卜1.y:|M)分类模型中使用的CNN和1.STM是从Pytorch库中获取的。为了准备输入,从完整数据集包含的全部SMI1.ES提取字典。字典的详细内容如下:N,c,zl,zn,(7)z,+zT,0,o,z,2C,3H,z,4,5zNone(None用于填充)。因此,SMI1.ES字符串被转换为大小为120,23的二维(2D)数组。对于1.STM模型,SMI1.ES的长度限制为120,允许出现的字符与字典的字符相同。此外,CNN包含两个2D卷积层和三个全连接层。2D卷积层的滤波器大小为16和32,而核尺寸均为7。最大池化层的核
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 先进 材料 通量 虚拟 筛选 系统
