当前位置：首页 > article >正文

计算材料学驱动新型硅光伏材料发现：进化算法与机器学习融合设计

article 2026/5/24 5:15:10

1. 项目概述当计算材料学遇上光伏革命在光伏领域硅材料长期占据着主导地位这得益于其储量丰富、工艺成熟和稳定性好。然而传统晶体硅金刚石结构一个众所周知的“阿喀琉斯之踵”是其间接带隙特性。这意味着电子在吸收光子从价带跃迁到导带时不仅需要能量匹配还需要动量的改变这个过程通常需要声子晶格振动的参与。这直接导致了两个关键问题一是光吸收系数较低需要更厚的材料才能充分吸收太阳光二是非辐射复合几率增加限制了其理论光电转换效率。因此寻找具有直接或准直接带隙的新型硅同素异形体成为突破硅基太阳能电池效率瓶颈的一条极具吸引力的路径。但问题在于如何在近乎无限的原子排列可能性中高效地“大海捞针”找到那些既稳定又具备理想带隙的硅结构这正是计算材料学大显身手的舞台。近年来进化算法与机器学习方法的结合为高通量、智能化的新材料发现提供了强大引擎。进化算法模拟自然选择过程通过“变异”、“交叉”和“选择”在庞大的构型空间中探索能量较低的稳定结构而机器学习则能从已有的计算数据中学习规律快速预测新结构的性质极大地加速了筛选过程。本项工作正是这一前沿交叉领域的典型实践我们并非在实验室里合成样品而是在超级计算机的“虚拟实验室”中利用进化算法“演化”出数千种可能的硅晶体结构再结合高精度量子力学计算和机器学习模型从中精准定位了20种极具潜力的候选材料。这项研究的核心价值在于它提供了一套从“无”到“有”的完整计算发现流程。我们不仅找到了新材料更重要的是验证了其可行性通过声子谱分析确认了动力学稳定性通过弹性常数计算评估了机械性能并通过求解Bethe-Salpeter方程计算了光学性质。最终我们利用光谱限制最大效率这一贴近实际器件物理的指标进行评估发现多个结构的理论效率超越30%其中Si22结构在薄膜条件下表现尤为突出。这为实验合成与器件设计提供了明确、可靠的理论靶标。2. 核心方法论多尺度计算与智能筛选的融合2.1 技术路线总览从粗筛到精炼我们的研究遵循一个分层递进的计算筛选流程旨在平衡探索广度与计算精度。整个流程可以概括为“两步进化搜索 → 高精度优化与验证 → 机器学习预测”的三阶段策略。第一阶段基于进化算法的结构初筛。我们使用USPEX代码进行了两轮独立的晶体结构预测搜索。第一轮搜索采用计算效率较高的自洽电荷密度泛函紧束缚方法DFTB来计算结构的焓值作为适应度函数在2至45个原子/原胞的范围内进行探索。DFTB方法虽然精度不及第一性原理但其速度优势允许我们在合理时间内扫描数千种构型。第二轮搜索则采用了高斯近似势GAP这是一种基于机器学习训练的势函数其计算速度比DFTB更快使我们能够探索更大的体系。两轮搜索共产生了1363个独特的硅结构初选池。注意在材料发现中计算方法的“性价比”至关重要。在初筛阶段使用DFTB或GAP这类近似方法是为了快速排除能量过高即极不稳定的结构将计算资源集中在最有希望的候选者上进行后续高精度计算。这是一种典型的“先广度后深度”的计算策略。第二阶段高精度计算与稳定性验证。对初筛出的结构我们使用Quantum Espresso软件包采用更精确的投影缀加平面波PAW方法和PBEsol交换关联泛函进行结构弛豫即让原子位置和晶胞参数优化到受力为零的平衡状态。随后关键的一步是带隙计算。由于标准DFT如PBEsol会系统性低估半导体带隙我们采用了三级验证快速估算使用专门为硅带隙计算优化的DFTB参数集si-band Slater-Koster进行快速扫描。高精度验证选取有潜力的结构使用杂化泛函HSE和GW方法进行精确计算。GW方法被认为是计算准粒子能带的“金标准”但计算成本极高。交叉验证通过对比发现优化后的DFTB方法在带隙计算上与HSE/GW结果吻合良好均方根误差约0.04 eV从而证明了其在后续大规模筛选中的可靠性。稳定性方面我们通过计算弹性常数评估机械稳定性和声子谱评估动力学稳定性进行双重保障。特别是对于Si40和Si36(I)这类多孔结构我们还专门计算了它们在±5 GPa压力下以及不同体积下的声子谱确认其在晶格畸变下仍无虚频即稳定。第三阶段机器学习模型构建与性质预测。为了建立从结构到带隙的快速预测模型我们尝试了多种机器学习算法神经网络NN、卷积神经网络CNN、支持向量回归SVR、随机森林RF、XGBoost等。输入特征主要分为两类一类是基于结构的几何描述符如多体张量表示MBTR和原子位置平滑重叠SOAP另一类是从DFT单点能计算中提取的物理特征如总能、费米能、SCF带隙、特定k点的能带值等。结果表明基于DFT输出特征训练的模型预测精度远高于基于纯几何描述符的模型。2.2 关键算法与计算细节剖析2.2.1 进化算法USPEX的工作机制USPEX的核心思想是模拟生物进化。初始时随机生成一批例如250个晶体结构作为“第一代种群”。每个结构的“适应度”由其焓值或形成能决定焓值越低意味着越稳定适应度越高。随后算法进行迭代选择筛选出适应度高的“父代”结构。遗传交叉将两个父代结构的片段进行组合产生“子代”结构。变异对结构进行随机扰动如原子位移、晶格应变、对称性操作等引入新的变化。补充加入少量全新的随机结构保持种群多样性。迭代用新生成的子代结构组成下一代种群重复上述过程直至找到收敛的稳定结构或达到预设代数。在我们的设置中第一轮DFTB搜索进行了100代种群规模200第二轮GAP搜索进行了200代种群规模250。并设置了“30代无改进则停止”的早停准则以提高效率。2.2.2 带隙计算方法的取舍为什么需要这么多不同的方法计算同一个性质这背后是精度与成本的权衡。PBEsol-DFT用于结构弛豫和能量计算很可靠但带隙严重低估对于硅通常计算值约0.6 eV远低于实验值1.1 eV。HSE杂化泛函混合了部分精确交换能能显著改善带隙预测计算量比标准DFT高1-2个数量级。GW方法基于多体微扰理论能给出非常精确的准粒子带隙但计算量比HSE还要高出一个数量级通常只用于最终验证少数关键结构。DFTBsi-band参数通过专门针对硅带隙优化的参数可以用极小的计算代价获得与HSE/GW接近的结果适合用于对上千个结构进行快速初筛。我们的策略是用DFTB快速扫描所有候选结构挑出带隙落在目标区间0.93-1.61 eV的再用HSE和GW对其中最有希望的进行精确复核。实测证明这套组合拳是高效且可靠的。2.2.3 稳定性判据的物理意义一个在计算中能量较低的结构未必能在现实中存在。它必须同时满足力学稳定性晶体的所有独立弹性常数必须满足Born-Huang准则例如立方晶体的C11|C12|, C440。我们计算了体弹模量B、剪切模量G、杨氏模量E等。B/G比值和泊松比ν可用于判断材料的脆韧性B/G 1.75 或 ν 0.26 通常表明材料具有延展性。动力学稳定性声子谱中不能出现虚频负的频率。虚频意味着在对应的原子振动模式上结构处于势能曲线的鞍点而非极小值点任何微小扰动都会导致结构畸变直至瓦解。我们利用hipHive代码基于机器学习力场高效计算了所有候选结构的声子谱。3. 候选结构发现与性能分析3.1 结构筛选与分类经过前述流程我们从1363个初始结构中逐步筛选出20个满足Shockley-Queisser极限带隙0.93-1.61 eV且为直接或准直接带隙的独特硅同素异形体。图2展示了它们的球棍模型空间群信息见表4。这些结构在原子堆积方式上呈现出丰富的多样性其中8个结构如Si40, Si12(II), Si36(I)等被归类为多孔晶体其内部存在由四元环、五元环或六元环连接形成的孔道。这种多孔性带来了两个直接影响一是密度显著降低如Si40密度仅为1.54 g/cm³远低于金刚石硅的2.33 g/cm³二是弹性模量降低材料变得更“软”。表4的数据显示多孔结构Si40和Si36(I)的体弹模量和剪切模量明显低于其他致密结构。从热力学稳定性看相对焓值ΔH是一个关键指标。Si12(III)的ΔH最低0.0028 eV/atom是最稳定的亚稳相其能量仅比金刚石硅高一点点。Si20(II)和Si28也非常稳定。而多孔结构Si36(I)和Si40的ΔH较高说明其合成可能需要非平衡条件如高压、气相沉积等但这在材料科学中很常见例如许多亚稳相金刚石就是在高压下合成的。3.2 电子结构与带隙特性表2汇总了20个结构通过DFTB、HSE和GW三种方法计算的带隙值并标注了其直接D或准直接QD属性。直接 vs. 准直接带隙这是本研究的核心。直接带隙半导体中价带顶和导带底在动量空间k空间处于同一点电子跃迁无需声子辅助光吸收效率极高。准直接带隙是指直接带隙与间接带隙的能量差很小通常小于0.15 eV在这种情况下直接跃迁仍占主导地位材料表现出类似直接带隙的光学性质。我们的筛选标准正是基于此要求带隙落在SQ极限区间且为直接或准直接类型。从表2和表3可以看出Si12(II), Si14, Si22等11个结构被明确为直接带隙半导体。Si12(I), Si12(III), Si40等9个结构为准直接带隙半导体其直接带隙与间接带隙的差值Ed_g - Eg均小于0.15 eV。值得注意的是GW和HSE方法对个别结构的分类存在细微差异如Si16(IV), Si18(II)这反映了不同理论方法的细微差别但所有结构的带隙值都落在了理想的光伏窗口内。3.3 光学性质与光伏效率评估判断一个材料是否适合做太阳能电池光吸收特性是重中之重。我们通过求解Bethe-Salpeter方程在GW近似的基础上计算了材料的复介电函数虚部ε₂(ω)它直接反映了材料对不同能量光子的吸收能力。图4展示了部分有前景结构的吸收谱并与金刚石硅和砷化镓GaAs一种高效直接带隙光伏材料以及AM 1.5太阳光谱进行了对比。一个清晰的结论是所有新发现的硅同素异形体在低能光子区域约1-2 eV即太阳光谱的峰值区域的吸收能力都显著优于金刚石硅。其中Si12(I), Si14, Si22, Si18(I)等结构的吸收谱甚至与GaAs媲美或更优。这意味着它们可以用更薄的厚度实现与厚晶体硅相当甚至更好的光捕获。然而高吸收率只是高效电池的必要条件之一。载流子产生后能否被有效收集并转化为电能还受限于非辐射复合等因素。光谱限制最大效率SLME是一个更贴近实际器件物理的指标它综合考虑了材料的吸收谱、辐射复合、非辐射复合通过参数fr体现以及器件厚度和温度。图5和图6展示了SLME的计算结果这是本研究最激动人心的发现之一在500 nm的薄膜厚度下这是薄膜太阳能电池的典型尺度多个结构的SLME超过了30%。Si22结构脱颖而出其SLME高达32.67%显著高于同等厚度下金刚石硅的效率。Si20(II), Si12(III), Si40, Si18(I)的效率也均超过30%。图5的曲线显示随着厚度增加这些材料的效率优势更加明显。例如在10微米厚度时大部分新结构的效率已接近或超过其SQ极限值而金刚石硅的效率仍远低于其SQ极限这凸显了直接/准直接带隙在体材料中的优势。3.4 最具应用潜力的结构点评综合稳定性、带隙、光学吸收和SLME效率我们可以筛选出几个“明星”候选材料Si12(III)“稳定之王”。它是所有新结构中最稳定的ΔH最低GW带隙为1.34 eV接近SQ极限最优值1.34 eVSLME达31.64%。它是兼顾稳定性与高性能的平衡之选。Si22“效率冠军”。SLME最高32.67%GW带隙1.34 eV吸收谱优异。虽然其相对焓稍高0.138 eV/atom但仍处于可接受的亚稳态范围。Si40“多孔柔性潜力股”。独特的孔道结构使其密度低、具备延展性B/G2.156可用于柔性光伏器件。其GW带隙稳定在1.35 eVSLME为31.14%。更重要的是其能量-体积曲线图3非常平缓意味着它可能对晶格畸变不敏感具有良好的结构鲁棒性。Si20(II) 和 Si18(I)两者都具有高SLME30%和良好的稳定性是强有力的备选。实操心得在评估材料潜力时必须多维度综合考量。一个材料带隙完美但极不稳定难以合成或非常稳定但带隙不合适都缺乏应用价值。本研究通过系统性的计算提供了能量、力学、动力学、电子、光学乃至器件效率的全方位“体检报告”使得后续的实验验证目标非常明确。4. 机器学习模型的构建与启示4.1 特征工程从原子坐标到可学习的数字机器学习模型预测材料性质第一步也是最重要的一步是特征表示——如何将三维的原子结构转化为一组机器能够理解的数字特征向量。我们对比了三种策略几何结构描述符MBTR/SOAP这类方法直接从原子的笛卡尔坐标出发。MBTR多体张量表示是一种全局描述符它通过计算原子对、三元组等的距离和角度分布函数生成一个固定长度的向量来表示整个晶体。SOAP平滑重叠原子位置则是一种局部描述符它先为每个原子创建一个描述其局部化学环境的“指纹”然后通过对所有原子的指纹进行加和或变换来得到全局表示。在我们的任务中由于所有结构都是纯硅化学成分信息无效因此完全依赖几何描述符。DFT输出特征我们直接从DFT计算的一次输出文件中提取了24个物理量作为特征。这些特征包括体系总能量、费米能、SCF计算得到的带隙scf_gap、在Gamma点动量空间原点的前几个价带和导带的能量值Γ_Ei,Γ_E′_i、体积以及能量分解项如Hartree能、交换关联能、Ewald能等。表5的RMSE结果清晰地表明基于DFT输出特征训练的模型其预测精度测试集RMSE 0.21 eV, R² 0.80远优于基于MBTR或SOAP描述符的模型测试集RMSE 0.34 eV, R² ~ 0.5。随机森林RF、XGBoost和卷积神经网络CNN结合DFT特征表现最佳。4.2 模型解读与特征重要性分析为什么DFT特征如此有效通过分析模型的Shapley值一种解释机器学习模型预测结果的特征贡献度的方法我们发现了一个关键线索在所有优秀模型中scf_gap即PBEsol-DFT计算得到的带隙都是最重要的特征。这背后有深刻的物理直觉。尽管PBEsol-DFT系统性低估带隙绝对值但它所反映的电子能带结构的相对变化趋势、能带间的能量差序关系与高精度方法HSE/GW计算得到的真实准粒子带隙之间存在强烈的相关性。scf_gap这个看似“不准确”的值实际上包含了关于材料电子结构最核心的、定性的信息。其他DFT输出特征如特定k点的能级、各种能量分量则提供了关于键合强度、电子分布等补充信息。相比之下纯几何描述符MBTR/SOAP虽然完整编码了结构信息但它们与目标性质带隙之间的映射关系更为复杂和非线性机器学习模型需要从零开始学习这种映射在数据量有限本研究约200个数据点的情况下其表现自然不如直接使用蕴含物理信息的特征。注意事项这一发现对计算材料学中的机器学习应用具有重要启示。在构建预测模型时融入领域知识物理、化学直觉进行特征工程往往比依赖通用的、黑箱式的结构描述符更有效。特别是在数据稀缺的情况下好的特征能极大降低模型的学习难度提升预测能力和可解释性。4.3 机器学习在材料发现中的定位在本工作中机器学习扮演了两个角色快速预测工具训练好的模型如“DFT输出XGBoost”可以在几秒钟内预测一个新硅结构的带隙而无需进行昂贵的HSE或GW计算。这可以用于对进化算法产生的新结构进行预筛选进一步加速探索流程。规律发现助手通过特征重要性分析我们确认了scf_gap与真实带隙的强关联这加深了我们对不同计算层级之间关系的理解。然而必须清醒认识到当前机器学习模型的成功严重依赖于前期高精度DFT计算产生的“高质量标签数据”。它尚未取代量子力学计算作为“第一性原理”的地位而是作为一个强大的“加速器”和“插值器”集成在工作流中。未来的方向可能是发展更强大的、融合了物理定律的图神经网络使其能够直接从原子结构端到端地预测性质甚至与进化算法形成闭环主动建议新的、有潜力的结构去计算。5. 多孔结构的带隙调控与合成展望5.1 孔道尺寸与量子限域效应在对多孔结构Si40的研究中我们观察到一个有趣的现象通过进化算法我们基于其六方对称性和孔道特征衍生预测了Si24和Si60结构图7。计算它们的HSE带隙发现Si24 (1.57 eV) Si40 (1.35 eV) Si60 (0.76 eV)。带隙随着孔道半径的增大而单调减小。这可以用量子限域效应来理解。在多孔硅或硅纳米线中当材料的某个维度尺寸减小到与激子玻尔半径相当时电子和空穴的运动在受限方向上被量子化导致有效带隙增大。在我们的多孔晶体中孔道壁可以看作是由硅原子构成的“薄壁”壁的厚度或孔道的尺寸决定了量子限域的强度。Si24的孔道最小限域效应最强带隙最宽Si60的孔道最大限域效应最弱带隙最窄更接近体材料的性质。这一发现揭示了一种通过结构设计来“裁剪”材料带隙的可行途径。通过合理设计孔道的尺寸、形状和排列理论上可以实现对硅材料带隙从近红外到可见光范围的连续或离散调控这为设计多功能光电器件如可调谐探测器、发光器件提供了新的思路。5.2 实验合成的挑战与可能路径计算预测的最终价值需要实验验证。这些新型硅同素异形体大多属于亚稳相其合成充满挑战但也并非无迹可寻。结合近年来亚稳材料合成的进展可能的路径包括前驱体路径法寻找一种具有与目标硅同素异形体相似拓扑结构的硅化物或硅基合金作为前驱体。通过选择性去除合金中的其他元素如脱合金、化学刻蚀留下硅的骨架。这种方法在合成一些硅笼状结构或层状硅烯时已有成功先例。高压高温合成许多亚稳相是在高压下被发现的。高压可以改变硅的相图使得在常压下不稳定的结构变得可及。例如金刚石结构的碳钻石就是在高压下由石墨转化而来。合成后通过快速淬火可能将高压相“冻结”到常压。薄膜外延生长在合适的单晶衬底上通过分子束外延MBE或化学气相沉积CVD等方法可能实现某些与衬底晶格匹配度高的新型硅结构的异质外延生长。衬底提供的模板效应可以诱导硅原子按特定的非金刚石结构排列。纳米晶/团簇组装首先在气相或溶液中合成具有特定原子数如Si22, Si40的硅纳米团簇这些团簇本身可能就具有与目标体材料相似的原子构型。然后通过温和的条件如自组装、模板导向将这些“建筑模块”组装成扩展的晶体。这种方法对Si22、Si40这类原子数明确的结构尤其有吸引力。常见问题与排查思路实验合成中最大的挑战是相纯度。即使合成了目标相也极易混有金刚石硅或其他亚稳相。表征时需结合多种手段X射线衍射XRD或电子衍射确认晶体结构拉曼光谱提供键合振动信息透射电子显微镜TEM观察微观形貌和孔道紫外-可见吸收光谱或光致发光光谱直接测量带隙并与计算值对比。若实验测得的带隙与计算值偏差较大需考虑表面态、缺陷、杂质或应力等因素的影响。6. 总结与展望从计算预测到产业应用的漫漫长路这项研究系统性地展示了一条利用进化算法和机器学习发现高性能光伏材料的完整技术路径。我们找到了20种具有理想直接/准直接带隙的新型硅晶体其中多个结构的理论光电转换效率突破30%尤其是Si22结构在薄膜形态下展现出了卓越的潜力。这为突破传统晶体硅的效率天花板提供了明确的理论候选材料。然而从计算预测到实验室烧杯再到生产线上的硅片还有很长的路要走。下一步的工作将集中在以下几个层面计算层面可以对候选结构进行更深入的缺陷物理计算了解其本征点缺陷如空位、间隙原子的形成能和迁移率这关系到材料的掺杂特性和载流子寿命。还可以计算其载流子有效质量、迁移率等输运性质评估其制成器件后的导电性能。实验层面如前所述合成是首要挑战。需要材料化学家和凝聚态物理学家通力合作探索可行的合成路线。一旦成功合成出克级甚至毫克级的样品即可进行全面的光电性能测试制备原型器件验证其实际效率。产业展望如果这些材料能被成功合成并证明其高效、稳定它们最可能的应用场景是新一代高效薄膜太阳能电池和叠层电池的底层电池。其直接带隙特性允许使用极薄微米甚至纳米级的吸收层大幅节省原材料成本。多孔结构带来的低密度和潜在柔性也为开发轻质、可弯曲的柔性光伏组件打开了想象空间。此外这类具有可调带隙的新型硅材料也可能在光电探测器、发光二极管等领域找到用武之地。我个人在从事计算材料设计时的一个深刻体会是最好的预测模型永远扎根于对物理机制的深刻理解。就像本研究中发现的scf_gap特征的关键性一样机器学习不是要取代物理而是要成为物理学家手中更强大的工具。将领域知识、第一性原理计算和数据科学方法深度融合才是加速新材料发现、最终实现“材料按需设计”梦想的必由之路。这项工作是一个漂亮的范例它不仅仅给出了几张可能的新材料“身份证”更提供了一套可复制、可拓展的“寻宝地图”和方法论。

计算材料学驱动新型硅光伏材料发现：进化算法与机器学习融合设计

相关文章：

计算材料学驱动新型硅光伏材料发现：进化算法与机器学习融合设计

昇腾CANN graph-autofusion：Transformer Block 的算子融合深度解析

机器学习与模拟退火算法优化TPMS结构材料力学性能

昇腾CANN ops-math LayerNorm：数值稳定性与 Warp Reduce 优化实战

昇腾CANN ops-blas Batched GEMM：多头注意力的小矩阵乘批处理实战

C#调用Windows软键盘的系统级实现方案

机器学习势函数与元动力学模拟揭示Ni掺杂BaTiO₃提升OER活性机理

高熵合金熔化温度计算：EAM+MTP+FEP混合框架实现高精度低成本预测

可解释机器学习工程化：在端到端ML平台中集成XAI的实践指南

稀疏观测下混沌系统预测：数据同化与机器学习的性能边界

混沌时间序列预测：轻量级方法为何完胜复杂深度学习模型？

ZygiskFrida：安卓逆向的Zygote层动态插桩新范式

符号回归在超快磁动力学研究中的应用：从数据中挖掘物理规律

智能AI图像识别之公共场合人员行为分析深度学习CNN人员行为识别抽烟和打电话图像识别 YOLO玩手机和饮酒目标检测第10397期 (1)

智能AI图像识别之工地积水识别数据集道路积水数据集管道泄漏漏水数据集图像yolov8图像数据集积水识别yolo第10260期

机器翻译中的自校正方法：利用模型动态知识应对语义错位噪声

从Kaggle竞赛到业务落地：GBM特征重要性到底怎么看？用Python实战教你做模型可解释性分析

从视网膜到脑肿瘤：手把手复现CAS-UNet与DA-TransUNet，搞定医学图像分割的细节与代码

Linkey预取器：链表数据结构的高效内存访问优化

红外图像识别遥感图像检测 yolo11红外小目标检测与红外无人机视角行人和车辆检测

基于QR分解与肘部法则的稀疏传感器优化布置方法

SSH连接报kex_exchange_identification的4步根因定位法

Proxmox断电后启动失败深度复盘：不只是GRUB，LVM卷组损坏才是元凶

DPmoire：为莫尔超晶格定制高精度机器学习力场的自动化方案

机器学习地球系统模型评估：从物理一致性到标准化框架

Keil MDK许可证错误解决方案与调试技巧

MoE-GPS框架：动态专家复制的负载均衡优化策略

数值自举与弦论振幅：用SDPB最小化纠缠矩定位开超弦

Arm嵌入式工具链全解析：从获取到优化

ET框架：Unity游戏服务端的工业级架构实践