1月28日,華中農業大學玉米團隊在Molecular Plant上發表了題為“GEFormer: a Genomic Prediction Method of Genotype-Environment Interaction in Maize by Integrating Gating Mechanism MLP and Linear Attention Mechanism”的研究論文。該研究開發了一種融合門控機制MLP與線性注意力機制的玉米基因型與環境互作的基因組預測方法GEFormer。
眾所周知,玉米、水稻等作物的田間表型是由基因型與環境共同作用的結果。基因組預測算法研究有助于縮短育種周期和提高田間育種效率。然而,現有的方法并未考慮環境對作物生長的影響,導致在多環境實驗中基因組預測的效果有待于提升。因此,有必要在基因組預測中考慮基因型與環境的相互作用,進而提高作物田間表型預測的準確率。
華中農業大學玉米團隊研究開發的GEFormer方法包括三個功能模塊,其中,門控機制MLP模塊(gMLP)用于局部和全局兩個維度提取基因型(SNP)數據特征,進而捕獲SNP位點間的長距離依賴關系。時序特征模塊(TimeFeatureBlock)通過完全動態卷積(ODconv)融合每天內不同環境因子間的特征,并采用線性注意力機制提取作物生育期內每天之間環境因子的時序性特征。交互門控多層感知器(CrossGatedMLP)用于融合提取的基因型特征與環境特征,進而捕獲不同組學數據間隱藏的復雜非線性關系(圖1)。
圖1. GEFormer模型流程圖
結果表明,GEFormer在未測試基因型在測試環境(M1)、未測試環境下測試基因型(M2)和未測試環境下未測試基因型(M3)三種實驗方案的多個物種(玉米、水稻、小麥)多套群體的預測準確率優于現有的基因組預測方法。GEFormer可以捕獲影響玉米復雜性狀的基因型和環境因子特征,在不同環境的預測性能較為穩定,且在不同環境和不同材料的預測中有較好的泛化能力。研究人員利用三個應用場景剖析了GEFormer在真實作物育種中的應用潛力。第一,提出了一種優化訓練群體的最優環境組合策略,進而較精準的預測未知環境的表型。基于預測的多環境中的表型值,進而輔助篩選在多環境中高產且穩產的玉米材料(圖2)。實驗結果表明,GEFormer模型篩選高產材料的準確率遠高于隨機篩選結果。
圖2. GEFormer預測玉米CUBIC1404自交系未知環境中產量的結果分析
第二,在玉米自交系預測雜交種表型方面具有潛力。研究人員基于玉米親本材料構建訓練群體,以及利用雜交F1材料構建測試群體,并將訓練群體分為僅用母本材料和父母本材料兩種情況進行實驗。結果表明,基于父母本材料構建的模型預測雜交種F1群體(6210)株高(PH)、產量(EW)和開花期(DTA)的平均準確率高于僅用母本材料訓練的模型。研究人員通過t-SNE將GEFormer不同特征提取層捕獲的特征降為2維平面特征,解析不同材料的特征在空間距離中的復雜變化。此外,通過t-test檢驗解析不同特征提取層捕獲的特征對玉米表型影響的顯著性進行分析。結果表明通過使用母本和父本數據訓練的模型能夠捕獲基因型、環境因子和基因型-環境交互更復雜的非線性特征,因此預測準確率更高(圖3)。最后,通過GEFormer模型實現跨群體預測雜交種的表型,結果表明結合自交系和雜交種材料可以顯著提高自交系或雜交種材料的表型預測準確率。
圖3. GEFormer不同特征提取層捕獲的材料特征的二維可視化和特征-表型(玉米6210群體的產量)的顯著性分析結果
綜上,該研究從基因型與環境互作的角度,提出了一種融合門控機制MLP與線性注意力機制的基因組預測方法GEFormer。與現有的基因組預測方法相比,GEFormer在不同表型的預測中具有更高的準確性,且在不同環境和材料的預測中具有較好的泛化能力。同時,該研究開展了GEFormer預測未知環境表型的準確率、基于自交系預測雜交種的表型、跨群體表型預測三個場景中的應用,并對預測模型捕獲的生物學特征進行了分析。未來可以集成更多群體的數據集,有望突破不同遺傳背景群體間的瓶頸。
該研究得到了華中農業大學作物遺傳改良全國重點實驗室嚴建兵教授和肖英杰教授的支持、指導和幫助。博士研究生姚州、本科生姚夢婷為論文的共同第一作者,劉建曉副教授為論文通訊作者。課題組王創、李可、郭竣豪等參與了該研究。課題組朱力、丁新茹、謝傲、李全等同學為研究提供了幫助。該研究得到了農業生物育種國家科技重大專項等項目的資助。