近日,深圳研究生院莫凡洋團隊與東方理工大學張東曉團隊合作,通過結合統計學和機器學習方法,首次明確揭示了薄層色譜(TLC)與柱色譜(CC)之間的量化關系。該研究提出了一種知識發現技術、建立了可解釋的公式,將專家經驗(Chemist’s experience)轉化為“人工智能經驗”(AI experience),為色譜分離實驗條件的確定與優化提供了理論支持。相關成果發表于《自然·通訊》(Nature Communications)。
相關工作發表于Nature Communications
薄層色譜和柱色譜都是一種基于色譜原理(Chromatography)的分析分離方法,廣泛應用于合成化學實驗室。在進行柱色譜實驗時,往往需要先進行薄層色譜分析,通過保留因子(RF值)來評估混合物中組分與流動相的相對極性。在實際操作過程中,流動相的組成和比例通常會根據需要進行調整,以確保目標化合物的RF值大致在0.2到0.3之間。這一源于經驗的方法非常有效,然而其背后的原理尚未得到充分闡明,存在“知其然而不知其所以然”的現象,阻礙了研究者對色譜分離化學本質的深入理解。
色譜分離的專家經驗與數據驅動的關系量化
為回應這一科學問題,研究團隊采取以數據為中心的視角,試圖直接從大量實驗數據中識別出薄層色譜與柱色譜之間的潛在耦合關系,并將其表達為簡潔的方程形式。為此,研究團隊開發了一種自動化柱層析平臺,系統采集了不同實驗條件下192種化合物的柱色譜保留體積,共獲得了5984條數據。基于此,研究團隊通過機器學習方法分析了薄層色譜的保留因子(RF值)與柱色譜保留體積之間的關系,并通過符號回歸方法得出了明確的數學公式。
柱色譜的保留時間與薄層色譜的RF值之間關系的公式識別與預測效果
研究揭示了柱色譜中化合物的保留體積分布范圍與其RF值存在的顯式關系。此外,通過遷移學習還可實現該公式在不同色譜柱規格上的推廣。該研究結合機器學習方法,運用AI在識別科學數據集中的模式與關系的能力,破解了化學經驗的“黑箱”,為實驗化學中的色譜分離原理提供了重要的理論支持,有助于確定色譜分離的條件,有望為相關研究帶來更高效的解決方案。