在合成有機(jī)分子和天然產(chǎn)物中,結(jié)構(gòu)的確定是一項(xiàng)非常具有挑戰(zhàn)性的工作。結(jié)構(gòu)上接近的異構(gòu)體和非對映異構(gòu)體在1D NMR光譜中的差異非常細(xì)微,要想?yún)^(qū)分它們得耗費(fèi)大量的時間和精力。
利用計算機(jī)進(jìn)行核磁譜圖識別給研究者提供了大量幫助,其原理是基于密度泛函理論(DFT)計算所有不確定結(jié)構(gòu)非對映異構(gòu)體的核磁位移,并使用相關(guān)系數(shù)、平均絕對誤差(MAE)和校正平均絕對誤差(CMAE)等參數(shù)將這些預(yù)測結(jié)果與已公布的光譜數(shù)據(jù)進(jìn)行比較。其中,DP4分析是一種特別強(qiáng)大的工具,它不僅可以預(yù)測分子的立構(gòu)化學(xué)特性,還可以給出每個可能結(jié)構(gòu)是否正確的概率,在天然產(chǎn)物及藥物合成中已有成功應(yīng)用。
自發(fā)布以來,DP4的計算過程已經(jīng)進(jìn)行了極大的簡化,用戶輸入越來越少。但是,最耗費(fèi)用戶精力的仍然是NMR譜圖的歸屬問題,這不僅非常耗時費(fèi)力,而且容易出錯。
少數(shù)商用軟件,如Mestrelab?Mnova,雖然為1H NMR譜圖提供了歸屬算法,但無法對原始NMR數(shù)據(jù)進(jìn)行自動處理和歸屬。
成果介紹
基于以上分析,劍橋大學(xué)Jonathan M. Goodman教授課題組針對1H和13C NMR原始數(shù)據(jù),提出了一種譜圖自動處理和歸屬方法DP4-AI,它可以自動進(jìn)行有機(jī)分子立構(gòu)化學(xué)特性和結(jié)構(gòu)歧義的預(yù)測。研究發(fā)現(xiàn)NMR-AI可以在1分鐘左右的時間處理完NNR原始數(shù)據(jù),而此前同樣的任務(wù)大約需要8個小時,速率提升了480倍,每天可以處理的分子數(shù)量增加了60倍,這使得高通量NMR譜圖分析成為可能,為通過機(jī)器學(xué)習(xí)發(fā)現(xiàn)新的分子結(jié)構(gòu)鋪平了道路。
DP4-AI的結(jié)構(gòu)和計算流程
DP4-AI包含了NMR-AI和PyDP4兩部分,其中NMR-AI負(fù)責(zé)處理用戶輸入的NMR原始數(shù)據(jù),并進(jìn)行化學(xué)位移的歸屬,PyDP4則對這一歸屬正確與否的概率進(jìn)行計算,從而自動闡述分子的立體化學(xué)結(jié)構(gòu)。
DP4-AI對NMR數(shù)據(jù)處理的流程如下:當(dāng)用戶輸入原始NMR數(shù)據(jù)后,程序首先對相和基線進(jìn)行校正,然后從中提取出各個峰的化學(xué)位移值,并計算積分值,利用DFT方法計算每個原子的化學(xué)位移并對其進(jìn)行歸屬,最后DP4分析這種歸屬的概率,同時給出物質(zhì)的化學(xué)結(jié)構(gòu)。
DP4-AI中NMR峰的提取過程
在提取1H NMR位移峰時,使用原始數(shù)據(jù)的一階和二階導(dǎo)數(shù)進(jìn)行操作:如果峰的一階導(dǎo)數(shù)為零,二階導(dǎo)數(shù)最小,而且峰值在二階導(dǎo)數(shù)的幅度閾值以上以及第二閾值以下時,則提取該峰。以這種方式進(jìn)行峰值提取時可以將兩個閾值設(shè)置得非常低,在盡可能多地過濾掉噪聲的情況下,盡可能少的丟失信號。
為了避免將噪聲誤認(rèn)為信號峰,研究者開發(fā)了一種利用目標(biāo)模型選擇來消除噪聲的算法。間隔小于18 Hz的提取峰被分組在一起,形成了一個信號區(qū)域,對于每個區(qū)域,使用多個廣義洛倫茲線形函數(shù)構(gòu)建線形模型,每個區(qū)域模型中的參數(shù)進(jìn)行迭代變化,直到模型的積分收斂到相應(yīng)光譜區(qū)域1%以內(nèi)。如果模型的貝葉斯信息低于閾值,則認(rèn)為這些參數(shù)描述的是噪聲,相應(yīng)的峰會被刪除。
DP4-AI中NMR峰的歸屬
研究者認(rèn)為DP4-AI開發(fā)過程中最具挑戰(zhàn)性的工作是歸屬算法的開發(fā),該算法將分子的每個非對映異構(gòu)體中的原子分配給光譜中提取到的峰。研究者采用GIAO方法對不同峰進(jìn)行分配,歸屬算法的核心是計算分配概率矩陣M,該矩陣的元素Mij是計算出的化學(xué)位移i對應(yīng)于實(shí)驗(yàn)峰值j的概率。矩陣M通過匈牙利線性和最小化方法找到最可能的分配結(jié)果。
13?C NMR的算法還考慮了實(shí)驗(yàn)峰的幅度。M中的每一個元素Mij乘以一個從實(shí)驗(yàn)峰值j的幅度得出的權(quán)重因子Aj。13?C NMR光譜中的峰通常分為三組,可以通過幅度來區(qū)分:噪聲、1-原子信號和對應(yīng)于多個等效碳原子的峰。為了捕獲這種變化,研究者估算了譜圖中峰值幅度的概率密度函數(shù),當(dāng)峰值中該函數(shù)的二階導(dǎo)數(shù)的最小值位于其振幅之間時,這些峰分為一組,然后使用每組中的峰數(shù)和結(jié)構(gòu)中預(yù)期的碳原子數(shù)來計算振幅權(quán)重。
DP4-AI的性能評估
研究者為了評估NMR-AI的性能,構(gòu)建了由47個分子(每個分子平均3.49個立構(gòu)中心)組成的測試組,其中包含了各種結(jié)構(gòu)的碳骨架。測試組中包含了天然產(chǎn)物、合成中間體和天然產(chǎn)物的碎片結(jié)構(gòu),以盡可能包含更多類型的有機(jī)分子結(jié)構(gòu)。
為了描述DP4-AI進(jìn)行NMR預(yù)測的誤差概率,研究者測試了四個不同的統(tǒng)計模型,結(jié)果發(fā)現(xiàn)單區(qū)域3高斯模型得出的預(yù)測誤差最優(yōu)。
在最高的測試?yán)碚撍较?,DP4-AI的可靠性與耗時的成對歸屬算法相似,而后者需要一位訓(xùn)練有素的化學(xué)家才能完成。在測試數(shù)據(jù)集中,正確有效的進(jìn)行立體化學(xué)歸屬的概率約為3×10-8,表明DP4-AI的表現(xiàn)非常可靠。最令人印象深刻的是,DP4-AI在32和64個非對映異構(gòu)體中正確對分子NP1和NP2的立構(gòu)化學(xué)特性進(jìn)行了歸屬。
NMR-AI可以在1分鐘左右的時間處理完NNR數(shù)據(jù),而在此之前同樣的任務(wù)大約需要8個小時,這相當(dāng)于每天處理的分子數(shù)量可以增加60倍。
小結(jié)
為了快速有效的處理NMR原始數(shù)據(jù),劍橋大學(xué)Jonathan M. Goodman教授課題組提出了一種譜圖自動處理和歸屬方法DP4-AI,這種方法由NMR-AI和PyDP4兩部分組成,用戶只需要輸入原始的NMR數(shù)據(jù),程序就會自動提取各個峰值,并對其進(jìn)行歸屬,直接給出最可能的分子結(jié)構(gòu)以及這種歸屬的概率。研究者構(gòu)建了由47個分子組成的測試組,發(fā)現(xiàn)程序正確有效的進(jìn)行立體化學(xué)歸屬的概率約為3×10-8,并正確對分子NP1和NP2的立構(gòu)化學(xué)特性進(jìn)行了歸屬。僅需要1分鐘的時間,NMR-AI就可以處理完NNR數(shù)據(jù),與之前的方法相比,速率提高了480倍,每天處理的分子數(shù)量可以增加60倍。
原文鏈接:
https://pubs.rsc.org/en/content/articlehtml/2020/sc/d0sc00442a