計(jì)算機(jī)化學(xué)將科研工作者從繁重的實(shí)驗(yàn)中解脫出來(lái),利用其強(qiáng)大的數(shù)據(jù)處理能力,幫助科研工作者更快地實(shí)現(xiàn)分子結(jié)構(gòu)設(shè)計(jì)模擬、實(shí)驗(yàn)數(shù)據(jù)處理、合成路徑設(shè)計(jì)等問(wèn)題,在化學(xué)材料領(lǐng)域已經(jīng)有十分廣泛的應(yīng)用。自2016年Alpha Go擊敗人類(lèi)圍棋世界冠軍后,計(jì)算機(jī)化學(xué)領(lǐng)域中的機(jī)械學(xué)習(xí)也進(jìn)入到大眾視野。機(jī)器學(xué)習(xí)可以通過(guò)獲得的實(shí)驗(yàn)數(shù)據(jù)來(lái)優(yōu)化自身算法,使得可以實(shí)現(xiàn)對(duì)實(shí)驗(yàn)結(jié)果的準(zhǔn)確預(yù)測(cè),在化學(xué)材料領(lǐng)域有廣闊的應(yīng)用前景。由此可見(jiàn),計(jì)算機(jī)化學(xué)在化學(xué)材料領(lǐng)域科研工作中占有越來(lái)越重要的地位。

公開(kāi)or保密?計(jì)算化學(xué)遭遇“重現(xiàn)性危機(jī)”

但是,計(jì)算機(jī)化學(xué)現(xiàn)在面臨著重現(xiàn)性危機(jī)。近期,《Chemical World》的科學(xué)記者發(fā)表了相關(guān)文章。2019年10月,一個(gè)天然產(chǎn)物化學(xué)家團(tuán)隊(duì)發(fā)現(xiàn)在廣泛使用的NMR軟件中發(fā)現(xiàn)問(wèn)題,這個(gè)問(wèn)題是存在于代碼深處的文件排序問(wèn)題,這個(gè)問(wèn)題使得化學(xué)位移的預(yù)測(cè)出現(xiàn)錯(cuò)誤。而這個(gè)問(wèn)題的發(fā)現(xiàn)導(dǎo)致了在過(guò)去五年內(nèi)發(fā)表的超過(guò)150篇文章存在不確定性。

01 “核磁位移”和操作系統(tǒng)有關(guān)?

采用“ Willoughby-Hoye” Python腳本簡(jiǎn)化輸出文件的處理時(shí),計(jì)算得到的天然產(chǎn)物核磁位移取決于操作系統(tǒng),運(yùn)行不同的操作系統(tǒng)處理得到的核磁位移出現(xiàn)較大偏差,可能導(dǎo)致錯(cuò)誤的實(shí)驗(yàn)結(jié)果。

公開(kāi)or保密?計(jì)算化學(xué)遭遇“重現(xiàn)性危機(jī)”

02 不是第一次!

這種問(wèn)題已經(jīng)在計(jì)算機(jī)化學(xué)領(lǐng)域不是第一次出現(xiàn)了,而這個(gè)事件折射出了計(jì)算機(jī)化學(xué)中的重大危機(jī)。計(jì)算機(jī)科學(xué)領(lǐng)域的發(fā)展是十分迅速的,包括計(jì)算機(jī)硬件發(fā)展和計(jì)算機(jī)軟件的迭代更新。通常,在計(jì)算機(jī)領(lǐng)域,源代碼公開(kāi)可以使得算法更新速度加快。而在計(jì)算機(jī)化學(xué)領(lǐng)域的研究成果實(shí)際上并不對(duì)普通大眾公開(kāi),這就導(dǎo)致了算法的滯后。在一方面這導(dǎo)致了計(jì)算機(jī)化學(xué)中算法的問(wèn)題發(fā)現(xiàn)不夠及時(shí),另一方面文章中的代碼跟不上編譯器和解釋器的迭代速度而導(dǎo)致在現(xiàn)有系統(tǒng)中不兼容的問(wèn)題,這使得過(guò)去在計(jì)算機(jī)化學(xué)領(lǐng)域的研究成果在現(xiàn)如今的電腦上無(wú)法重現(xiàn)。

有很多努力在嘗試解決這些問(wèn)題。Konrad Hinsen是法國(guó)奧爾良國(guó)家科學(xué)研究中心的研究員。幾年前,他與他人共同創(chuàng)辦了ReScience C雜志,目的在于創(chuàng)建一個(gè)空間,讓嘗試重新使用舊代碼的人們可以共享他們的結(jié)果。

公開(kāi)or保密?計(jì)算化學(xué)遭遇“重現(xiàn)性危機(jī)”

 

03 代碼公開(kāi)or保密?

隨著機(jī)器學(xué)習(xí)的興起,機(jī)器學(xué)習(xí)模式解決化學(xué)問(wèn)題得到了越來(lái)越廣泛的研究。但是在可重復(fù)性上,機(jī)器學(xué)習(xí)更應(yīng)該制得憂慮?;瘜W(xué)科研工作者多是用機(jī)器學(xué)習(xí)來(lái)解決之前沒(méi)有軟件解決的問(wèn)題,而對(duì)于算法是否最優(yōu)的方面卻沒(méi)有過(guò)多的考量。畢竟大多數(shù)化學(xué)研究者并沒(méi)有什么成體系的編程學(xué)習(xí)的背景。在另一方面,在訓(xùn)練機(jī)器學(xué)習(xí)的過(guò)程中需要大量的數(shù)據(jù),而這些數(shù)據(jù)也不可能將其放入研究文章中,公之于眾。這就會(huì)導(dǎo)致實(shí)驗(yàn)數(shù)據(jù)可能丟失的風(fēng)險(xiǎn)增大,與此同時(shí),其他的同行研究者也無(wú)法理解通過(guò)機(jī)器學(xué)習(xí)后得到的算法。這就使機(jī)器學(xué)習(xí)得到的算法成為了黑箱。對(duì)于機(jī)器學(xué)習(xí)得到的算法,是需要經(jīng)過(guò)大量公共數(shù)據(jù)去檢驗(yàn)和改進(jìn)的。麻省理工學(xué)院的Regina?Barzilay?提到:“不幸的是,這種水平的測(cè)試仍然不是AI和化學(xué)領(lǐng)域的普遍做法。我希望它會(huì)改變?!痹谶@方面的缺失,也促使了機(jī)器學(xué)習(xí)得到的算法無(wú)法重復(fù)使用。

04 沒(méi)那么簡(jiǎn)單!

以機(jī)器學(xué)習(xí)為代表的計(jì)算機(jī)化學(xué)領(lǐng)域無(wú)法重復(fù)的問(wèn)題,其解決方法不僅僅是在道德上將代碼公開(kāi)就能解決的。一個(gè)復(fù)雜算法的源代碼通常包括內(nèi)存管理,處理數(shù)據(jù)集和優(yōu)化性能所需的計(jì)算,近似值和技術(shù)計(jì)算機(jī)制等等,這就導(dǎo)致了除了開(kāi)發(fā)者以外無(wú)人能看懂代碼。

同時(shí)開(kāi)源代碼同樣面臨著計(jì)算機(jī)化學(xué)科研工作者成果的保護(hù)問(wèn)題。開(kāi)源就以為著計(jì)算機(jī)化學(xué)科研工作者要將自己的工作成果無(wú)償奉獻(xiàn),那怎么從法律層面去保護(hù)科研工作者的權(quán)益?同時(shí)代碼的更新也是需要大量的人力物力去處理的,這些更新代碼所需的資源從哪里來(lái)?這些爭(zhēng)議性的問(wèn)題還有待進(jìn)一步的解決。要解決以機(jī)器學(xué)習(xí)為代表的計(jì)算機(jī)化學(xué)重復(fù)性問(wèn)題還有很長(zhǎng)的路要走。

文章來(lái)源:

https://www.chemistryworld.com/news/chemistrys-reproducibility-crisis-that-youve-probably-never-heard-of/4011693.article

微信
微信
電話 QQ
返回頂部