提到DeepMind公司,我們首先想到的可能是幾年前,它開發(fā)的人工智能AlphaGo“橫掃”頂尖人類圍棋職業(yè)選手,變革了圍棋的思考方式。除了在棋類比賽中所向披靡以外,DeepMind也在加速科學發(fā)現上邁出了重要一步。今日,DeepMind宣布,其新一代AlphaFold人工智能系統(tǒng),在國際蛋白質結構預測競賽(CASP)上擊敗了其余的參會選手,能夠精確地基于氨基酸序列,預測蛋白質的3D結構。其準確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X 射線晶體學等實驗技術解析的3D結構相媲美。這一突破被多家媒體稱為“變革生物科學和生物醫(yī)學”的突破。前基因泰克(Genentech)首席執(zhí)行官Arthur D. Levinson博士稱這一成就為“劃時代的進步”(once in a generation advance)。
圖片來源:DeepMind Blog
生物學50年來的重大挑戰(zhàn)
我們都知道,蛋白質對生命來說是不可或缺的,它們支持生物體的幾乎所有功能。這些復雜的大分子由氨基酸鏈構成,而蛋白質的功能很大程度上決定于它的3D結構。生物醫(yī)學領域的眾多挑戰(zhàn),包括開發(fā)治療疾病的創(chuàng)新療法,依賴于對蛋白質結構和功能的理解。
在過去的五十年中,科學家們已經能夠利用冷凍電子顯微鏡、核磁共振或 X 射線晶體學等實驗手段在實驗室中確定蛋白質的形狀,但每種方法都依賴于大量的試錯,耗時耗力,可能需要花上好幾年時間。1972年,諾貝爾化學獎得主Christian Anfinsen博士表示,理論上,蛋白質的氨基酸序列應該能夠完全決定它的3D結構。這一假說激發(fā)了50年來基于氨基酸序列,通過計算方法預測蛋白質3D結構的探索。
然而,這一領域面臨的重大挑戰(zhàn)是理論上,氨基酸鏈可能形成的蛋白質構象的數目是個非常龐大的天文數字。有學者估計,一個典型的蛋白質理論上可以形成10的300次方(1后面加300個0)個可能構象。然而在自然界,蛋白質能夠自發(fā)地在幾毫秒內,迅速折疊成其中一個構象。用什么樣的計算方法,才能從10的300次方的可能構象中找到那個正確的構象?
AlphaFold:生物界的“AlphaGo”
DeepMind的研究人員把折疊好的蛋白質設想成一幅具有3D結構的“空間圖畫”(spatial graph),而氨基酸則是這副“空間圖畫”中節(jié)點和線條。基于神經網絡系統(tǒng),他們設計了AlphaFold系統(tǒng)來解析這一空間圖畫的結構。它使用了進化相關的氨基酸序列,多序列對比(multiple sequence alignment, MSA)以及對氨基酸對(amino acid pairs)的評估來優(yōu)化“空間圖畫“的描繪。
▲AlphaFold的神經網絡模型構架(圖片來源:DeepMind Blog)
研究人員使用蛋白質數據庫中接近17萬個不同的蛋白質結構,以及包含未知結構的蛋白序列數據庫對AlphaFold進行訓練。通過不斷地迭代,AlphaFold系統(tǒng)學習到了基于氨基酸序列,精確預測蛋白結構的能力。
與實驗結果相差無幾的蛋白質結構預測
國際蛋白質結構預測競賽(CASP)是由馬里蘭大學的John Moult教授和加州大學戴維斯分校的Krzysztof Fidelis教授聯(lián)合創(chuàng)建的國際性比賽,旨在評估、促進和確認最佳的蛋白質結構預測手段。CASP選擇已經通過實驗手段解析,但是尚未公布的蛋白質結構作為目標,讓世界各地的研究團隊運用自己的計算手段預測它們的結構。一個獨立的團隊會評估預測結構與通過實驗手段解析的蛋白結構之間的差異。
2018年,DeepMind開發(fā)的第一代AlphaFold首次參加CASP并且拔得頭籌。而今年,新一代的AlphaFold在CASP中的表現更為驚艷。CASP使用稱為GDT的評分系統(tǒng)來評估預測蛋白結構的精確性。這個評分從0到100,如果評分達到90分以上,可以認為預測的結構與實驗手段獲得的結構相當。
▲2006-2020年CASP比賽中最佳蛋白折疊預測系統(tǒng)的評分表現(圖片來源:DeepMind Blog)
在今年的CASP中,AlphaFold系統(tǒng)對所有蛋白靶點3D結構預測的中位GDT評分為92.4分。即便是針對最難解析的蛋白靶點,AlphaFold的中位GDT評分也達到了87.0分。在接受檢驗的近100個蛋白靶點中,AlphaFold對三分之二的蛋白靶點給出的預測結構與實驗手段獲得的結構相差無幾。CASP創(chuàng)始人Moult教授表示,在有些情況下,已經無法區(qū)分兩者之間的區(qū)別是由于AlphaFold的預測出現錯誤,還是實驗手段產生的假象。
▲AlphaFold根據氨基酸序列預測的蛋白結構與實驗手段解析的結果幾乎完全重合(綠色,實驗結果;藍色,計算預測結果;圖片來源:DeepMind Blog)
對真實世界的影響
在今年早些時候,DeepMind已經利用這一系統(tǒng)預測了多種新冠病毒蛋白的結構。后續(xù)的實驗顯示,AlphaFold預測的新冠病毒Orf3a蛋白結構與冷凍電鏡解析的結構非常相似。
雖然,AlphaFold不見得會取代冷凍電子顯微鏡等其它實驗手段,但是DeepMind的研究人員表示,這一令人興奮的結果表明,生物學家們可以使用計算結構預測作為科學研究的核心工具之一。這一手段對于特定類型的蛋白來說可能尤為便利,例如膜蛋白一直非常難于結晶,因此很難用實驗手段獲得它們的結構。
而對于從事計算和機器學習研究的DeepMind團隊來說,AlphaFold的表現證明了AI在輔助基礎科學發(fā)現方面驚人的潛力。該團隊在公司發(fā)布的博文中表示,他們相信,AI將成為人類拓展科學知識前沿最有力的工具之一!
參考資料:
[1] AlphaFold: a solution to a 50-year-old grand challenge in biology. Retrieved November 30, 2020, from https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
[2] ‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures. Retrieved November 30, 2020, from https://www.nature.com/articles/d41586-020-03348-4
[3] CRITICAL ASSESSMENT OF TECHNIQUES FOR PROTEIN STRUCTURE PREDICTION. Retrieved November 30, 2020, from https://predictioncenter.org/casp14/doc/CASP14_Abstracts.pdf
Copyright ? 2004-2025 健康一線-健康視頻網(vodjk.com)All rights reserved.