科技動態(tài)
中國科大用深度學(xué)習(xí)實現(xiàn)高實驗成功率的蛋白質(zhì)序列從頭設(shè)計
中國科學(xué)技術(shù)大學(xué)生命科學(xué)與醫(yī)學(xué)部劉海燕教授、陳泉副教授團隊與信息科學(xué)技術(shù)學(xué)院李厚強教授團隊合作,開發(fā)了一種基于深度學(xué)習(xí)為給定主鏈結(jié)構(gòu)從頭設(shè)計氨基酸序列的算法ABACUS-R,在實驗驗證中,ABACUS-R的設(shè)計成功率和設(shè)計精度超過了原有統(tǒng)計能量模型ABACUS。相關(guān)成果以“Rotamer-Free Protein Sequence Design Based on Deep Learning and Self-Consistency”為題于北京時間2022年7月21日發(fā)表于Nature Computational Science。
劉海燕教授、陳泉副教授團隊致力于發(fā)展數(shù)據(jù)驅(qū)動的蛋白質(zhì)設(shè)計方法,建立并實驗驗證了利用神經(jīng)網(wǎng)絡(luò)能量函數(shù)從頭設(shè)計主鏈結(jié)構(gòu)的SCUBA模型,以及對給定主鏈結(jié)構(gòu)設(shè)計氨基酸序列的統(tǒng)計能量函數(shù)ABACUS。然而,通過優(yōu)化能量函數(shù)來進行序列設(shè)計的方法在成功率、計算效率等方面仍有不足。近期有多項研究表明,用深度學(xué)習(xí)進行氨基酸序列設(shè)計能夠在天然氨基酸殘基類型恢復(fù)率等計算指標(biāo)上超過能量函數(shù)方法;但截至目前已正式發(fā)表的工作中,對相關(guān)方法的實驗驗證結(jié)果遠(yuǎn)未達(dá)到能量函數(shù)方法的成功率。該論文報道的ABACUS-R模型,則不僅在計算指標(biāo)上超過ABACUS,在實驗驗證中成功率和結(jié)構(gòu)精度也有大幅提高。
用ABACUS-R進行序列設(shè)計的方法由兩部分組成(圖1)。第一部分為預(yù)訓(xùn)練的編碼器-解碼器網(wǎng)絡(luò):該網(wǎng)絡(luò)用Transformer把中心氨基酸殘基的化學(xué)和空間結(jié)構(gòu)環(huán)境映射為隱空間表示向量,再用多層感知機網(wǎng)絡(luò)將該向量解碼為包括中心殘基氨基酸類型在內(nèi)的多種真實特征(圖1a)。在方法的第二部分,經(jīng)用非冗余天然蛋白序列結(jié)構(gòu)數(shù)據(jù)訓(xùn)練后,ABACUS-R編碼器-解碼器被用于給定主鏈結(jié)構(gòu)的全部或部分氨基酸序列從頭設(shè)計。具體為:從任意初始序列出發(fā),對各個類型待定殘基分別應(yīng)用ABACUS-R編碼器-解碼器,得到環(huán)境依賴的最適宜殘基類型,并反復(fù)迭代至不同位點的殘基類型最大程度自洽(圖1b)。
圖1. 用ABACUS-R模型進行蛋白質(zhì)序列設(shè)計的原理。(a) 預(yù)訓(xùn)練的編碼器-解碼器網(wǎng)絡(luò);(b)采用自洽迭代策略進行全序列從頭設(shè)計。
在理論驗證的基礎(chǔ)上,中國科大團隊嘗試了實驗表征用ABACUS-R對3個天然主鏈結(jié)構(gòu)重新設(shè)計的57條序列;其中86%的序列(49條)可溶表達(dá)并能折疊為穩(wěn)定單體;實驗解析的5個高分辨晶體結(jié)構(gòu)與目標(biāo)結(jié)構(gòu)高度一致(主鏈原子位置均方根位移在1?以下)(圖2)。此外,與以前報道的從頭設(shè)計蛋白相似,ABACUS-R從頭設(shè)計的蛋白表現(xiàn)出超高熱穩(wěn)定性,去折疊溫度大多可達(dá)100℃以上。
圖2. 左側(cè)圖為實驗驗證采用的一個目標(biāo)主鏈結(jié)構(gòu)(天藍(lán)色)與相應(yīng)ABACUS-R設(shè)計蛋白晶體結(jié)構(gòu)(綠色)的疊合比較。在右側(cè)展示的局部結(jié)構(gòu)放大圖中,ABACUS-R設(shè)計蛋白的殘基間氫鍵等極性相互作用不同于天然結(jié)構(gòu)。
相較于ABACUS模型,ABACUS-R序列設(shè)計更高的成功率和結(jié)構(gòu)精度進一步增強了數(shù)據(jù)驅(qū)動蛋白質(zhì)從頭設(shè)計方法的實用性。ABACUS-R還提供了一種對蛋白質(zhì)局部結(jié)構(gòu)信息的預(yù)訓(xùn)練表示方式,可用于序列設(shè)計以外的其他任務(wù)。
我校生命科學(xué)與醫(yī)學(xué)部劉海燕教授、陳泉副教授、信息科學(xué)技術(shù)學(xué)院李厚強教授為該論文通訊作者。生命科學(xué)與醫(yī)學(xué)部碩士生劉宇楓、博士生張璐、信息科學(xué)技術(shù)學(xué)院博士生王煒倫為該論文共同第一作者。該研究工作得到了科技部、國家自然科學(xué)基金委和中國科學(xué)院的資助支持。
原文鏈接:https://www.nature.com/articles/s43588-022-00273-6
(生命科學(xué)與醫(yī)學(xué)部、信息科學(xué)技術(shù)學(xué)院、微尺度國家研究中心、細(xì)胞動力學(xué)教育部重點實驗室、科研部)
來源:科大新聞網(wǎng)