成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

一種絕對(duì)結(jié)合自由能的統(tǒng)計(jì)計(jì)算方法

文檔序號(hào):41864206發(fā)布日期:2025-05-09 18:24閱讀:1來(lái)源:國(guó)知局
一種絕對(duì)結(jié)合自由能的統(tǒng)計(jì)計(jì)算方法

本發(fā)明涉及一種絕對(duì)結(jié)合自由能的計(jì)算方法,尤其涉及一種基于數(shù)據(jù)采樣配對(duì)并應(yīng)用孿生網(wǎng)絡(luò)進(jìn)行蛋白質(zhì)與藥物小分子絕對(duì)結(jié)合自由能的計(jì)算方法。


背景技術(shù):

1、在生物化學(xué)領(lǐng)域,對(duì)于蛋白質(zhì),可以表示為用20個(gè)字符所表示的氨基酸序列,這一序列信息是每個(gè)蛋白質(zhì)所獨(dú)有的信息。對(duì)于可以與蛋白質(zhì)結(jié)合的小分子化合物,可以表示為smiles字符串。smiles字符串在早期的生物信息領(lǐng)域發(fā)揮了重要的作用,比如可以通過(guò)檢索字符串,實(shí)現(xiàn)對(duì)分子數(shù)據(jù)庫(kù)的快速檢索,是一種常用的化學(xué)語(yǔ)言,并且已經(jīng)可以從smiles字符串進(jìn)行深度學(xué)習(xí)預(yù)測(cè)藥物分子的性質(zhì)。蛋白質(zhì)的氨基酸序列和配體分子的smiles中已經(jīng)包含了所需要的信息。因此,對(duì)于蛋白質(zhì)和小分子所組成的復(fù)合物分子結(jié)構(gòu),可以分別表示為字符串形式的序列和smiles這一特殊的化學(xué)語(yǔ)言,并且這類化學(xué)語(yǔ)言是可以傳達(dá)相應(yīng)的生物化學(xué)信息的。

2、通過(guò)理論方法計(jì)算蛋白質(zhì)與配體小分子的結(jié)合自由能是實(shí)現(xiàn)藥物理性篩選與設(shè)計(jì)的關(guān)鍵技術(shù)。目前計(jì)算方法包括分子對(duì)接打分、基于物理模型的計(jì)算、基于人工智能方法的預(yù)測(cè)以及基于數(shù)據(jù)知識(shí)的推斷,已經(jīng)成為藥物設(shè)計(jì)中常用的研究范式。結(jié)合自由能的預(yù)測(cè)至關(guān)重要,在早期藥物篩選和先導(dǎo)化合物優(yōu)化中都有重要的應(yīng)用。其中,絕對(duì)結(jié)合自由能是衡量靶標(biāo)與小分子結(jié)合強(qiáng)弱的指標(biāo),其計(jì)算的精度直接影響了預(yù)測(cè)配體排序的能力。而相對(duì)自由能指的是新配體與先導(dǎo)化合物之間的結(jié)合自由能差異。相對(duì)結(jié)合自由能具有更廣泛的應(yīng)用場(chǎng)景,比如,在藥物發(fā)現(xiàn)過(guò)程中,相對(duì)結(jié)合自由能可以幫助評(píng)估不同化合物與靶標(biāo)蛋白的結(jié)合能力,從而篩選出最有潛力的候選藥物。通過(guò)計(jì)算不同化學(xué)修飾對(duì)結(jié)合自由能的影響,可以優(yōu)化藥物分子的結(jié)構(gòu),提高其活性和選擇性。通過(guò)計(jì)算結(jié)合自由能的變化,可以預(yù)測(cè)突變對(duì)蛋白質(zhì)功能的影響,指導(dǎo)蛋白質(zhì)設(shè)計(jì)和工程。

3、通過(guò)計(jì)算藥物與靶標(biāo)的結(jié)合自由能變化,可以幫助研究耐藥性背后的分子機(jī)制,為新藥物的開(kāi)發(fā)提供信息。絕對(duì)自由能計(jì)算適合于需要精確評(píng)估特定化合物與靶標(biāo)的結(jié)合能力的場(chǎng)景,尤其在藥物篩選和靶點(diǎn)特異性研究中具有重要意義。相對(duì)結(jié)合自由能更加適合于比較不同化合物或突變體之間的結(jié)合親和力,用于藥物優(yōu)化和突變影響評(píng)估。這兩種方法各有優(yōu)勢(shì),通常在藥物設(shè)計(jì)的不同階段和不同研究目標(biāo)中結(jié)合使用。其中突變前后的結(jié)合能的變化(δδg)是衡量耐藥性的關(guān)鍵數(shù)據(jù),如果該突變引起的能量變化超過(guò)一定數(shù)值,則表明該藥物分子不能與突變后的蛋白質(zhì)結(jié)合。針對(duì)蛋白質(zhì)突變引起的耐藥性的研究也引起了學(xué)術(shù)界和制藥公司的研究興趣。伊馬替尼(imatinib)是一種酪氨酸激酶抑制劑,主要用于治療慢性髓細(xì)胞白血病?;颊叻煤髸?huì)出現(xiàn)耐藥現(xiàn)象,已有相關(guān)報(bào)道稱在接受伊馬替尼治療5年后患者中,80%的耐藥原因是由于bcr-abl1激酶區(qū)的點(diǎn)突變,造成伊馬替尼不能與蛋白質(zhì)結(jié)合。薛定諤公司使用自由能微擾(fep)方法計(jì)算了臨床上144個(gè)abl激酶突變所引起的激酶抑制劑的自由能變化,fep計(jì)算中給出了突變所引起的結(jié)合能的變化(δδg)的計(jì)算誤差在1.1kal/mol以內(nèi),計(jì)算方法的準(zhǔn)確性達(dá)到了88%。然而,fep需要消耗非常大量的計(jì)算資源,難以大規(guī)模開(kāi)展。騰訊量子實(shí)驗(yàn)室為此收集整理了一個(gè)針對(duì)蛋白質(zhì)突變引起的結(jié)合能變化的數(shù)據(jù)庫(kù)mdrdb。該數(shù)據(jù)庫(kù)提供與蛋白質(zhì)三維結(jié)構(gòu)突變引起的蛋白質(zhì)-配體親和力變化的相關(guān)數(shù)據(jù)。上海藥物所鄭明月課題組開(kāi)發(fā)了深度學(xué)習(xí)模型pbcnet(pairwise?binding?comparison?network)用于快速準(zhǔn)確預(yù)測(cè)配體相對(duì)結(jié)合自由能。pbcnet首先通過(guò)圖卷積神經(jīng)網(wǎng)絡(luò)從蛋白結(jié)合口袋中提取蛋白結(jié)構(gòu)特征,然后通過(guò)特征進(jìn)行融合,最后,利用提取的特征預(yù)測(cè)配體之間的相對(duì)結(jié)合自由能。

4、相對(duì)結(jié)合自由能的計(jì)算過(guò)程中存在著兩個(gè)比較接近的數(shù)字直接相減的問(wèn)題,從數(shù)值分析上,可以看到通過(guò)絕對(duì)自由能再去計(jì)算相對(duì)自由能這種計(jì)算方法容易引入計(jì)算誤差。因此,結(jié)合自由能的計(jì)算需要進(jìn)行高精度的計(jì)算,通過(guò)開(kāi)發(fā)新的方法用于準(zhǔn)確預(yù)測(cè)結(jié)合自由能。


技術(shù)實(shí)現(xiàn)思路

1、發(fā)明目的:本發(fā)明的目的是提供一種絕對(duì)結(jié)合自由能的統(tǒng)計(jì)計(jì)算方法,解決現(xiàn)有蛋白質(zhì)和配體分子結(jié)合自由能預(yù)測(cè)方法存在的誤差較大,預(yù)測(cè)準(zhǔn)確性和穩(wěn)定性較低的問(wèn)題。

2、技術(shù)方案:本發(fā)明所述的一種絕對(duì)結(jié)合自由能的統(tǒng)計(jì)計(jì)算方法,包括如下步驟:

3、基于數(shù)據(jù)庫(kù)中的蛋白質(zhì)與配體分子之間的結(jié)合常數(shù)、蛋白質(zhì)氨基酸序列和配體分子的smiles構(gòu)建參考數(shù)據(jù)集和目標(biāo)分子數(shù)據(jù)集;

4、排除參考數(shù)據(jù)集中蛋白質(zhì)氨基酸序列相近的蛋白質(zhì)分子和分子指紋相似的配體分子,獲得參考分子集;

5、根據(jù)蛋白質(zhì)突變類型將目標(biāo)分子數(shù)據(jù)集劃分為訓(xùn)練分子集和測(cè)試分子集,將訓(xùn)練分子集與參考分子集進(jìn)行配對(duì),獲得配對(duì)采樣數(shù)據(jù)集;

6、利用配對(duì)采樣數(shù)據(jù)集訓(xùn)練孿生網(wǎng)絡(luò)模型得到預(yù)測(cè)模型;

7、基于所述預(yù)測(cè)模型,輸入測(cè)試分子集,輸出預(yù)測(cè)的相對(duì)結(jié)合自由能;

8、將預(yù)測(cè)的相對(duì)結(jié)合自由能轉(zhuǎn)變?yōu)榻^對(duì)結(jié)合自由能值。

9、本發(fā)明將絕對(duì)自由能的計(jì)算轉(zhuǎn)變?yōu)橄鄬?duì)自由能計(jì)算,避免了數(shù)值計(jì)算的誤差;本發(fā)明中每個(gè)目標(biāo)分子可以與多個(gè)參考分子配對(duì),從而可以更多的利用已知數(shù)據(jù)作為參考值;本發(fā)明中計(jì)算的結(jié)果可以通過(guò)統(tǒng)計(jì)計(jì)算平均值,從而避免了單一預(yù)測(cè)的不穩(wěn)定性。

10、優(yōu)選地,所述構(gòu)建參考數(shù)據(jù)集和目標(biāo)分子數(shù)據(jù)集包括:

11、從數(shù)據(jù)庫(kù)中直接選取或計(jì)算得到蛋白質(zhì)與配體分子之間的結(jié)合常數(shù),再將蛋白質(zhì)與配體分子之間的結(jié)合常數(shù)轉(zhuǎn)變?yōu)棣膅,計(jì)算公式為δg=-0.5961×logki,其中l(wèi)ogki為結(jié)合常數(shù)的對(duì)數(shù),以δg、蛋白質(zhì)氨基酸序列和配體分子的smiles構(gòu)建參考數(shù)據(jù)集和目標(biāo)分子數(shù)據(jù)集。

12、優(yōu)選地,所述排除參考數(shù)據(jù)集中蛋白質(zhì)氨基酸序列相近的蛋白質(zhì)分子和分子指紋相似的配體分子包括:

13、通過(guò)blast計(jì)算參考數(shù)據(jù)集中每個(gè)蛋白質(zhì)氨基酸序列與數(shù)據(jù)庫(kù)中所有序列的相似性,排除參考數(shù)據(jù)集中相似性計(jì)算結(jié)果大于90的蛋白質(zhì)氨基酸序列;

14、計(jì)算配體分子的tanimoto相似性,排除相似性結(jié)算結(jié)果大于0.9的配體分子。

15、優(yōu)選地,所述將訓(xùn)練分子集與參考分子集進(jìn)行配對(duì)包括:

16、從參考分子集中選取適當(dāng)數(shù)目的參考分子,將訓(xùn)練分子集中的訓(xùn)練分子與適當(dāng)數(shù)目的參考分子配對(duì),配對(duì)時(shí)根據(jù)小分子與目標(biāo)分子的相似性進(jìn)行排序,將排序靠前的n個(gè)分子選為參考分子,選定后的參考分子通過(guò)一對(duì)多的形式與訓(xùn)練分子集中的分子組成分子對(duì),獲得配對(duì)采樣數(shù)據(jù)集。

17、優(yōu)選地,所述利用配對(duì)采樣數(shù)據(jù)集訓(xùn)練孿生網(wǎng)絡(luò)模型包括:分別對(duì)配對(duì)采樣數(shù)據(jù)集中的蛋白質(zhì)氨基酸序列和配體分子進(jìn)行編碼,將編碼后的數(shù)據(jù)輸入孿生網(wǎng)絡(luò)模型進(jìn)行模型訓(xùn)練。

18、本發(fā)明為了更好的區(qū)分兩個(gè)輸入數(shù)據(jù)的不同,本發(fā)明采用孿生網(wǎng)絡(luò),將目標(biāo)分子與參考分子輸入到一個(gè)共享權(quán)重的網(wǎng)絡(luò)中,將線性差分作為網(wǎng)絡(luò)模型的輸出。孿生網(wǎng)絡(luò)相對(duì)于單一樣本網(wǎng)絡(luò),能以共享權(quán)重的形式對(duì)兩個(gè)樣本進(jìn)行學(xué)習(xí),能更好的區(qū)分?jǐn)?shù)據(jù)的微小差別。本發(fā)明將數(shù)據(jù)采樣配對(duì)和孿生網(wǎng)絡(luò)應(yīng)用到蛋白質(zhì)與配體分子的結(jié)合自由能預(yù)測(cè)中,實(shí)現(xiàn)了一種比單樣本數(shù)據(jù)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型更準(zhǔn)確的計(jì)算方法。

19、優(yōu)選地,所述分別對(duì)配對(duì)采樣數(shù)據(jù)集中的蛋白質(zhì)氨基酸序列和配體分子進(jìn)行編碼包括:利用esm模型將配對(duì)采樣數(shù)據(jù)集中的蛋白質(zhì)氨基酸序列轉(zhuǎn)變?yōu)?pt文件;利用rdkit中的模塊將配體分子的smiles轉(zhuǎn)變?yōu)閑cfp指紋;將.pt文件和ecfp指紋輸入孿生網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。

20、優(yōu)選地,所述輸入測(cè)試分子集包括:將測(cè)試分子集與參考分子集進(jìn)行配對(duì)得到測(cè)試集,將測(cè)試集輸入預(yù)測(cè)模型中,輸出不同的相對(duì)結(jié)合自由能預(yù)測(cè)值。

21、優(yōu)選地,所述將預(yù)測(cè)的相對(duì)結(jié)合自由能轉(zhuǎn)變?yōu)榻^對(duì)結(jié)合自由能值包括:

22、利用如下公式將不同的相對(duì)結(jié)合自由能預(yù)測(cè)值轉(zhuǎn)變?yōu)橐粋€(gè)統(tǒng)計(jì)平均的絕對(duì)結(jié)合自由能值:

23、

24、其中,δgi為統(tǒng)計(jì)平均后的最終預(yù)測(cè)值,δδgi,j為第i和第j個(gè)分子的引起的相對(duì)結(jié)合自由能變化,δgref,j為第j個(gè)分子的絕對(duì)結(jié)合自由能。

25、本發(fā)明進(jìn)一步公開(kāi)一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述方法的步驟。

26、有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明具有如下顯著優(yōu)點(diǎn):

27、1、將神經(jīng)網(wǎng)絡(luò)模型中的目標(biāo)從絕對(duì)自由能的計(jì)算轉(zhuǎn)變?yōu)橄鄬?duì)自由能計(jì)算,避免了數(shù)值計(jì)算中異常值所引起的誤差,并且調(diào)整參考分子的數(shù)目可以獲得自由能的分布,從而可以通過(guò)統(tǒng)計(jì)方法計(jì)算平均結(jié)合自由能,避免了單一計(jì)算所引起的偶然誤差。通過(guò)與不使用配對(duì)的傳統(tǒng)計(jì)算方法相比,本發(fā)明顯著提升了預(yù)測(cè)的準(zhǔn)確性,在21個(gè)測(cè)試中,pearson相關(guān)系數(shù)的平均值從原來(lái)的(對(duì)應(yīng)兩種情況:nopair_biolip_seq90和nopair)0.18和0.88上升至0.91,表明測(cè)試結(jié)果之間的線性關(guān)系變得更為緊密。這一變化反映了這種計(jì)算方法在捕捉數(shù)據(jù)中變量間關(guān)系方面的改進(jìn),顯示出其性能的顯著提升;

28、2、通過(guò)與已知的參考數(shù)據(jù)配對(duì)可以對(duì)訓(xùn)練分子集進(jìn)行擴(kuò)充,為人工智能方法中的神經(jīng)網(wǎng)絡(luò)模型提供更多的訓(xùn)練數(shù)據(jù)。每個(gè)目標(biāo)分子可以與多個(gè)參考分子配對(duì),從而可以更多的利用已知數(shù)據(jù)作為參考值。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1