本技術(shù)涉及人工智能,具體涉及一種基因共表達(dá)網(wǎng)絡(luò)建立方法以及相關(guān)裝置。
背景技術(shù):
1、在生物領(lǐng)域,基因共表達(dá)分析對于理解復(fù)雜的生物過程至關(guān)重要,其中,單細(xì)胞測序技術(shù)能夠在單細(xì)胞分辨率下分析基因表達(dá),揭示細(xì)胞之間的異質(zhì)性。然而由于單細(xì)胞測序數(shù)據(jù)的高維度、高噪聲以及高稀疏性,增加了網(wǎng)絡(luò)構(gòu)建的復(fù)雜性,使得研究者們從單細(xì)胞數(shù)據(jù)推斷基因表達(dá)面臨著巨大挑戰(zhàn)。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本技術(shù)提供了一種基因共表達(dá)網(wǎng)絡(luò)建立方法以及相關(guān)裝置,以解決上述至少一部分的技術(shù)問題。
2、本技術(shù)一方面提供了一種基因共表達(dá)網(wǎng)絡(luò)建立方法,包括:獲取目標(biāo)基因表達(dá)量矩陣;所述目標(biāo)基因表達(dá)量矩陣中的元素用于衡量某一基因在某一細(xì)胞內(nèi)的表達(dá)水平;對所述目標(biāo)基因表達(dá)量矩陣進(jìn)行特征提取,獲得第一基因特征矩陣;所述第一基因特征矩陣中的元素用于衡量所述目標(biāo)基因表達(dá)量矩陣中的基因在不同維度的特征值;根據(jù)所述第一基因特征矩陣和所述目標(biāo)基因表達(dá)量矩陣構(gòu)建對應(yīng)的細(xì)胞類型特異性共表達(dá)網(wǎng)絡(luò);和/或,根據(jù)所述第一基因特征矩陣構(gòu)建全局的基因共表達(dá)網(wǎng)絡(luò)。
3、在一些實(shí)施例中,所述根據(jù)所述第一基因特征矩陣和所述目標(biāo)基因表達(dá)量矩陣構(gòu)建細(xì)胞類型特異性共表達(dá)網(wǎng)絡(luò),包括:根據(jù)所述目標(biāo)基因表達(dá)量矩陣和所述第一基因特征矩陣確定每一細(xì)胞類型的第二基因特征矩陣;所述第二基因特征矩陣中的每一行是所述第一基因特征矩陣中的基因在不同維度的特征值,每一列是不同基因在同一維度的特征值;根據(jù)每一個(gè)細(xì)胞類型的所述第二基因特征矩陣獲得對應(yīng)的細(xì)胞類型特異性模塊;對每一個(gè)細(xì)胞類型特異性模塊中的基因進(jìn)行層級聚類,獲得對應(yīng)的細(xì)胞類型特異性共表達(dá)網(wǎng)絡(luò)。
4、在一些實(shí)施例中,所述根據(jù)所述目標(biāo)基因表達(dá)量矩陣和所述第一基因特征矩陣確定每一細(xì)胞類型的第二基因特征矩陣,包括:根據(jù)所述目標(biāo)基因表達(dá)量矩陣獲得每一個(gè)細(xì)胞類型包含的差異表達(dá)基因的基因表達(dá)量矩陣;計(jì)算每一個(gè)細(xì)胞類型包含的差異表達(dá)基因的基因表達(dá)量矩陣與所述第一基因特征矩陣之間的相關(guān)性,形成對應(yīng)細(xì)胞類型的細(xì)胞-嵌入基因相關(guān)性矩陣;其中,所述細(xì)胞-嵌入基因相關(guān)性矩陣中的每一行表征不同特征在所述對應(yīng)細(xì)胞中的重要程度,每一列表征同一特征在所述對應(yīng)的細(xì)胞中的重要程度;對于每一細(xì)胞類型,根據(jù)對應(yīng)細(xì)胞類型的細(xì)胞-嵌入基因相關(guān)性矩陣和所述第一基因特征矩陣確定對應(yīng)細(xì)胞類型的所述第二基因特征矩陣。
5、在一些實(shí)施例中,所述根據(jù)對應(yīng)細(xì)胞類型的細(xì)胞-嵌入基因相關(guān)性矩陣和所述第一基因特征矩陣確定對應(yīng)細(xì)胞類型的所述第二基因特征矩陣,包括:根據(jù)所述細(xì)胞-嵌入基因相關(guān)性矩陣從所述第一基因特征矩陣中提取設(shè)定維數(shù)的特征作為對應(yīng)細(xì)胞類型的特征;根據(jù)提取的對應(yīng)細(xì)胞類型的特征和所述第一基因特征矩陣中包含的各個(gè)基因形成所述第二基因特征矩陣。
6、在一些實(shí)施例中,所述根據(jù)每一個(gè)細(xì)胞類型的所述第二基因特征矩陣獲得對應(yīng)的細(xì)胞類型特異性模塊,包括:計(jì)算所述第二基因特征矩陣中各個(gè)基因之間的余弦相似性;根據(jù)所述各個(gè)基因之間的余弦相似性對所述第二基因特征矩陣進(jìn)行聚類處理,形成第一子細(xì)胞類型特異性模塊和第二子細(xì)胞類型特異性模塊;計(jì)算所述第一子細(xì)胞類型特異性模塊的第一得分和所述第二子細(xì)胞類型特異性模塊的第二得分;比較所述第一得分和第二得分;其中,響應(yīng)所述第一得分大于所述第二得分,確定所述第一子細(xì)胞類型特異性模塊為所述對應(yīng)的細(xì)胞類型特異性模塊;響應(yīng)于所述第一得分小于所述第二得分,確定所述第二子細(xì)胞類型特異性模塊為所述對應(yīng)的細(xì)胞類型特異性模塊;響應(yīng)于所述第一得分等于所述第二得分,確定所述第一子細(xì)胞類型特異性模塊或第二子細(xì)胞類型特異性模塊為所述對應(yīng)的細(xì)胞類型特異性模塊。
7、在一些實(shí)施例中,所述計(jì)算所述第一子細(xì)胞類型特異性模塊的第一得分和所述第二子細(xì)胞類型特異性模塊的第二得分,包括:計(jì)算所述第一子細(xì)胞類型特異性模塊中每一個(gè)基因在不同細(xì)胞中的第一相對表達(dá)水平;并根據(jù)每一個(gè)所述第一相對表達(dá)水平和所述第一子細(xì)胞類型特異性模塊中包含的基因數(shù)量計(jì)算所述第一得分;以及計(jì)算所述第二子細(xì)胞類型特異性模塊中每一個(gè)基因在不同細(xì)胞中的第二相對表達(dá)水平;并根據(jù)每一個(gè)所述第二相對表達(dá)水平和所述第二子細(xì)胞類型特異性模塊中包含的基因數(shù)量計(jì)算所述第二得分。
8、在一些實(shí)施例中,所述根據(jù)所述第一基因特征矩陣構(gòu)建全局基因共表達(dá)網(wǎng)絡(luò),包括:根據(jù)所述第一基因特征矩陣計(jì)算各個(gè)基因之間的共表達(dá)關(guān)系,得到基因共表達(dá)相關(guān)矩陣;對所述基因共表達(dá)相關(guān)矩陣中的基因進(jìn)行層級聚類構(gòu)建所述全局基因共表達(dá)網(wǎng)絡(luò);所述全局基因共表達(dá)網(wǎng)絡(luò)呈樹狀結(jié)構(gòu),其中,該樹狀結(jié)構(gòu)的每一個(gè)分支包括一個(gè)基因共表達(dá)模塊;所述基因共表達(dá)模塊包含表達(dá)模式相似的一組基因。
9、在一些實(shí)施例中,所述第一基因特征矩陣的每一行表征同一基因在不同維度的特征值,每一列表征同一維度下不同基因的特征值;所述根據(jù)所述第一基因特征矩陣計(jì)算各個(gè)基因之間的共表達(dá)關(guān)系,得到基因共表達(dá)相關(guān)矩陣,包括:計(jì)算所述第一基因特征矩陣中各個(gè)基因之間的余弦相似性;所述余弦相似性用于衡量基因之間的共表達(dá)關(guān)系;根據(jù)獲得的各個(gè)基因之間的余弦相似性獲得所述基因共表達(dá)相關(guān)矩陣。
10、在一些實(shí)施例中,所述對所述基因共表達(dá)相關(guān)矩陣中的基因進(jìn)行層級聚類構(gòu)建所述全局基因共表達(dá)網(wǎng)絡(luò),包括:設(shè)定最小基因模塊中包含的基因數(shù)目,按照動態(tài)剪切樹策略逐步對所述基因共表達(dá)相關(guān)矩陣中的數(shù)據(jù)進(jìn)行處理,形成至少一個(gè)基因共表達(dá)模塊;記錄每一個(gè)得到的基因共表達(dá)模塊,以構(gòu)建所述全局基因共表達(dá)網(wǎng)絡(luò)。
11、在一些實(shí)施例中,所述獲取目標(biāo)基因表達(dá)量矩陣,包括:獲取至少一個(gè)生物樣本的單細(xì)胞轉(zhuǎn)錄組測序scrna-seq數(shù)據(jù)集,并且根據(jù)每一個(gè)scrna-seq數(shù)據(jù)集生成對應(yīng)生物樣本包含基因的子表達(dá)量矩陣;對至少一個(gè)所述子表達(dá)量矩陣進(jìn)行預(yù)處理,獲得所述目標(biāo)基因表達(dá)量矩陣。
12、在一些實(shí)施例中,所述預(yù)處理包括以下至少之一:質(zhì)量控制、篩選高變異基因、數(shù)據(jù)歸一化。
13、在一些實(shí)施例中,所述對所述目標(biāo)基因表達(dá)量矩陣進(jìn)行特征提取,獲得第一基因特征矩陣,包括:利用訓(xùn)練好的基因聚類模型包含的特征提取單元對所述目標(biāo)基因表達(dá)量矩陣進(jìn)行特征提取,獲得所述第一基因特征矩陣;其中,所述特征提取單元包括輸入層、卷積層、激活函數(shù)層、池化層及全連接層,所述池化層為空間金字塔池化層,所述池化層的輸出結(jié)果作為全連接層的輸入;所述卷積層包括n個(gè),并且,第i個(gè)卷積層的輸出結(jié)果為第i+1個(gè)卷積層的輸入,第n個(gè)卷積層的輸出結(jié)果經(jīng)激活函數(shù)層處理后為池化層的輸入,其中,n和i為正整數(shù),i小于n。
14、本技術(shù)一方面提供了一種基因共表達(dá)網(wǎng)絡(luò)建立裝置,包括:
15、獲取模塊,用于獲取基因表達(dá)量矩陣;所述基因表達(dá)量矩陣的元素用于衡量某一基因在某一單細(xì)胞內(nèi)的表達(dá)水平;
16、提取模塊,用于對所述目標(biāo)基因表達(dá)量矩陣進(jìn)行特征提取,獲得第一基因特征矩陣;所述第一基因特征矩陣中的元素用于衡量所述目標(biāo)基因表達(dá)量矩陣中的基因在不同維度的特征值;
17、構(gòu)建模塊,用于根據(jù)所述第一基因特征矩陣和所述基因表達(dá)量矩陣構(gòu)建對應(yīng)的細(xì)胞類型特異性共表達(dá)網(wǎng)絡(luò);和/或,根據(jù)所述第一基因特征矩陣構(gòu)建全局的基因共表達(dá)網(wǎng)絡(luò)。
18、本技術(shù)一方面提供了一種基因共表達(dá)網(wǎng)絡(luò)建立設(shè)備,包括處理器,用于存儲器中調(diào)用程序,以使所述設(shè)備執(zhí)行如前述任一項(xiàng)所述的方法。
19、本技術(shù)一方面提供了一種芯片,包括處理器,用于從存儲器調(diào)用程序,使得安裝有所述芯片的設(shè)備執(zhí)行如前述任一項(xiàng)所述的方法。
20、本技術(shù)一方面提供了一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有程序,所述程序是的計(jì)算積極執(zhí)行如前述任一項(xiàng)所述的方法。
21、本技術(shù)實(shí)施例提供一種基因共表達(dá)網(wǎng)絡(luò)建立方法以及相關(guān)裝置。其中,該共表達(dá)網(wǎng)絡(luò)建立方法,包括:獲取目標(biāo)基因表達(dá)量矩陣;所述目標(biāo)基因表達(dá)量矩陣中的元素用于衡量某一基因在某一細(xì)胞內(nèi)的表達(dá)水平;對所述目標(biāo)基因表達(dá)量矩陣進(jìn)行特征提取,獲得第一基因特征矩陣;所述第一基因特征矩陣中的元素用于衡量所述目標(biāo)基因表達(dá)量矩陣中的基因在不同維度的特征值;根據(jù)所述第一基因特征矩陣和所述目標(biāo)基因表達(dá)量矩陣構(gòu)建對應(yīng)的細(xì)胞類型特異性共表達(dá)網(wǎng)絡(luò);和/或,根據(jù)所述第一基因特征矩陣構(gòu)建全局的基因共表達(dá)網(wǎng)絡(luò)。本技術(shù)實(shí)施例提供的基因共表達(dá)網(wǎng)絡(luò)建立方法,通過對目標(biāo)基因表達(dá)量矩陣進(jìn)行特征提取,獲得第一基因特征矩陣,然后根據(jù)該第一基因特征矩陣構(gòu)建全局的基因共表達(dá)網(wǎng)絡(luò),和/或,根據(jù)該第一基因特征矩陣和目標(biāo)基因表達(dá)量矩陣構(gòu)建對應(yīng)的細(xì)胞類型特異性共表達(dá)網(wǎng)路,以此,使用基因特征來構(gòu)建全局的基因共表達(dá)網(wǎng)絡(luò)和/或細(xì)胞類型特異性共表達(dá)網(wǎng)絡(luò),可以避免直接基于稀疏的單細(xì)胞測序數(shù)據(jù)預(yù)測單細(xì)胞基因共表達(dá)導(dǎo)致假陽性偏高的問題,不僅提高了單細(xì)胞基因共表達(dá)預(yù)測的準(zhǔn)確性,而且能夠預(yù)測更顯著相關(guān)的細(xì)胞類型特異性基因模塊。