本發(fā)明涉及人工智能,尤其涉及一種傳輸方法、電子設(shè)備和存儲介質(zhì)。
背景技術(shù):
1、隨著人工智能技術(shù)的迅猛發(fā)展,尤其是大型語言模型(large?language?model,llm)的興起,對計算資源的需求呈現(xiàn)出爆炸性增長。這些模型的規(guī)模、訓(xùn)練數(shù)據(jù)的規(guī)模以及所需的gpu(graphics?processing?unit,圖形處理器)資源數(shù)量都以指數(shù)級的速度增長。
2、在某些情況下,為了滿足訓(xùn)練需求,甚至需要動用數(shù)千甚至數(shù)萬個gpu。然而,在當(dāng)前的gpu云服務(wù)和資源使用環(huán)境中,這些成千上萬個gpu可能來自不同制造商或者屬于同一制造商的不同產(chǎn)品型號,具有不同的硬件架構(gòu),即,是異構(gòu)的。
3、在這樣的背景下,將不同型號、不同廠商的gpu進行混合使用,以支持大規(guī)模模型的訓(xùn)練,即為異構(gòu)混訓(xùn)(也稱“異構(gòu)訓(xùn)練”)。異構(gòu)混訓(xùn)可以很好的解決目前數(shù)據(jù)中心gpu的“算力孤島”問題。
4、不同制造商或者不同型號的gpu之間的通信效率,直接影響著異構(gòu)混訓(xùn)的整體效率。如何提升異構(gòu)gpu之間的通信效率,以實現(xiàn)異構(gòu)gpu之間的高效互聯(lián)互通,已經(jīng)成為行業(yè)內(nèi)的一個熱點研究話題。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供一種傳輸方法、電子設(shè)備和存儲介質(zhì),用以解決相關(guān)技術(shù)中異構(gòu)gpu之間的通信效率低的缺陷。
2、本發(fā)明提供一種傳輸方法,應(yīng)用于本端主機,所述傳輸方法包括:
3、獲取由多個數(shù)據(jù)分片構(gòu)成的待傳輸數(shù)據(jù),所述多個數(shù)據(jù)分片由多個本端計算設(shè)備并行計算得到;
4、基于多條傳輸鏈路,并行傳輸所述多個數(shù)據(jù)分片至對端主機,以使所述對端主機將目標(biāo)數(shù)據(jù)分配至多個對端計算設(shè)備,所述目標(biāo)數(shù)據(jù)由接收到的多個數(shù)據(jù)分片構(gòu)成。
5、根據(jù)本發(fā)明提供的一種傳輸方法,所述多條傳輸鏈路與所述多個本端計算設(shè)備一一對應(yīng),各條所述傳輸鏈路用于傳輸對應(yīng)的本端計算設(shè)備計算所得的數(shù)據(jù)分片。
6、根據(jù)本發(fā)明提供的一種傳輸方法,所述基于多條傳輸鏈路,并行傳輸所述多個數(shù)據(jù)分片至對端主機,之前還包括:
7、基于與各個所述本端計算設(shè)備相對應(yīng)的本端網(wǎng)卡,建立與各個所述本端計算設(shè)備相對應(yīng)的傳輸鏈路。
8、根據(jù)本發(fā)明提供的一種傳輸方法,所述基于與各個所述本端計算設(shè)備相對應(yīng)的本端網(wǎng)卡,建立與各個所述本端計算設(shè)備相對應(yīng)的傳輸鏈路,之前還包括:
9、基于各個所述本端計算設(shè)備與各個所述本端網(wǎng)卡之間的連接關(guān)系和通信帶寬,確定與各個所述本端計算設(shè)備相對應(yīng)的本端網(wǎng)卡。
10、根據(jù)本發(fā)明提供的一種傳輸方法,所述基于與各個所述本端計算設(shè)備相對應(yīng)的本端網(wǎng)卡,建立與各個所述本端計算設(shè)備相對應(yīng)的傳輸鏈路,包括:
11、基于與各個所述本端計算設(shè)備相對應(yīng)的本端網(wǎng)卡,以及與各個所述本端計算設(shè)備相對應(yīng)的對端計算設(shè)備的對端網(wǎng)卡,建立與各個所述本端計算設(shè)備相對應(yīng)的傳輸鏈路。
12、根據(jù)本發(fā)明提供的一種傳輸方法,所述基于多條傳輸鏈路,并行傳輸所述多個數(shù)據(jù)分片至對端主機,包括:
13、基于所述多條傳輸鏈路,通過遠程直接內(nèi)存訪問技術(shù)并行傳輸所述多個數(shù)據(jù)分片至對端主機。
14、根據(jù)本發(fā)明提供的一種傳輸方法,所述基于多條傳輸鏈路,并行傳輸所述多個數(shù)據(jù)分片至對端主機,包括:
15、基于多條傳輸鏈路,并行傳輸所述多個數(shù)據(jù)分片的數(shù)據(jù)塊至對端主機;
16、各個所述數(shù)據(jù)分片的數(shù)據(jù)塊的尺寸為傳輸各個所述數(shù)據(jù)分片的傳輸鏈路下的目標(biāo)尺寸。
17、根據(jù)本發(fā)明提供的一種傳輸方法,所述基于多條傳輸鏈路,并行傳輸所述多個數(shù)據(jù)分片至對端主機,之前還包括:
18、將測試數(shù)據(jù)劃分為候選尺寸下的多個數(shù)據(jù)塊;
19、針對每條所述傳輸鏈路,基于所述傳輸鏈路,將所述候選尺寸下的多個數(shù)據(jù)塊傳輸至所述對端主機,得到所述候選尺寸下的數(shù)據(jù)傳輸耗時;
20、基于多個所述候選尺寸下的數(shù)據(jù)傳輸耗時,確定所述傳輸鏈路下的目標(biāo)尺寸。
21、本發(fā)明還提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如上述任一種所述傳輸方法。
22、本發(fā)明還提供一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述傳輸方法。
23、本發(fā)明還提供一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述傳輸方法。
24、本發(fā)明提供的傳輸方法、電子設(shè)備和存儲介質(zhì),通過多條傳輸鏈路,并行傳輸多個本端計算設(shè)備并行計算所得的多個數(shù)據(jù)分片至對端主機,再由對端主機分配至多個對端計算設(shè)備,以實現(xiàn)本端計算設(shè)備和對端計算設(shè)備之間的多鏈路數(shù)據(jù)傳輸,從而大大降低本端計算設(shè)備和對端計算設(shè)備之間的傳輸延遲,提升本端計算設(shè)備和對端計算設(shè)備之間的傳輸效率。
1.一種傳輸方法,其特征在于,所述傳輸方法應(yīng)用于本端主機,所述傳輸方法包括:
2.根據(jù)權(quán)利要求1所述的傳輸方法,其特征在于,所述多條傳輸鏈路與所述多個本端計算設(shè)備一一對應(yīng),各條所述傳輸鏈路用于傳輸對應(yīng)的本端計算設(shè)備計算所得的數(shù)據(jù)分片。
3.根據(jù)權(quán)利要求2所述的傳輸方法,其特征在于,所述基于多條傳輸鏈路,并行傳輸所述多個數(shù)據(jù)分片至對端主機,之前還包括:
4.根據(jù)權(quán)利要求3所述的傳輸方法,其特征在于,所述基于與各個所述本端計算設(shè)備相對應(yīng)的本端網(wǎng)卡,建立與各個所述本端計算設(shè)備相對應(yīng)的傳輸鏈路,之前還包括:
5.根據(jù)權(quán)利要求3所述的傳輸方法,其特征在于,所述基于與各個所述本端計算設(shè)備相對應(yīng)的本端網(wǎng)卡,建立與各個所述本端計算設(shè)備相對應(yīng)的傳輸鏈路,包括:
6.根據(jù)權(quán)利要求1至5中任一項所述的傳輸方法,其特征在于,所述基于多條傳輸鏈路,并行傳輸所述多個數(shù)據(jù)分片至對端主機,包括:
7.根據(jù)權(quán)利要求1至5中任一項所述的傳輸方法,其特征在于,所述基于多條傳輸鏈路,并行傳輸所述多個數(shù)據(jù)分片至對端主機,包括:
8.根據(jù)權(quán)利要求7所述的傳輸方法,其特征在于,所述基于多條傳輸鏈路,并行傳輸所述多個數(shù)據(jù)分片至對端主機,之前還包括:
9.一種電子設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1至8任一項所述傳輸方法。
10.一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至8任一項所述傳輸方法。
11.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至8任一項所述傳輸方法。