成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

用于管理基因序列的方法和裝置的制造方法

文檔序號:9865963閱讀:580來源:國知局
用于管理基因序列的方法和裝置的制造方法
【技術領域】
[0001] 本發(fā)明的各實施方式涉及數(shù)據(jù)管理,更具體地,涉及用于管理基因序列(gene sequence)的方法和裝置。
【背景技術】
[0002] 隨著生物學的發(fā)展,人類對于生物基因的研究已經(jīng)越來越深入,例如,已經(jīng)涉及到 了諸如人類健康、藥物研發(fā)、動植物新品種W及關于微生物等諸多方面。
[0003] 通過對生物的基因序列進行測序(sequencing),可W獲得構(gòu)成該生物的染色體的 堿基對的序列。通常,將測量一個物種的第一個樣本的基因序列的過程稱為測序,而將測量 該物種的其他樣本的基因序列的過程稱為重測序(re-sequencing)。測序和重測序技術已 經(jīng)實現(xiàn)了突破,并且隨著所涉及的各項成本的降低,越來越多的個人或者團體開始認識到 基因序列的重要性,并且目前已經(jīng)通過測序/重測序過程而獲得了大量物種的基因序列數(shù) 據(jù)。
[0004] 基因序列包括大量數(shù)據(jù),僅W人類基因為例,人類基因包括大約30億個堿基對, 按照現(xiàn)有的表示方式,人類的基因序列將包括大約60億個字符(字符A、G、T、C)。因而,在 基因數(shù)據(jù)庫中存儲的每個基因序列將會占用大量的存儲空間。進一步,當需要存儲大量基 因序列、或者當需要針對基因序列進行拷貝和傳輸時,將會面臨數(shù)據(jù)存儲/數(shù)據(jù)傳輸效率 方面的更多挑戰(zhàn)。
[0005] 生物學家已經(jīng)發(fā)現(xiàn),同一物種的各個樣本的基因序列之間存在一定的相似性。例 女口,人類的基因序列之間的相似性遠遠高于人類與其他物種的基因序列之間的相似性;進 一步,黃色人種的基因序列之間的相似性通常會高于黃色人種與白色人種的基因序列之間 的相似性。因而基于相似性,目前已經(jīng)提出了參考基因序列的概念,參考基因序列可W是在 W往的數(shù)據(jù)處理期間獲得的具有代表性的典型基因序列。
[0006] 例如,對于人類而言,黃色人種的男性的基因序列中可能會存在某些共同的部分, 例如,控制皮膚顏色、頭發(fā)顏色、性別的基因序列片段可能是相同的或者僅存在較小差異。 因而,可W將某個黃色人種男性的基因序列作為參考基因序列。當需要存儲另一個黃色人 種男性的基因序列時,可W將該另一男性的基因序列與參考基因序列進行比較,并且僅需 要存儲兩個基因序列之間數(shù)據(jù)差異和參考基因序列的標識符即可。W此方式,可W大大降 低待存儲的數(shù)據(jù)量,因而實現(xiàn)數(shù)據(jù)壓縮的目的。
[0007] 應當注意,由于黃色人種的男性的基因序列中的很多部分是相同的,并且差異數(shù) 據(jù)所占的比例通常并不太高。因而上述方法可W大大降低帶存儲基因序列所占用的數(shù)據(jù)空 間??蒞在參考數(shù)據(jù)庫中存儲大量參考基因序列,并且基于相似性搜索來從參考數(shù)據(jù)庫中 選擇與待存儲基因序列最為匹配的參考基因序列。然而,由于每個基因序列的數(shù)據(jù)量通常 極大,并且包括字符A、G、T、C的各種組合,送些特點使得現(xiàn)有的相似性搜索算法并不十分 適合于基因序列。
[0008] 在基因序列處理的技術領域中,如何確定兩個基因序列之間的相似性是選擇參考 基因序列w及其他后續(xù)處理的基礎,因而如何基于基因序列的特征而提供更有效的確定相 似性的方法,成為目前基因序列處理領域中的一個研究熱點。

【發(fā)明內(nèi)容】

[0009] 因而,期望能夠充分考慮基因序列的自身特點,來提供用于確定第一基因序列與 第二基因序列之間的相似性的更加有效的技術方案。進一步,期望可W基于該確定相似性 的方法來找到更加匹配于待存儲基因序列的參考基因序列,W便降低待存儲基因序列和參 考基因序列之間的差異數(shù)據(jù)的數(shù)據(jù)量,進而實現(xiàn)更好的數(shù)據(jù)壓縮效果。
[0010] 在本發(fā)明的一個實施方式中,提供了一種用于確定第一基因序列與第二基因序列 之間的相似性的方法,包括:分別在第一基因序列和第二基因序列上移動預定長度的滑動 窗口;在滑動窗口的第i次移動期間,提取所述第一基因序列在所述滑動窗口內(nèi)的第一部 分Stringli、和所述第二基因序列在所述滑動窗口內(nèi)的第二部分String2i ; W及基于第一 部分Stringli和第二部分String2i確定第一基因序列與第二基因序列之間的相似性。
[0011] 在本發(fā)明的一個實施方式中,提供了一種用于壓縮基因序列的方法,包括;響應于 獲取基因序列W及至少一個參考基因序列,采用根據(jù)本發(fā)明的方法,確定至少一個參考基 因序列中的每個參考基因序列與基因序列之間的至少一個相似性;響應于至少一個相似性 中的最小值小于或者等于預定闊值,選擇相似性為最小值的參考基因序列作為當前參考基 因序列;W及生成經(jīng)壓縮的基因序列,經(jīng)壓縮的基因序列包括當前參考基因序列的標識符 W及基因序列與當前參考基因序列之間的差異數(shù)據(jù)。
[0012] 在本發(fā)明的一個實施方式中,提供了一種用于對經(jīng)壓縮的基因序列進行解壓縮的 方法,包括:響應于接收到根據(jù)本發(fā)明方法進行壓縮的經(jīng)壓縮的基因序列,從經(jīng)壓縮的基因 序列中提取當前參考基因序列的標識符W及差異數(shù)據(jù);基于當前參考基因序列的標識符從 參考數(shù)據(jù)庫中獲取當前參考基因序列;W及基于參考基因序列和差異數(shù)據(jù),對經(jīng)壓縮的基 因序列進行解壓縮。
[0013] 在本發(fā)明的一個實施方式中,提供了一種用于確定第一基因序列與第二基因序列 之間的相似性的裝置,包括:移動模塊,配置用于分別在第一基因序列和第二基因序列上 移動預定長度的滑動窗口;提取模塊,配置用于在滑動窗口的第i次移動期間,提取所述 第一基因序列在所述滑動窗口內(nèi)的第一部分Stringli、和所述第二基因序列在所述滑動 窗口內(nèi)的第二部分String2i ; W及確定模塊,配置用于基于第一部分Stringli和第二部分 String2i確定第一基因序列與第二基因序列之間的相似性。
[0014] 在本發(fā)明的一個實施方式中,提供了一種用于壓縮基因序列的裝置,包括;確定模 塊,配置用于響應于獲取基因序列W及至少一個參考基因序列,采用根據(jù)本發(fā)明的裝置,確 定至少一個參考基因序列中的每個參考基因序列與基因序列之間的至少一個相似性;選擇 模塊,配置用于響應于至少一個相似性中的最小值小于或者等于預定闊值,選擇相似性為 最小值的參考基因序列作為當前參考基因序列;W及生成模塊,配置用于生成經(jīng)壓縮的基 因序列,經(jīng)壓縮的基因序列包括當前參考基因序列的標識符W及基因序列與當前參考基因 序列之間的差異數(shù)據(jù)。
[0015] 在本發(fā)明的一個實施方式中,提供了一種用于對經(jīng)壓縮的基因序列進行解壓縮的 裝置,包括:提取模塊,配置用于響應于接收到根據(jù)本發(fā)明的裝置進行壓縮的經(jīng)壓縮的基因 序列,從經(jīng)壓縮的基因序列中提取當前參考基因序列的標識符w及差異數(shù)據(jù);獲取模塊,配 置用于基于當前參考基因序列的標識符從參考數(shù)據(jù)庫中獲取當前參考基因序列;W及解壓 模塊,配置用于基于參考基因序列和差異數(shù)據(jù),對經(jīng)壓縮的基因序列進行解壓縮。
[0016] 采用根據(jù)本發(fā)明的實施方式所述的技術方案,可W W更加適合于基因序列的自身 特點的方式來度量兩個基因序列之間的相似性;進一步,還可W基于該相似性來找到參考 數(shù)據(jù)庫中的最為匹配參考基因序列,進而W壓縮方式來存儲待存儲基因序列。
【附圖說明】
[0017] 結(jié)合附圖并參考W下詳細說明,本發(fā)明各實施方式的特征、優(yōu)點及其他方面將變 得更加明顯。本發(fā)明附圖中,相同的標號表示相同或相似的元素。在附圖中:
[0018] 圖1示意性示出了適于實現(xiàn)本發(fā)明實施方式的示例性計算系統(tǒng)的框圖;
[0019] 圖2示意性示出了用于針對生物進行測序所得的基因序列的數(shù)據(jù)結(jié)構(gòu)的示意;
[0020] 圖3示意性示出了根據(jù)本發(fā)明一個實施方式的用于確定第一基因序列與第二基 因序列之間的相似性的技術方案的框圖;
[0021] 圖4示意性示出了根據(jù)本發(fā)明一個實施方式的用于確定第一基因序列與第二基 因序列之間的相似性的方法的流程圖;
[0022] 圖5示意性示出了根據(jù)本發(fā)明一個實施方式的用于確定第一基因序列與第二基 因序列之間的相似性的過程的示意圖;
[0023] 圖6示意性示出了根據(jù)本發(fā)明一個實施方式的用于壓縮基因序列的方法的流程 圖;
[0024] 圖7A和圖7B分別示意性示出了根據(jù)本發(fā)明一個實施方式的在壓縮期間處理注釋 和分段的框圖;
[00巧]圖8示意性示出了根據(jù)本發(fā)明一個實施方式的對經(jīng)壓縮的基因序列進行解壓縮 的方法的流程圖;W及
[0026] 圖9A示意性示出了根據(jù)本發(fā)明一個實施方式的用于確定第一基因序列與第二基 因序列之間的相似性的裝置的框圖,圖9B示意性示出了根據(jù)本發(fā)明一個實施方式的用于 壓縮基因序列的裝置的框圖,W及圖9C示意性示出了根據(jù)本發(fā)明一個實施方式的用于對 經(jīng)壓縮的基因序列進行解壓縮的裝置的框圖。
【具體實施方式】
[0027] 圖1示出了適于用來實現(xiàn)本發(fā)明實施方式的示例性計算機系統(tǒng)/服務器12的框 圖。圖1顯示的計算機系統(tǒng)/服務器12僅僅是一個示例,不應對本發(fā)明實施方式的功能和 使用范圍帶來任何限制。
[0028] 如圖1所示,計算機系統(tǒng)/服務器12 W通用計算設備的形式表現(xiàn)。計算機系統(tǒng) /服務器12的組件可W包括但不限于;一個或者多個處理器或者處理單元16,系統(tǒng)存儲器 28,連接不同系統(tǒng)組件(包括系統(tǒng)存儲器28和處理單元16)的總線18。
[0029] 總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲器總線或者存儲器控制器, 外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉 例來說,送些體系結(jié)構(gòu)包括但不限于工業(yè)標準體系結(jié)構(gòu)(ISA)總線,微通道體系結(jié)構(gòu)(MAC) 總線,增強型ISA總線、視頻電子標準協(xié)會(VESA)局域總線W及外圍組件互連(PCI)總線。
[0030] 計算機系統(tǒng)/服務器12典型地包括多種計算機系統(tǒng)可讀介質(zhì)。送些介質(zhì)可W是 任何能夠被計算機系統(tǒng)/服務器12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動 的和不可移動的介質(zhì)。
[0031] 系統(tǒng)存儲器28可W包括易失性存儲器形式的計算機系統(tǒng)可讀介質(zhì),例如隨機存 取存儲器(RAM) 30和/或高速緩存存儲器32。計算機系統(tǒng)/服務器12可W進一步包括其 他可移動/不可移動的、易失性/非易失性計算機系統(tǒng)存儲介質(zhì)。僅作為舉例,存儲系統(tǒng)34 可W用于讀寫不可移動的、非易失性磁介質(zhì)(圖1未顯示,通常稱為"硬盤驅(qū)動器")。盡管 圖1中未示出,可W提供用于對可移動非易失性磁盤(例如"軟盤")讀寫的磁盤驅(qū)動器, W及對可移動非易失性光盤(例如CD-ROM, DVD-ROM或者其他光介質(zhì))讀寫的光盤驅(qū)動器。 在送些情況下,每個驅(qū)動器可W通過一個或者多個數(shù)據(jù)介質(zhì)接口與總線18相連。存儲器28 可W包括至少一個程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個)程序模塊,送些程序模 塊被配置W執(zhí)行本發(fā)明各實施方式的功能。
[0032] 具有一組(至少一個)程序模塊42的程序/實用工具40,可W存儲在例如存儲器 28中,送樣的程序模塊42包括一但不限于一操作系統(tǒng)、一個或者多個應用程序、其他 程序模塊W及程序數(shù)據(jù),送些示例中的每一個或某種組合中可能包括網(wǎng)絡環(huán)境的實現(xiàn)。程 序模塊42通常執(zhí)行本發(fā)明所描述的實施方式中的功能和/或方法。
[0033] 計算機系統(tǒng)/服務器12也可W與一個或多個外部設備14 (
當前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1