成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

用于頁面文檔的數(shù)據(jù)結(jié)構(gòu)生成方法、系統(tǒng)及電子設(shè)備與流程

文檔序號:41852123發(fā)布日期:2025-05-09 18:11閱讀:3來源:國知局
用于頁面文檔的數(shù)據(jù)結(jié)構(gòu)生成方法、系統(tǒng)及電子設(shè)備與流程

本發(fā)明涉及文檔解析,尤其涉及一種用于頁面文檔的數(shù)據(jù)結(jié)構(gòu)生成方法、系統(tǒng)及電子設(shè)備。


背景技術(shù):

1、在數(shù)字化時代中,html(hypertext?markup?language,超文本標(biāo)記語言)等頁面文檔已成為互聯(lián)網(wǎng)信息展示的核心載體,通過標(biāo)簽化的結(jié)構(gòu)來組織和呈現(xiàn)頁面內(nèi)容,使得頁面能夠按照預(yù)定的布局和格式展示信息,為用戶提供了直觀、便捷的瀏覽體驗,廣泛應(yīng)用于企業(yè)網(wǎng)站、在線手冊、電子商務(wù)平臺以及各類信息門戶中。而隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,頁面內(nèi)容逐漸從簡單的文本和圖片擴展到包含視頻、音頻、動畫、交互元素等在內(nèi)的多媒體內(nèi)容,頁面文檔的復(fù)雜度也隨之大幅提升,導(dǎo)致html文檔等頁面文檔所包含的層級結(jié)構(gòu)越來越復(fù)雜,標(biāo)簽種類和數(shù)量急劇增加。

2、面對復(fù)雜的多層嵌套結(jié)構(gòu)和混合文本時,人工摘取數(shù)據(jù)結(jié)構(gòu)的方式效率低下,無法滿足大規(guī)模、高效率的信息處理需求,而利用機器學(xué)習(xí)、自然語言處理等技術(shù)對頁面文檔進(jìn)行解析和提取,能夠在一定程度上提高數(shù)據(jù)結(jié)構(gòu)的獲取效率,但由于頁面文檔結(jié)構(gòu)的復(fù)雜性和多樣性,自動化方法往往難以準(zhǔn)確識別并去除數(shù)據(jù)結(jié)構(gòu)中的干擾標(biāo)簽,導(dǎo)致提取出的數(shù)據(jù)結(jié)構(gòu)中包含大量無關(guān)或冗余的內(nèi)容,影響用戶的查閱和使用體驗,易讀性較低。


技術(shù)實現(xiàn)思路

1、為了對披露的實施例的一些方面有基本的理解,下面給出了簡單的概括。所述概括不是泛泛評述,也不是要確定關(guān)鍵/重要組成元素或描繪這些實施例的保護范圍,而是作為后面的詳細(xì)說明的序言。

2、鑒于以上所述現(xiàn)有技術(shù)的缺點,本申請?zhí)峁┝艘环N用于頁面文檔的數(shù)據(jù)結(jié)構(gòu)生成方法、系統(tǒng)及電子設(shè)備,以在實現(xiàn)自動化生成數(shù)據(jù)結(jié)構(gòu)的同時去除干擾標(biāo)簽,提高數(shù)據(jù)結(jié)構(gòu)的易讀性。

3、本申請?zhí)峁┝艘环N用于頁面文檔的數(shù)據(jù)結(jié)構(gòu)生成方法,包括:獲取頁面文檔中的導(dǎo)航標(biāo)簽,并將所述導(dǎo)航標(biāo)簽作為當(dāng)前標(biāo)簽;響應(yīng)于當(dāng)前標(biāo)簽,從所述頁面文檔中獲取所述當(dāng)前標(biāo)簽對應(yīng)的一個或多個子標(biāo)簽,根據(jù)標(biāo)簽類型將各所述子標(biāo)簽確定為待記錄標(biāo)簽或新的當(dāng)前標(biāo)簽,并根據(jù)所述待記錄標(biāo)簽生成結(jié)構(gòu)節(jié)點;根據(jù)結(jié)構(gòu)節(jié)點集合生成所述頁面文檔對應(yīng)的數(shù)據(jù)結(jié)構(gòu),其中,所述結(jié)構(gòu)節(jié)點集合存儲有所述結(jié)構(gòu)節(jié)點。

4、于本申請一實施例中,獲取頁面文檔中的導(dǎo)航標(biāo)簽,包括:將頁面文檔傳入所述文檔解析方法,其中,所述文檔解析方法用于利用預(yù)設(shè)的文檔解析算法對所述頁面文檔進(jìn)行解析,得到解析結(jié)果,并從所述解析結(jié)果中提取導(dǎo)航標(biāo)簽;所述文檔解析方法是基于python環(huán)境構(gòu)建的。

5、于本申請一實施例中,將所述導(dǎo)航標(biāo)簽作為當(dāng)前標(biāo)簽,包括:將所述導(dǎo)航標(biāo)簽作為循環(huán)起始標(biāo)簽;響應(yīng)于循環(huán)起始標(biāo)簽,生成所述循環(huán)起始標(biāo)簽對應(yīng)的結(jié)構(gòu)節(jié)點集合,并將所述循環(huán)起始標(biāo)簽作為當(dāng)前標(biāo)簽;響應(yīng)于當(dāng)前標(biāo)簽,將所述當(dāng)前標(biāo)簽和所述結(jié)構(gòu)節(jié)點集合傳入標(biāo)簽解析方法,其中,所述標(biāo)簽解析方法用于從所述頁面文檔中獲取所述當(dāng)前標(biāo)簽對應(yīng)的一個或多個子標(biāo)簽,根據(jù)標(biāo)簽類型將各所述子標(biāo)簽確定為待記錄標(biāo)簽或新的當(dāng)前標(biāo)簽,并根據(jù)所述待記錄標(biāo)簽生成結(jié)構(gòu)節(jié)點;所述標(biāo)簽解析方法是基于python環(huán)境構(gòu)建的。

6、于本申請一實施例中,根據(jù)標(biāo)簽類型將各所述子標(biāo)簽確定為待記錄標(biāo)簽或新的當(dāng)前標(biāo)簽,包括以下至少一種:若所述子標(biāo)簽的數(shù)量為一個,且所述子標(biāo)簽對應(yīng)的標(biāo)簽類型包括文本類型或鏈接類型,則將所述子標(biāo)簽確定為待記錄標(biāo)簽;若所述子標(biāo)簽的數(shù)量為一個,且所述子標(biāo)簽對應(yīng)的標(biāo)簽類型不包括文本類型和鏈接類型,則將所述子標(biāo)簽確定為新的當(dāng)前標(biāo)簽;若所述子標(biāo)簽的數(shù)量為多個,且各所述子標(biāo)簽對應(yīng)的標(biāo)簽結(jié)構(gòu)為嵌套結(jié)構(gòu),則將文本類型對應(yīng)的子標(biāo)簽確定為待記錄標(biāo)簽,并將所述待記錄標(biāo)簽之外的子標(biāo)簽確定為新的循環(huán)起始標(biāo)簽;若所述子標(biāo)簽的數(shù)量為多個,且各所述子標(biāo)簽對應(yīng)的標(biāo)簽結(jié)構(gòu)為平行結(jié)構(gòu),則將各所述子標(biāo)簽確定為新的當(dāng)前標(biāo)簽。

7、于本申請一實施例中,將第一順位的子標(biāo)簽確定為第一標(biāo)簽,通過以下至少一種方式確定標(biāo)簽結(jié)構(gòu):若所述第一標(biāo)簽的標(biāo)簽類型包括文本類型,則將各所述子標(biāo)簽對應(yīng)的標(biāo)簽結(jié)構(gòu)確定為嵌套結(jié)構(gòu);若所述第一標(biāo)簽的標(biāo)簽類型不包括文本類型,則將各所述子標(biāo)簽對應(yīng)的標(biāo)簽結(jié)構(gòu)確定為平行結(jié)構(gòu)。

8、于本申請一實施例中,所述結(jié)構(gòu)節(jié)點由以下至少一部分組成:標(biāo)題字段,用于承載所述待記錄標(biāo)簽對應(yīng)的標(biāo)簽名稱;路徑字段,用于承載鏈接標(biāo)簽中的路徑地址,其中,所述鏈接標(biāo)簽為任一子標(biāo)簽,且所述鏈接標(biāo)簽對應(yīng)的標(biāo)簽類型包括鏈接類型;節(jié)點集合字段,用于承載所述子標(biāo)簽中循環(huán)起始標(biāo)簽對應(yīng)的結(jié)構(gòu)節(jié)點集合。

9、于本申請一實施例中,根據(jù)所述待記錄標(biāo)簽生成結(jié)構(gòu)節(jié)點,包括:響應(yīng)于當(dāng)前標(biāo)簽,按照json結(jié)構(gòu)生成所述當(dāng)前標(biāo)簽對應(yīng)的結(jié)構(gòu)節(jié)點;若所述當(dāng)前標(biāo)簽對應(yīng)的子標(biāo)簽存在待記錄標(biāo)簽,則通過所述結(jié)構(gòu)節(jié)點記錄所述待記錄標(biāo)簽的標(biāo)簽信息,并將所述結(jié)構(gòu)節(jié)點存入目標(biāo)集合中,其中,所述目標(biāo)集合為傳入所述標(biāo)簽解析方法的結(jié)構(gòu)節(jié)點集合。

10、于本申請一實施例中,所述方法還包括:基于python環(huán)境構(gòu)建文本過濾方法;將所述子標(biāo)簽以子標(biāo)簽集合的形式傳入所述文本過濾方法,其中,所述文本過濾方法用于從所述子標(biāo)簽中刪除干擾文本。

11、本申請?zhí)峁┝艘环N用于頁面文檔的數(shù)據(jù)結(jié)構(gòu)生成系統(tǒng)系統(tǒng),包括:文檔解析模塊,被配置為獲取頁面文檔中的導(dǎo)航標(biāo)簽,并將所述導(dǎo)航標(biāo)簽作為當(dāng)前標(biāo)簽;標(biāo)簽解析模塊,被配置為響應(yīng)于當(dāng)前標(biāo)簽,從所述頁面文檔中獲取所述當(dāng)前標(biāo)簽對應(yīng)的一個或多個子標(biāo)簽,根據(jù)標(biāo)簽類型將各所述子標(biāo)簽確定為待記錄標(biāo)簽或新的當(dāng)前標(biāo)簽,并根據(jù)所述待記錄標(biāo)簽生成結(jié)構(gòu)節(jié)點;生成模塊,被配置為根據(jù)結(jié)構(gòu)節(jié)點集合生成所述頁面文檔對應(yīng)的數(shù)據(jù)結(jié)構(gòu),其中,所述結(jié)構(gòu)節(jié)點集合存儲有所述結(jié)構(gòu)節(jié)點。

12、本申請?zhí)峁┝艘环N電子設(shè)備,包括:處理器及存儲器;所述存儲器用于存儲計算機程序,所述處理器用于執(zhí)行所述存儲器存儲的計算機程序,以使所述電子設(shè)備執(zhí)行上述的方法。

13、本申請的有益效果:

14、通過將頁面文檔中的導(dǎo)航標(biāo)簽作為當(dāng)前標(biāo)簽,并響應(yīng)于當(dāng)前標(biāo)簽,根據(jù)標(biāo)簽類型將當(dāng)前標(biāo)簽對應(yīng)的子標(biāo)簽確定為待記錄標(biāo)簽或新的當(dāng)前標(biāo)簽,從而根據(jù)基于待記錄標(biāo)簽生成的結(jié)構(gòu)節(jié)點生成頁面文檔對應(yīng)的數(shù)據(jù)結(jié)構(gòu)。這樣,以頁面文檔中的導(dǎo)航標(biāo)簽作為解析起點,并以當(dāng)前標(biāo)簽作為循環(huán)起點,根據(jù)待記錄標(biāo)簽生成結(jié)構(gòu)節(jié)點,并將干擾項的標(biāo)簽作為新的當(dāng)前標(biāo)簽,以循環(huán)方式將頁面文檔中的文檔標(biāo)簽逐一進(jìn)行解析,從而根據(jù)結(jié)構(gòu)節(jié)點生成頁面文檔對應(yīng)的數(shù)據(jù)結(jié)構(gòu),在實現(xiàn)自動化生成數(shù)據(jù)結(jié)構(gòu)的同時去除干擾標(biāo)簽,提高了數(shù)據(jù)結(jié)構(gòu)的易讀性。



技術(shù)特征:

1.一種用于頁面文檔的數(shù)據(jù)結(jié)構(gòu)生成方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取頁面文檔中的導(dǎo)航標(biāo)簽,包括:

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述導(dǎo)航標(biāo)簽作為當(dāng)前標(biāo)簽,包括:

4.根據(jù)權(quán)利要求3所述的方法,其特征在于,根據(jù)標(biāo)簽類型將各所述子標(biāo)簽確定為待記錄標(biāo)簽或新的當(dāng)前標(biāo)簽,包括以下至少一種:

5.根據(jù)權(quán)利要求4所述的方法,其特征在于,將第一順位的子標(biāo)簽確定為第一標(biāo)簽,通過以下至少一種方式確定標(biāo)簽結(jié)構(gòu):

6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述結(jié)構(gòu)節(jié)點由以下至少一部分組成:

7.根據(jù)權(quán)利要求3所述的方法,其特征在于,根據(jù)所述待記錄標(biāo)簽生成結(jié)構(gòu)節(jié)點,包括:

8.根據(jù)權(quán)利要求1至7任一項所述的方法,其特征在于,所述方法還包括:

9.一種用于頁面文檔的數(shù)據(jù)結(jié)構(gòu)生成系統(tǒng)系統(tǒng),其特征在于,包括:

10.一種電子設(shè)備,其特征在于,包括:處理器及存儲器;


技術(shù)總結(jié)
本申請涉及文檔解析技術(shù)領(lǐng)域,公開了一種用于頁面文檔的數(shù)據(jù)結(jié)構(gòu)生成方法、系統(tǒng)及電子設(shè)備。該申請通過將頁面文檔中的導(dǎo)航標(biāo)簽作為當(dāng)前標(biāo)簽,并響應(yīng)于當(dāng)前標(biāo)簽,根據(jù)標(biāo)簽類型將當(dāng)前標(biāo)簽對應(yīng)的子標(biāo)簽確定為待記錄標(biāo)簽或新的當(dāng)前標(biāo)簽,從而根據(jù)基于待記錄標(biāo)簽生成的結(jié)構(gòu)節(jié)點生成頁面文檔對應(yīng)的數(shù)據(jù)結(jié)構(gòu),以頁面文檔中的導(dǎo)航標(biāo)簽作為解析起點,并以當(dāng)前標(biāo)簽作為循環(huán)起點,根據(jù)待記錄標(biāo)簽生成結(jié)構(gòu)節(jié)點,并將干擾項的標(biāo)簽作為新的當(dāng)前標(biāo)簽,以循環(huán)方式將頁面文檔中的文檔標(biāo)簽逐一進(jìn)行解析,從而根據(jù)結(jié)構(gòu)節(jié)點生成頁面文檔對應(yīng)的數(shù)據(jù)結(jié)構(gòu),在實現(xiàn)自動化生成數(shù)據(jù)結(jié)構(gòu)的同時去除干擾標(biāo)簽,提高了數(shù)據(jù)結(jié)構(gòu)的易讀性。

技術(shù)研發(fā)人員:周雙
受保護的技術(shù)使用者:重慶賽力斯鳳凰智創(chuàng)科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/8
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1