成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

一種結(jié)合視覺模型的家裝產(chǎn)品圖紙識(shí)別方法、系統(tǒng)及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):41839779發(fā)布日期:2025-05-09 12:17閱讀:3來源:國(guó)知局
本發(fā)明涉及計(jì)算機(jī),尤其涉及一種結(jié)合視覺模型的家裝產(chǎn)品圖紙識(shí)別方法、系統(tǒng)及存儲(chǔ)介質(zhì)。
背景技術(shù)
::1、在家裝制造業(yè)領(lǐng)域里,存在大量由cad導(dǎo)出的pdf文檔,此類文檔的頁面只由線段和文本元素組成,因而常規(guī)的文檔提取方法難以處理此類文檔。2、主流的文檔處理方法主要基于兩類。第一類是基于ocr的圖紙文檔識(shí)別,此類方法先通過ocr技術(shù),將圖紙內(nèi)容智能識(shí)別后,通過一系列后處理算法將文檔內(nèi)容整理歸檔。然而,這類方法基本上完全依賴ocr效果,一方面ocr效果暫不能實(shí)現(xiàn)100%的信息提取,另一方面該方法需要面對(duì)的后處理情況會(huì)很多很復(fù)雜。3、第二類方法是基于深度學(xué)習(xí)的圖紙識(shí)別技術(shù),此類方法通過一些訓(xùn)練好的深度學(xué)習(xí)模型完成圖紙識(shí)別任務(wù)。然而這種方法同樣嚴(yán)重依賴模型識(shí)別結(jié)果,且模型的效果會(huì)相對(duì)更差。4、目前,其他方法主要都是針對(duì)圖紙上的少量圖元識(shí)別進(jìn)行的,缺乏對(duì)完整文檔信息的提取。技術(shù)實(shí)現(xiàn)思路1、本發(fā)明實(shí)施例的主要目的在于提出一種結(jié)合視覺模型的家裝產(chǎn)品圖紙識(shí)別方法、系統(tǒng)及存儲(chǔ)介質(zhì),能夠提取完整的文檔信息,提高文檔的識(shí)別效果。2、為實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例的一方面提出了一種結(jié)合視覺模型的家裝產(chǎn)品圖紙識(shí)別方法,包括以下步驟:3、獲取家裝產(chǎn)品圖紙pdf文檔,構(gòu)建頁面圖片,獲取頁面內(nèi)的線段元素、文本元素;4、通過檢測(cè)網(wǎng)絡(luò),檢測(cè)所述頁面圖片的cad元素和table元素,并排除誤檢的cad元素;5、對(duì)所述線段元素劃分為表格所屬線段和游離線段兩部分;6、合并cad元素周圍的游離線段和文本元素,確定最終的文本元素;7、按照表格格式順序重新整理所有的文本元素和cad元素,以文本表格形式完成文檔歸檔。8、在一些實(shí)施例中,所述獲取家裝產(chǎn)品圖紙pdf文檔,構(gòu)建頁面圖片,獲取頁面內(nèi)的線段元素、文本元素,包括以下步驟:9、獲取家裝產(chǎn)品圖紙pdf文檔;10、根據(jù)所述家裝產(chǎn)品圖紙pdf文檔,初始化線段元素、文本元素、頁面圖片;11、遍歷每一頁圖紙,將所有線段元素記錄到線段元素集合,將所有文本元素記錄到文本元素集合,將所有頁面圖片記錄到頁面圖片集合。12、在一些實(shí)施例中,所述通過檢測(cè)網(wǎng)絡(luò),檢測(cè)所述頁面圖片的cad元素和table元素,包括以下步驟:13、調(diào)用目標(biāo)檢測(cè)模型grounding?dino;14、初始化cad元素,并將cad元素的數(shù)據(jù)結(jié)構(gòu)確認(rèn)為字典類型;15、遍歷每一頁圖紙,進(jìn)行下列處理:16、獲取當(dāng)前頁面圖片;17、使用目標(biāo)檢測(cè)模型,分別識(shí)別其中的“cad”和“table”元素,其中,目標(biāo)框的檢測(cè)閾值設(shè)定為0.35,文本閾值設(shè)定為0.25;18、獲取所有檢測(cè)結(jié)果,每個(gè)檢測(cè)結(jié)果包括類別、目標(biāo)框和置信度;19、遍歷所有類別為cad的檢測(cè)結(jié)果,如果該檢測(cè)結(jié)果的第一目標(biāo)框與某個(gè)類別為table的檢測(cè)結(jié)果的第二目標(biāo)框重疊,且重疊面積占第二目標(biāo)框的占比大于90%,則將該類別為cad的檢測(cè)結(jié)果刪除;保留其他檢測(cè)結(jié)果;20、將所有保留下來的類別為cad的檢測(cè)結(jié)果的檢測(cè)框?qū)ο筮M(jìn)行記錄存儲(chǔ)。21、在一些實(shí)施例中,所述對(duì)所述線段元素劃分為表格所屬線段和游離線段兩部分,包括以下步驟:22、初始化表格所屬線段和游離線段,數(shù)據(jù)結(jié)構(gòu)均為字典類型;23、遍歷每一頁圖紙,并執(zhí)行以下步驟:24、獲取當(dāng)前頁面的線段元素;25、遍歷所有線段元素,根據(jù)線段起止點(diǎn)坐標(biāo)關(guān)系劃分水平線段元素和垂直線段元素;26、兩兩遍歷水平線段元素和垂直線段元素組合,如果某個(gè)水平線段元素的x軸坐標(biāo)與某個(gè)垂直線段元素的x軸坐標(biāo)相等,則歸為表格所屬線段;27、遍歷所有線段元素,將所有不屬于表格所屬線段的線段元素歸為游離線段;28、獲取當(dāng)前頁面的文本元素。29、在一些實(shí)施例中,所述合并cad元素周圍的游離線段和文本元素,確定最終的文本元素,包括以下步驟:30、根據(jù)自定義的元素合并閾值,將所有滿足距離小于所述元素合并閾值的游離線段和文本元素合并到cad對(duì)象范圍內(nèi),重新計(jì)算cad對(duì)象范圍,將cad對(duì)象元素作為一個(gè)特殊的文本標(biāo)簽加入到該頁的文本元素集合;具體為:31、遍歷每一頁圖紙,并執(zhí)行以下步驟:32、定義游離線段合并閾值;33、獲取當(dāng)前頁面的cad檢測(cè)結(jié)果,其中,每一個(gè)結(jié)果都是cad元素所對(duì)應(yīng)的檢測(cè)框;34、獲取當(dāng)前頁面的游離線段;35、兩兩遍歷,計(jì)算cad對(duì)象框與游離線段的距離;36、將距離小于游離線段合并閾值的游離線段合并到cad對(duì)象范圍內(nèi);37、合并完畢后,重新計(jì)算cad對(duì)象的檢測(cè)框,并更新當(dāng)前頁面的cad檢測(cè)結(jié)果;38、遍歷當(dāng)前頁面的cad檢測(cè)結(jié)果里的所有cad對(duì)象的檢測(cè)框,根據(jù)檢測(cè)框從圖紙圖像按目標(biāo)框截取圖塊,并儲(chǔ)存歸檔;39、將該cad對(duì)象元素作為一個(gè)特殊的文本標(biāo)簽加入到該頁的文本元素里。40、在一些實(shí)施例中,所述將距離小于游離線段合并閾值的游離線段合并到cad對(duì)象范圍內(nèi),包括以下步驟:41、如果滿足距離小于游離線段合并閾值的cad對(duì)象為0,該游離線段不合并到任何cad對(duì)象上;42、如果距離小于游離線段合并閾值的cad對(duì)象為1,則將該游離線段合并到這個(gè)唯一的cad對(duì)象上;43、如果距離小于游離線段合并閾值的cad對(duì)象大于1,則將該游離線段合并到距離最近的cad對(duì)象上。44、在一些實(shí)施例中,所述按照表格格式順序重新整理所有的文本元素和cad元素,以文本表格形式完成文檔歸檔,包括以下步驟:45、對(duì)每一頁的表格所屬線段計(jì)算每個(gè)單元格的位置,將所有文本元素定位到具體的單元格里,得到最終提取到的表格信息,完成歸檔;具體包括:46、初始化表格對(duì)象,將數(shù)據(jù)結(jié)構(gòu)配置為數(shù)組;47、遍歷每一頁圖紙,并執(zhí)行以下步驟:48、獲取當(dāng)前頁的表格所屬線段;49、根據(jù)水平線段元素和垂直線段元素劃分表格行列,遍歷每行每列,確定一個(gè)單元格以及該單元格對(duì)應(yīng)的包圍框;50、遍歷當(dāng)前頁的文本元素,根據(jù)文本元素位置與所述單元格的位置關(guān)系,判斷該文本元素的位置是否在這個(gè)單元格的位置里面,并記錄到單元格文本集合;51、遍歷所有單元格文本集合,將里面的所有文本元素按照縱軸坐標(biāo)從大到小,橫軸坐標(biāo)從小到大的順序排序;52、對(duì)單元格文本集合記錄的單元格位置按照正序排序,將所有文本元素記錄到表格對(duì)象里;53、對(duì)家裝產(chǎn)品圖紙pdf文檔的信息提取完畢,得到最終提取到的表格信息,完成歸檔。54、本發(fā)明實(shí)施例的另一方面還提供了一種結(jié)合視覺模型的家裝產(chǎn)品圖紙識(shí)別系統(tǒng),包括:55、第一模塊,用于獲取家裝產(chǎn)品圖紙pdf文檔,構(gòu)建頁面圖片,獲取頁面內(nèi)的線段元素、文本元素;56、第二模塊,用于通過檢測(cè)網(wǎng)絡(luò),檢測(cè)所述頁面圖片的cad元素和table元素,并排除誤檢的cad元素;57、第三模塊,用于對(duì)所述線段元素劃分為表格所屬線段和游離線段兩部分;58、第四模塊,用于合并cad元素周圍的游離線段和文本元素,確定最終的文本元素;59、第五模塊,用于按照表格格式順序重新整理所有的文本元素和cad元素,以文本表格形式完成文檔歸檔。60、為實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例的另一方面提出了一種電子設(shè)備,所述電子設(shè)備包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)前面所述的方法。61、為實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例的另一方面提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)前面所述的方法。62、本發(fā)明實(shí)施例還公開了一種計(jì)算機(jī)程序產(chǎn)品或計(jì)算機(jī)程序,該計(jì)算機(jī)程序產(chǎn)品或計(jì)算機(jī)程序包括計(jì)算機(jī)指令,該計(jì)算機(jī)指令存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中。計(jì)算機(jī)設(shè)備的處理器可以從計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)讀取該計(jì)算機(jī)指令,處理器執(zhí)行該計(jì)算機(jī)指令,使得該計(jì)算機(jī)設(shè)備執(zhí)行前面的方法。63、本發(fā)明實(shí)施例至少包括以下有益效果:本發(fā)明提供一種結(jié)合視覺模型的家裝產(chǎn)品圖紙識(shí)別方法,該方案獲取家裝產(chǎn)品圖紙pdf文檔,構(gòu)建頁面圖片,獲取頁面內(nèi)的線段元素、文本元素;通過檢測(cè)網(wǎng)絡(luò),檢測(cè)所述頁面圖片的cad元素和table元素,并排除誤檢的cad元素;對(duì)所述線段元素劃分為表格所屬線段和游離線段兩部分;合并cad元素周圍的游離線段和文本元素,確定最終的文本元素;按照表格格式順序重新整理所有的文本元素和cad元素,以文本表格形式完成文檔歸檔。本發(fā)明實(shí)施例能夠提取完整的文檔信息,提高文檔的識(shí)別效果。當(dāng)前第1頁12當(dāng)前第1頁12
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1