本發(fā)明屬于但不限于高光譜成像,尤其涉及一種基于深度學習結(jié)合高光譜成像技術(shù)的牛奶脂肪含量預測方法及系統(tǒng)。
背景技術(shù):
1、牛奶是一種營養(yǎng)豐富的天然食品,含有哺乳動物幼崽和人類所必須的營養(yǎng)物質(zhì)。近年來,牛奶已成為人類飲食的重要組成部分。不同年齡段的人群對牛奶脂肪含量的需求不同,因此市面上已出現(xiàn)越來越多種類的牛奶。青少年因身體成長需要往往會選擇全脂牛奶;部分成年人計劃健身減脂而選擇低脂牛奶;患有肝膽疾病的特殊人群,需要保證健康而選擇脫脂牛奶。同時,牛奶中的脂肪含量也會影響牛奶的顏色、味道以及口感,這使得脂肪在黃油、奶油和奶酪等乳制品的營養(yǎng)和感官方面有獨特的特性。因此,對牛奶脂肪含量的快速精準檢測尤為重要。
2、高光譜成像技術(shù)是一種先進的光學成像技術(shù),使用數(shù)百甚至數(shù)千個窄帶光譜通道,覆蓋可見光和紅外光譜范圍,該區(qū)域有機物的光譜吸收主要是含氫基團的倍頻和組合頻吸收。不同基團產(chǎn)生的光譜吸收峰的位置和強度不同。隨著樣品成分含量的變化,其光譜特征也會發(fā)生變化。由于牛奶中的有機物中含有這些含氫基團,因此可以應(yīng)用高光譜成像技術(shù)快速測定牛奶成分。zhao等人采用高光譜成像技術(shù)對牛奶中的脂肪含量進行測定,通過選取感興趣區(qū)域(roi)建立plsr和多維偏最小二乘回歸模型(n-plsr)。結(jié)果表明,n-plsr性能明顯優(yōu)于plsr方法。牛奶是一種復雜的膠體混合物,因此它的光譜包括反射光譜和透射光譜。luo等人應(yīng)用高光譜成像技術(shù)對牛奶樣品在連續(xù)波長下的吸收系數(shù)和反射系數(shù)與相應(yīng)牛奶中的脂肪含量進行了線性回歸分析。結(jié)果表明,光譜反射率在預測牛奶脂肪含量方面更為準確。法國學者coppa等人采用近紅外反射光譜對牛奶中脂肪酸的組成進行預測,通過改進偏最小二乘回歸模型對牛奶中的飽和脂肪酸、不飽和脂肪酸、月桂酸等含量進行預測。證明近紅外反射光譜與牛奶中大部分脂肪酸具有較高的相關(guān)性。
3、高光譜圖像數(shù)據(jù)具有連續(xù)波長且波長數(shù)量多,攜帶了大量牛奶相關(guān)信息。這也導致了高光譜圖像數(shù)據(jù)維度高,冗余度高。為了進一步提高模型性能,往往需要選擇與預測指標相關(guān)性強的波長。但牛奶是一種成分復雜的液體,這使得高光譜圖像數(shù)據(jù)存在嚴重的波段重疊現(xiàn)象。即在同一波段下,既存在脂肪信息也存在水、蛋白質(zhì)等信息。這給特征選擇工作帶來了困難。且高光譜圖像數(shù)據(jù)容易受到光照和環(huán)境因素的干擾,如果對光譜曲線的預處理不充分,在選擇特征波長時難以解決光譜數(shù)據(jù)冗余問題。一些研究者嘗試使用各種預處理方法結(jié)合特征選擇方法來提高預測模型的精度。xu等使用高光譜成像技術(shù)(400-1000nm)對牛奶中蛋白質(zhì)、脂肪含量進行預測,對原始光譜曲線進行卷積平滑和一階導數(shù)預處理,顯著提升了模型預測精度。在此基礎(chǔ)上提出了一種改進的空間蛙跳特征選擇方法,分別建立偏最小二乘回歸(plsr)和表決回歸(vr)蛋白質(zhì)和脂肪含量預測模型,plsr模型決定系數(shù)分別為0.8623和0.9608,vr模型決定系數(shù)分別為0.9607和0.9834。一定程度上解決了高光譜數(shù)據(jù)的冗余問題,增強了波長選擇的穩(wěn)定性。huang等針對線性關(guān)系與非線性關(guān)系探索與牛奶脂肪含量相關(guān)的特征波長。提出了基于改進蟻群-遺傳算法的波長選擇方法。結(jié)果表明兩種模型各有優(yōu)勢,支持向量回歸模型取得了最高精度0.9869,但檢測效率較低。多元線性回歸模型檢測效率較為理想,運行時間低至0.02s,但預測精度略低于svr模型。進一步揭示了牛奶光譜反射率數(shù)據(jù)與脂肪屬性之間的非線性關(guān)系的研究潛力。
4、大多數(shù)研究人員對牛奶進行營養(yǎng)成分估計時,往往只采集了同一時期的牛奶數(shù)據(jù),沒有考慮到牛奶樣品隨著時間的推移其新鮮度也在變化。而不同保存時期的牛奶,其營養(yǎng)成分也存在一些差異。例如,牛奶中的脂肪會在儲存過程中發(fā)生分解和氧化,氧化會破壞脂肪分子的結(jié)構(gòu),導致牛奶中脂肪含量的下降;牛奶中的維生素a和維生素d易受到光照和氧化的影響,導致維生素含量的下降。因此,有必要將儲存時間的因素考慮到實驗中。本實驗采集了覆蓋牛奶整個貨架期的高光譜圖像數(shù)據(jù)。數(shù)據(jù)采集時間從2024年1月持續(xù)到2024年6月。這種全周期的數(shù)據(jù)更有利于研究者分析牛奶中脂肪、蛋白質(zhì)、碳水化合物等易受到新鮮度影響的營養(yǎng)指標。同時,考慮到樣本數(shù)量較多,數(shù)據(jù)量相對較大,我們引入了深度學習模型來分析牛奶高光譜數(shù)據(jù)。
5、深度學習模型具有多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和非線性激活函數(shù),可以更好地捕捉數(shù)據(jù)中復雜的非線性關(guān)系。深度學習又稱為表示學習,能夠逐層從數(shù)據(jù)中自動學習特征表示,具有較高的靈活性和表達能力。而且深度學習允許構(gòu)建端到端的模型學習框架,從原始輸入到最終輸出的整個過程都由模型自動學習,簡化了建模過程。因此,相比于傳統(tǒng)機器學習方法,深度學習更適合處理大規(guī)模的高光譜數(shù)據(jù)。
6、如今市面上的牛奶種類較多,不同種類的牛奶,其營養(yǎng)成分不同,在不同波長區(qū)間的反射率也不同。在針對某一營養(yǎng)指標進行特征選擇時,應(yīng)當考慮其他指標含量的影響。不應(yīng)只考慮全局特征,還應(yīng)考慮不同種類的牛奶樣品如何選擇有效的特征波長。了解哪些特征與模型輸出最相關(guān)是至關(guān)重要的。因此,為了探索將深度學習與高光譜成像技術(shù)結(jié)合進行牛奶脂肪含量估計的潛力,我們提出了一個基于聯(lián)合學習的selector和predictor神經(jīng)網(wǎng)絡(luò)(jlsp),該網(wǎng)絡(luò)可以同時完成牛奶脂肪含量的預測和特征波長的選擇。本發(fā)明將jlsp與傳統(tǒng)的svr、plsr預測模型和spa、cars特征選擇方法進行對比,探討基于深度學習的牛奶高光譜數(shù)據(jù)與脂肪含量之間的非線性關(guān)系問題。為后續(xù)牛奶營養(yǎng)品質(zhì)的無損檢測提供新方法。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)存在的問題,本發(fā)明提供了一種基于深度學習結(jié)合高光譜成像技術(shù)的牛奶脂肪含量預測方法。
2、本發(fā)明是這樣實現(xiàn)的,一種基于深度學習結(jié)合高光譜成像技術(shù)的牛奶脂肪含量預測方法,該方法包括:
3、s1:利用高光譜成像系統(tǒng)采集了覆蓋全貨架期的牛奶高光譜圖像數(shù)據(jù)并測定了脂肪含量;
4、s2:通過預處理方法消除了牛奶光譜數(shù)據(jù)受到的光照和環(huán)境因素的干擾;
5、s3:利用jlsp對牛奶光譜數(shù)據(jù)進行特征波長選擇與脂肪含量預測,并與傳統(tǒng)預測模型plsr、svr以及傳統(tǒng)波長選擇方法spa、cars進行對比。
6、進一步,所述高光譜成像系統(tǒng)主要由高光譜成像儀、白板、鹵素燈、計算機及相應(yīng)的配套控制軟件組成;
7、所述高光譜圖像數(shù)據(jù)所測量的光譜波長范圍為400-1000nm,光譜分辨率為4.8nm,光譜通道數(shù)為750個;實驗是在一間暗室里進行的,使用50w鹵素燈模擬自然光,設(shè)置載物臺與鏡頭之間的距離為30cm,系統(tǒng)曝光時間為10ms。為了消除基線漂移,測量前需將光譜儀預熱30分鐘;實驗時將純牛奶倒入玻璃培養(yǎng)皿中,將培養(yǎng)皿放置在載物臺中央,周圍布置黑色法蘭絨,以避免不相關(guān)反射源的干擾;在采集光譜數(shù)據(jù)時,由于光源在不同波段下強度分布不均勻,高光譜成像儀中存在暗電流以及一些環(huán)境光的影響,采集到的圖像伴有一定的噪聲,需要進行黑白校正處理,盡量消除客觀條件帶來的影響;黑白校正公式如下:
8、
9、其中,r為黑白校正后的圖像數(shù)據(jù),w為白板數(shù)據(jù),b為黑板數(shù)據(jù),i為原始圖像數(shù)據(jù)。
10、進一步,所述測定了脂肪含量實驗是將牛奶樣品存放在溫度為28℃,濕度為17%的環(huán)境中;考慮到液態(tài)奶中的部分蛋白質(zhì)和脂肪會形成絮凝物質(zhì)并沉淀,因此,在測量前需要將牛奶搖勻;實驗使用foss牛奶成分分析儀milkoscan?ft120對牛奶樣品的脂肪含量進行測定;
11、所述牛奶樣品從伊利、蒙牛、光明、三元等14個液態(tài)奶品牌中獲得純牛奶、低脂牛奶、脫脂牛奶、高鈣牛奶、有機牛奶等共計83類樣品;所有品類牛奶均處于保質(zhì)期內(nèi)6個月,為了覆蓋所有牛奶的新鮮度區(qū)間,共計對每類牛奶進行5次測定,每隔一個月進行一次測定,每次測試3個樣品,共計1245個樣本。
12、進一步,所述s2具體包括:在svr和jlsp模型中采用二階導數(shù)預處理方法對光譜數(shù)據(jù)進行預處理并進行后續(xù)分析,在plsr模型中采用原始光譜數(shù)據(jù)進行后續(xù)分析。
13、進一步,所述jlsp模型是一個端到端的深度學習模型框架,可以同時進行特征選擇和回歸預測的任務(wù);受到invase的啟發(fā),jlsp由三個神經(jīng)網(wǎng)絡(luò)組成,分別為selector、predictor和baseline;selector是特征選擇網(wǎng)絡(luò),用于學習與牛奶脂肪含量相關(guān)的特征表示;predictor和baseline是回歸預測網(wǎng)絡(luò),用于預測牛奶脂肪含量;輸入樣本xd是維數(shù)為d的特征向量,xd將參與所有神經(jīng)網(wǎng)絡(luò)的輸入;其中,selector接收樣本的原始特征xd并輸出一個概率向量pd;根據(jù)該概率向量進行伯努利抽樣,得到一個只有0和1的選擇向量sd;一方面,將原始特征xd與選擇向量sd相乘得到降維后的特征這是一種基于實例的特征選擇方法,可以靈活的在眾多牛奶種類中針對每一個牛奶樣本選擇不同數(shù)量的特征波長;predictor接收selector降維后的特征向量并輸出預測值yp;另一方面,將原始特征xd與概率向量pd相乘得到加權(quán)后的特征向量通過加權(quán)使模型在保持原始特征數(shù)量的基礎(chǔ)上,關(guān)注數(shù)據(jù)中的重要部分,從而提高對關(guān)鍵信息的識別能力。baseline接收加權(quán)后的特征向量并輸出預測值b;模型采用聯(lián)合學習策略進行更新,其中所有網(wǎng)絡(luò)都是通過反向傳播訓練的;predictor網(wǎng)絡(luò)和baseline網(wǎng)絡(luò)可以通過預測值直接計算均方誤差mse損失;selector網(wǎng)絡(luò)的損失則通過predictor和baseline網(wǎng)絡(luò)的損失共同計算。
14、進一步,所述selector網(wǎng)絡(luò)是一個一維卷積神經(jīng)網(wǎng)絡(luò)1d-cnn,由輸入層、卷積層、池化層、全連接層和輸出層組成;1d-cnn通過卷積核滑動提取輸入數(shù)據(jù)中的局部特征;這使得模型能夠捕捉相鄰波長之間的特征信息。并且卷積核在整個輸入數(shù)據(jù)上共享參數(shù),這減少了網(wǎng)絡(luò)中需要學習的參數(shù)量,使網(wǎng)絡(luò)更加輕量化,降低了過擬合的風險。與傳統(tǒng)的特征選擇方法相比,1d-cnn可以通過多層非線性模塊對光譜數(shù)據(jù)進行逐層的特征提取,具有更高的學習效率和更強的泛化能力;selector具有三個卷積層,卷積核大小為3,輸出通道數(shù)依次為32、64和128;考慮到單個樣本的特征維度為1×125,因此將第一個卷積層中的掃描步長設(shè)置為2,其他兩層的掃描步長設(shè)置為1;在每一次卷積運算之后緊接一個池化層,對池化窗口內(nèi)的數(shù)據(jù)進行最大池化,進一步壓縮特征維度。經(jīng)過三層卷積和池化運算,最終得到一個128×5的特征表示;在進入全連接層之前,將所有通道的數(shù)據(jù)展開為一維張量,依次輸入到兩個全連接層中。兩個全連接層的神經(jīng)元數(shù)量分別為256和125;輸出層連接一個sigmoid函數(shù),確保輸出一個范圍在0到1之間有界,維度與輸入數(shù)據(jù)相同的概率向量。
15、進一步,所述plsr是一種線性回歸算法,主要用于處理多重共線性和高維數(shù)據(jù)的情況;它通過潛在變量的提取,將牛奶原始光譜反射率和牛奶成分之間的關(guān)系映射到一個新的空間中;降低數(shù)據(jù)維度的同時保留數(shù)據(jù)中的重要信息;所述svr是一種非線性回歸算法,主要目標是建立一個能夠在高維空間中找到最佳擬合的超平面,以最大化預測值與實際值之間的邊界;svr的核函數(shù)在高維空間具有獨特的優(yōu)勢,能夠處理樣本數(shù)據(jù)的非線性關(guān)系,尤其適合處理具有多個連續(xù)波長的高光譜數(shù)據(jù)集。
16、進一步,所述spa是一種特征變量選擇方法,可以在保留原始數(shù)據(jù)主要信息的同時,將高維數(shù)據(jù)映射到低維空間中;通過將波長投影到其他波長上,比較投影向量的大小,以投影向量最大的波長為待選波長;結(jié)合多元回歸分析確定特征波長組合;cars通過蒙特卡洛采樣法結(jié)合pls進行分析,將回歸系數(shù)作為波長的重要性,使用指數(shù)衰減方法確定波長個數(shù);通過重加權(quán)采樣得到候選特征子集。最后,根據(jù)pls模型的最小rmsecv確定最佳特征集合。
17、本發(fā)明另一目的在于提供一種基于所述基于深度學習結(jié)合高光譜成像技術(shù)的牛奶脂肪含量預測方法的基于深度學習結(jié)合高光譜成像技術(shù)的牛奶脂肪含量預測系統(tǒng),該系統(tǒng)具體包括:
18、圖像采集和含量測定模塊,利用高光譜成像系統(tǒng)采集了覆蓋全貨架期的牛奶高光譜圖像數(shù)據(jù)并測定了脂肪含量;
19、預處理模塊,與圖像采集和含量測定模塊連接,通過預處理方法消除了牛奶光譜數(shù)據(jù)受到的光照和環(huán)境因素的干擾;
20、對比模塊,與預處理模塊連接,利用jlsp對牛奶光譜數(shù)據(jù)進行特征波長選擇與脂肪含量預測,并與傳統(tǒng)預測模型plsr、svr以及傳統(tǒng)波長選擇方法spa、cars進行對比。
21、本發(fā)明另一目的在于提供一種計算機設(shè)備,所述計算機設(shè)備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述計算機程序被所述處理器執(zhí)行時,使得所述處理器執(zhí)行所述基于深度學習結(jié)合高光譜成像技術(shù)的牛奶脂肪含量預測方法的步驟。
22、結(jié)合上述的技術(shù)方案和解決的技術(shù)問題,本發(fā)明所要保護的技術(shù)方案所具備的優(yōu)點及積極效果為:
23、第一、本發(fā)明采集了覆蓋全貨架期的牛奶高光譜圖像數(shù)據(jù)并測定了脂肪含量。這種全周期的數(shù)據(jù),一方面,有利于研究者分析牛奶中脂肪、蛋白質(zhì)、碳水化合物等易受到新鮮度影響的營養(yǎng)指標;另一方面,模型性能的提升有利于給消費者提供更準確的指標含量參考值。
24、基于牛奶光譜數(shù)據(jù)對比多種預處理方法,用于消除光照和環(huán)境因素的干擾,增加光譜數(shù)據(jù)分辨率。經(jīng)過實驗驗證得知,二階導數(shù)預處理方法較為理想,將牛奶原始光譜數(shù)據(jù)中的平滑部分和變化緩慢的部分分離出來,從而突出光譜數(shù)據(jù)中快速變化的部分。尤其強調(diào)了牛奶原始光譜數(shù)據(jù)中的拐點和斜率變化部分。兩者對應(yīng)了牛奶中脂肪、蛋白質(zhì)等大分子化合物的含量變化。為后續(xù)的特征選擇做鋪墊。
25、本發(fā)明提出的jlsp模型是一種基于實例的特征選擇方法。解決了全局特征選擇方法中所有樣本特征數(shù)量始終相同的問題,針對種類不同,營養(yǎng)成分含量不同的牛奶,jlsp會為其選擇有效的特征波長,且每個樣本的特征數(shù)量單獨計算,不被全局特征數(shù)量所限制。例如,脫脂牛奶中的水含量會比全脂牛奶中的水含量高,因此在脫脂牛奶的特征選擇過程中會選擇到更多的水相關(guān)的波長。高蛋白全脂牛奶中含有大量的大分子化合物,相比脫脂牛奶會在特征選擇過程中選擇到更多的與n-h鍵、c-h鍵拉伸振動的相關(guān)波長。
26、本技術(shù)方案采用了兩種傳統(tǒng)機器學習算法用于預測牛奶脂肪含量,分別為線性回歸模型plsr和非線性回歸模型svr。這種做法可以更好的分析牛奶光譜數(shù)據(jù)與脂肪含量之間的關(guān)系模式。實驗結(jié)果表明,在預測準確率方面,svr性能優(yōu)于plsr,展示了非線性回歸模型在牛奶高光譜數(shù)據(jù)上的預測潛力。jlsp作為深度學習框架具有多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和非線性激活函數(shù),進一步擴大了非線性模型的優(yōu)勢,可以更好的捕捉牛奶光譜數(shù)據(jù)中復雜的非線性關(guān)系。實驗結(jié)果表明,jlsp不僅可以完成特征波長的選擇,在牛奶脂肪含量預測方面也展現(xiàn)出了優(yōu)異的性能。jlsp的預測效果優(yōu)于上述傳統(tǒng)方法。測試集r2達到0.9734,均方誤差為0.0573。在特征選擇部分,jlsp在訓練過程中會生成n(迭代次數(shù))張大小為樣本數(shù)量×特征數(shù)量的概率熱圖。其中每一個元素表示某一樣本中該特征被選擇的概率,這使得原本在黑盒運行下的神經(jīng)網(wǎng)絡(luò)可以進行特征表示的可視化,增加了jlsp特征選擇結(jié)果的可解釋性。后續(xù)結(jié)合對應(yīng)化學鍵的分析證明了jlsp可以有效選擇牛奶脂肪含量的相關(guān)波長。jlsp的應(yīng)用還可以擴展到牛奶蛋白質(zhì)、碳水化合物等其他營養(yǎng)物質(zhì)方面,為乳制品的質(zhì)量控制和營養(yǎng)監(jiān)測提供新的方法。
27、第二,本發(fā)明的技術(shù)方案填補了國內(nèi)外業(yè)內(nèi)技術(shù)空白:本發(fā)明首次將實例特征選擇方法應(yīng)用于牛奶脂肪含量預測研究中,為后續(xù)的牛奶營養(yǎng)指標檢測提供了新思路。
28、本發(fā)明的技術(shù)方案解決了人們一直渴望解決、但始終未能獲得成功的技術(shù)難題:目前傳統(tǒng)特征選擇方法存在一些問題,計算所有波長與脂肪含量的相關(guān)性并從高到低排序后,利用增量特征選擇方法比較模型性能。結(jié)果表明,利用全波長的光譜數(shù)據(jù)進行牛奶脂肪含量預測結(jié)果準確率最高。這可能是由于選擇出的特征波長為全局特征波長,即根據(jù)所有樣本進行選擇,沒有根據(jù)單個樣本進行特征選擇,所有樣本的特征都是一樣的,但牛奶品種不一樣,全局特征一定程度影響了部分牛奶樣品的預測。
29、本發(fā)明的技術(shù)方案克服了技術(shù)偏見:針對目前牛奶營養(yǎng)成分含量預測的研究,存在牛奶貨架期數(shù)據(jù)覆蓋不全面的問題。研究者或檢測部門在進行樣品選擇時,往往只選購單一貨架期內(nèi)的牛奶樣品并帶回實驗室測定。而消費者在購買牛奶產(chǎn)品時,可能購買到保質(zhì)期內(nèi)但不同存儲時期的牛奶,不同存儲時期的牛奶營養(yǎng)成分會發(fā)生變化,僅依靠牛奶標簽上的營養(yǎng)成分含量標識或單個時間段的牛奶成分含量預測并不能準確的給消費者提供參考。