您好,歡迎進江蘇雙利合譜科技有限公司網站!
您現在的位置:首頁 >> 解決方案 >> 基于深度卷積生成對抗網絡和近紅外高光譜成像技術的不健康小麥籽粒識別
基于深度卷積生成對抗網絡和近紅外高光譜成像技術的不健康小麥籽粒識別
瀏覽次數:309發布日期:2023-09-09

背景

實際生產過程中,經常發現健康小麥籽粒中混雜著損壞的、發芽的、霉變的和感染萎蔫病的籽粒。受損的麥粒失去了生存能力,發芽和霉變的麥粒沒有育種價值。因此,區分健康與不健康麥粒對于育種具有重要意義。近年來,將高光譜成像技術與機器學習、深度學習相結合的方法在種子識別領域得到了廣泛的應用。但在實際應用中,處于不健康狀態的麥粒數量有限,導致數據量少或數據分布不平衡。此外,數據量較小的類別很容易被數據量較大的類別所忽略。因此,基于數據驅動的機器學習或深度學習算法的準確率較低。

這些問題應該從根本上通過增加訓練數據來解決,即從原始數據中產生更多的數據。生成對抗網絡Generative adversarial network, GAN)是一種深度學習模型,可用于學習原始數據的復雜分布。采用深度卷積神經網絡Deep convolutional neural networks, DCNN)結合GAN增強高光譜訓練樣本并建立模型。DCNN分類器與GAN結合使用的準確率為95.32%,未結合的準確率為92.94%。由此可見其方法的優越性。然而,在種子識別領域,GAN幾乎從未被用于生成數據以提高分類器的性能。為此,本文提出了一種基于深度卷積對抗生成網絡(Deep convolutional generative adversarial networks, DCGAN的數據增強方法。然后采用決策樹(DT、支持向量機(SVM)和卷積神經網絡(CNN)相結合的高光譜成像技術對小麥健康和不健康籽粒進行識別。

本文的主要目標是:1)評估基于DCGAN的生成樣本的質量;2)比較擴展不平衡數據集前后不同分類算法的性能;3)在上一步的基礎上,通過DCGAN增加訓練樣本,評估不同分類算法的準確率是否可以進一步提高;4)評價訓練樣本數量的變化對各分類器分類性能的影響。

 

試驗設計

中國農業大學吉海彥教授團隊利用GaiaSorter推掃式高光譜成像系統(江蘇雙利合譜公司)(圖1)獲取了健康、發芽、霉變和萎蔫小麥籽粒的高光譜影像。光譜范圍為866.4 - 1701.0 nm。四種籽粒分別獲取了100、82、9174個樣本。

 

1 高光譜系統結構

GAN是由生成器(Generator)和判別器(Discriminator)兩個部分組成(圖2)。生成器接收隨機噪聲,通過生成模型生成假樣本。判別器的輸入是一個樣本,判別網絡判斷輸入樣本是來自于真實樣本還是生成器生成的假樣本。通過不斷訓練,生成器最終生成盡可能真實的數據。本研究采用DCGAN作為增強數據的方法。DCGAN主要的改進是在網絡結構上,生成器判別器中均使用了一個卷積神經網絡,同時改進了卷積神經網絡部分結構(圖3。

GAN生成的光譜數據的質量評估主要分為兩個方面,一是生成的光譜與真實光譜的相似度,二是生成的光譜的多樣性。光譜的相似度主要從三個方面進行評價。一方面,計算生成的光譜數據與真實光譜數據之間的均方根誤差RMSE,其次,通過對不同時期生成的光譜進行可視化,觀察其與真實光譜的差異,最后,利用主成分分析PCA)對生成數據與真實數據進行降維,觀察其主成分分布范圍,判斷生成數據與真實數據的相似度。

本研究使用的三種分類算法為決策樹(DT)、支持向量機(SVM)和卷積神經網絡(CNN。試驗分為兩個階段,第一階段,將不平衡的小麥籽粒數據集擴展到平衡狀態后,記錄變化前后測試集的準確率,判斷基于DCGAN的數據增強方法是否有效。第二階段是在第一階段試驗的基礎上,將生成的光譜數據加入到平衡的小麥籽粒數據集中,增加訓練集的數量,從而判斷數據增強對模型性能的影響。

2 GAN結構

 

3 DCGAN結構

 

 

結論

從圖4可以看出,4種小麥籽粒的光譜特征相似,萎蔫籽粒的平均光譜反射率顯著高于其他3,健康籽粒的光譜反射率值差異最大。霉變小麥籽粒受到真菌侵染的影響,籽粒表面顏色和形狀發生變化,但對含水率影響不大。因此,與萎蔫小麥籽粒相比,其光譜反射率值接近健康籽粒。萌發籽粒與健康籽粒不同,因為其萌發需要消耗能量。但與其他兩種籽粒相比,其光譜反射率值最接近健康小麥籽粒。在1150 ~ 1300 nm1400 ~ 1650 nm波段的差異為后續分類算法的建立提供了基礎。

 

4 籽粒光譜。所有小麥籽粒的光譜a);小麥籽粒在四種不同狀態下的平均光譜b。

對生成的光譜數據與真實光譜的相似度進行評估。由表1可以看出,epoch0增加到50,生成數據與真實數據的RMSE呈斷崖式下降。雖然epoch50時,RMSE已經較小0.064324),但是從5c5h中可以看出生成的光譜大致輪廓與真實光譜相似,但存在較大噪聲。1000、1500、2000epoch下的生成光譜曲線越來越接近真實光譜,噪聲逐漸降低,直到2000epoch下生成的光譜噪聲基本消失。從圖6可以看出,無論迭代多少次,生成光譜的PC1PC2均包含在真實光譜中,并且無法將兩者區分開來。這也說明了DCGAN生成的光譜與實際光譜的相似性。隨著epoch次數的增加,PC1PC2分布范圍逐漸變寬,直到在2000epoch達到最大。部分生成的光譜主成分的分布范圍超過了真實光譜。最后,綜合考慮多種評價指標,選取經過2000epoch訓練生成的光譜作為后續實驗所需的樣本。

1 不同epoch下小麥籽粒實測數據與生成數據的均方根誤差

 

 

5 不同epoch下的生成光譜數據和真實光譜數據的可視化

 

6 500、1500、2000epoch下生成的光譜數據的主成分降維圖

4給出了分類器在原始數據集和平衡數據集上的對比實驗結果。數據平衡后,所有分類器的測試集的準確率都得到了提高。其中,準確率提高幅度最小的分類器是CNN模型,準確率提高了8.34%。提升最大的是DT模型。準確率從51.67%提高到80.83%,這也表明分類器受樣本是否平衡的影響明顯。從圖7可以看出,數據擴展后,每個類別的誤分類次數都在減少。雖然這三種分類器從增加的數據樣本中學習到了更多的特征,準確率也有了很大的提高,但最終測試集的準確率仍然不能令人滿意。此外,CNN模型還存在過擬合的風險,其訓練集準確率與測試集準確率相差超過3%。這可能是由于訓練樣本較少,CNN模型無法學習到更深層的特征,導致過擬合。因此,需要更多的樣本來提高分類器的識別能力。

2 不同分類器對原始數據集和平衡數據集的分類精度

 

7 三種分類器在不平衡數據集(a)和平衡數據集(b)上分類結果的混淆矩陣

從表3和圖8可以看出,隨著加入訓練集樣本數量的不斷增加,SVM、DT、CNN模型的性能變化是不同的。在每種小麥籽粒的訓練集數據中加入50個樣本,SVM模型的測試集準確率從75%提高到80%。然后,當訓練樣本數量增加200個時,SVM模型的分類準確率最高,達到85.83%。隨著樣品的不斷加入,其準確度在80% - 85%之間波動。這表明SVM仍然從這些增量樣本中學習到一些特征,但學習到的特征相對有限。DT模型的準確率雖然也有所提高,但提高幅度較小,其準確率一直在80%85%之間波動。這表明DT模型從生成樣本中獲得的收益很小。對于CNN模型,隨著樣本數量的增加,其準確率從79.17%提高到96.67%,總計提高了17.50%。之后,它的測試集準確率開始在95%左右振蕩,并沒有隨著訓練樣本的增加而增加。這可能是由于DCGAN在生成樣本時,作為其近似目標的真實樣本數量相對較少。因此,雖然選擇了相似性和多樣性好的生成樣本,但與現實世界中的真實樣本相比,其多樣性仍然比較一般。然而,SVMDT兩種機器學習模型相比,CNN具有更強的數據擬合能力和分類能力。隨著樣本數量的增加,它可以學習到更多的特征。

結合以上兩階段的實驗結果表明,基于DCGAN的數據增強模型能夠為不平衡數據集生成可靠的數據樣本,從而幫助分類任務。此外,在DCGAN的幫助下,SVM、DTCNN模型的識別能力都得到了提升,其中CNN的提升效果最為顯著。這也表明基于DCGAN的數據增強模型對于樣本較少的數據集具有擴展樣本的能力。以上研究為數據集不平衡或數據集有限條件下的高精度分類提供技術支撐。

3 不同分類器在加入不同樣本數的測試集上的準確率

8 不同分類器的分類精度隨訓練集數據的增加而變化

 

作者信息

吉海彥,博士,中國農業大學信息與電氣工程學院教授,博士生導師。

主要研究方向:高光譜成像技術及其農業應用研究、近紅外光譜分析技術及其應用研究、農業生物信息檢測與處理。

參考文獻

Li, H., Zhang, L., Sun, H., Rao, Z.H., & Ji, H.Y. (2022). Discrimination of unsound wheat kernels based on deep convolutional generative adversarial network and near-infrared hyperspectral imaging technology. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 268, 120722.

欧美天天综合色影久久精品,欧美午夜精品久久久久久浪潮,国产精品久久久久7777按摩,中年人大鸡巴头一级毛片大全在线观看