基于高光譜技術結合化學計量學方法的茶多酚無損檢測模型-江蘇雙利合譜科技有限公司

您現在的位置：首頁 >> 解決方案 >> 基于高光譜技術結合化學計量學方法的茶多酚無損檢測模型

基于高光譜技術結合化學計量學方法的茶多酚無損檢測模型

瀏覽次數：333發布日期：2023-08-28

題目

基于高光譜技術結合化學計量學方法的茶多酚無損檢測模型

應用關鍵詞

高光譜、茶多酚、樣品分割、特征選擇、無損檢測

背景

茶多酚是茶葉的重要組成部分，也是生物活性化學物質的重要來源，具有抗氧化、抗癌、抗菌、抗炎和抗動脈硬化的能力，在醫藥和食品工業中發揮著重要作用。高光譜成像技術是基于大量窄波段的圖像數據技術。它將成像技術與光譜技術相結合，檢測目標的二維幾何空間和一維光譜信息，已被廣泛應用于農產品質量檢測。

基于高光譜技術建立的模型結果受多種因素的影響。特征數據預處理方法是影響分析結果的主要因素。常見的光譜數據預處理方法包括正交信號校正（OSC）、一階導數（FD）、二階導數（SD）、多元散射校正（MSC）、標準正態變量變換（SNVT）、Savitzky-Gola濾波（SG）。結果表明，這些方法可以減少外界因素的影響，在一定程度上提高檢測的準確性。

光譜特征波段的選擇是影響模型結果的另一個重要因素。有效地選擇特征波段可以節省計算資源，提高模型性能。近年來，研究人員提出了許多特征波段選擇方法，如區間偏最小二乘（iPLS）、協同區間偏最小二乘（siPLS）、后向區間偏最小二乘（biPLS）。這些特征選擇算法將所有特征劃分為若干個區間，然后通過迭代選取區間中效果較好的一小部分作為特征集合。然而，通過這種“捆綁”方法選擇的光譜特征可能會遺漏一些重要特征。

為了避免手動數據分割引起的偏差，有許多計算方法可用于樣本選擇，如隨機選擇（RS），Kennard-Stone（KS）或基于聯合x-y距離（SPXY）的樣本集分割算法。

本研究旨在探討基于高光譜圖像技術的茶多酚含量快速無損在線檢測的可行性。采用不同的數據預處理方法對采集到的茶葉高光譜數據進行處理。本文通過建立模型并對建模結果進行分析，選擇了最佳的預處理方法。

試驗設計

四川農業大學康志亮團隊共選出三個級別的雅安藏茶，獲取其茶多酚含量后，用SPXY算法對數據集進行劃分（表1）。利用江蘇雙利合譜公司研制的GaiaSorter高光譜分選儀獲得了藏茶的高光譜數據，其有效光譜范圍為387 ~ 1035nm，光譜分辨率為2.8 nm，光譜通道為256條。把茶葉均勻地鋪在一個容器里（大約65厘米 × 65厘米）。高光譜采集系統如圖1所示。由于暗電流的影響，最終420 ~ 1010 nm波段被保留作為原始光譜數據。

表1 基于 SPXY 算法的茶多酚含量統計及樣品分配結果

圖1 高光譜成像系統示意圖

隨機噪聲通常是在獲取光譜時由外界環境、儀器響應和其他與被測樣品性質無關的因素產生的，并且光譜數據出現無序波動。因此，本文采用了SG、MSC、SNVT、FD、SD和Z分數標準化（ZSS）六種預處理算法來消除原始光譜數據中的噪聲。

本研究使用的SPXY算法是由KS（Kennard-Stone）算法發展而來。KS算法將所有樣本看作校準集的候選樣本，并選擇進入校準集的歐幾里得度量最大的兩個樣本。然后，通過計算剩余樣本與校準集中已知樣本之間的歐幾里得度量，選擇接近選定樣本的兩個樣本并將其放入校準集中，重復上述步驟，直到樣本數達到設定值。在SPXY計算樣本距離時，同時考慮了樣本標號（Y）和樣本特征（X）。

所獲得的高光譜數據往往包含大量冗余信息，這將對最終建模的準確性和效率產生一定的影響。本研究使用六種方法，梯度提升（GB）、自適應提升（AdaBoost）、隨機森林（RF）、分類提升（CatBoost）、LightGBM和XgBoost來選擇高光譜特征波段。模型中使用了隨機森林回歸（RFR）、分類提升回歸（CatBoostR）、LightGBM回歸（LightGBMR）、XGBoost回歸（XGBoostR）和模型集成策略用于預測茶多酚。

結論

梯度提升回歸（GBR）用于建模和預測原始數據和預處理的光譜數據?；诓煌A處理算法和不同樣本劃分算法的建模結果如圖2所示。如圖2a所示，校準集的R²均大于0.96。RAW-KS-GBR模型效果好。FD-KS-GBR模型校準集R²最大的，為0.9857，但測試集R²最小，僅為0.6490，表明FD-KS-GBR模型存在嚴重的過擬合問題。圖2b是基于SPXY劃分數據集的建模結果。通過FD和SD預處理光譜數據建立的模型校準集在0.98以上，但測試集R²不超過0.88。

圖2 不同輸入下GBR模型的預測結果?；?/font>KS劃分數據集的建模結果（a）、基于SPXY劃分數據集的建模結果（b）。

KS算法比SPXY算法建立的模型更容易出現過擬合，因此SPXY-GBR模型總體上優于KS-GBR模型?；趫D2，比較兩種不同的數據集劃分方法和六種不同的預處理算法建模結果，效果較好的模型是RAW-KS-GBR、SG-SPXY-GBR和SNVT-SPXY-GBR。SG-SPXY-GBR具有最高的測試集R²，為0.9365，其校準集R²也達到0.9563。這表明，以SG為預處理算法，SPXY為樣本分割法建立的模型不僅精度高，而且具有更好的魯棒性。綜上所述，最終選擇SG算法對藏茶原始高光譜數據進行預處理。原始光譜曲線RAW和SG預處理后的光譜曲線如圖3所示。

圖3 藏茶光譜曲線。原始數據（a）；通過SG算法預處理的數據（b）；（c）圖為（a）中紅框的放大視圖；（d）圖為（b）中紅框的放大視圖。

SG算法預處理后的數據噪聲有了一定程度的改善，但數據中仍有大量與茶多酚含量預測無關的信息。如果不進一步提取特征，高維數據無疑會影響模型的準確性和魯棒性。本研究采用GB、AdaBoost、RF、CatBoost、LightGBM和XGBoost這六種算法選擇前30個最重要光譜特征（圖4）。RF和CatBoost以522.66 nm波長為第二重要特征，而XGBoost以564.55 nm波長為第一重要特征，在GB中僅排名第五，在AdaBoost中排名第四，在RF中排名第七。不同算法提取的特征波長大多分布在420 ~ 700 nm之間。試驗結果表明，不同算法提取的特征波長不同，但也有一定的共性。上述六種算法提取的特征將作為后續回歸預測算法的輸入。

表2展示了不同模型的全波段預測結果。CatBoostR模型具有最高的準確度，在校準和測試集上的R²分別為0.9578和0.9493。RFR模型預測效果較差，校準R²僅為0.9040。

本研究以RFR、LightGBM和XGBoostR為三個基礎學習模型，以CatBoostR為元學習模型，建立了一個新的stacking預測模型（圖5）。表3展示了不同模型的預測結果。與全波段建模結果相比，即使特征維數降低，模型性能也沒有相應降低。優選特征在一定程度上提高了建模精度，并進一步提高了模型魯棒性。CatBoostR模型的預測精度普遍可以接受，RMSEC小于0.35，RMSEP小于0.45。CatBoost + CatBoostR模型的RMSEC和RMSEP值更接近。因此，該模型被認為是四個獨立模型中較好的。本文建立的stacking模型中以CatBoost算法提取的特征作為輸入的模型效果更好。圖6a是CatBoost + stacking模型對藏茶茶多酚含量的預測結果。由于茶多酚含量在7%左右的樣本數量較少，SPXY沒有在該值附近分配測試集。因此，在SPXY劃分的數據集中，選擇對應于校準集中茶多酚含量為7.2671%的樣品作為測試樣本之一，選擇對應于測試集中茶多酚含量為8.7892%的樣品作為校準樣本之一。如果替換的數據被輸入到CatBoost + stacking模型中，校準集R²為0.9686，RMSEC為0.2833，測試集R²為0.9577，RMSEP為0.3703。

綜上結果表明，新建立的stacking預測模型比個體回歸模型性能更優，可實現藏茶茶多酚含量的準確預測。

圖4 由不同算法選擇的特征波段。GB（a）；AdaBoost（b）；RF（c）；CatBoost（d）；LightGBM（e）和XGBoost（f）。

表2 基于全波段的預測結果

圖5 用于茶多酚預測的stacking回歸模型流程

圖6 基于CatBoost + stacking模型的茶多酚預測結果。更換樣本前的預測結果（a）和更換樣本后的預測結果（b）。

作者信息

康志亮，博士，四川農業大學機電學院教授，博士生導師。

主要研究方向：信號與信息處理、傳感器與檢測技術、自動控制。

參考文獻：

Luo, X., Xu, L.j., Huang, P., Wang, Y.c., Liu, J., Hu, Y., Wang, P., & Kang, Z.l. (2021). Nondestructive Testing Model of Tea Polyphenols Based on Hyperspectral Technology Combined with Chemometric Methods. Agriculture, 11:673-687.

https://doi.org/10.3390/agriculture11070673

上一篇：基于高光譜影像的植被指數：一種新的城市生態研究植被指數
下一篇：高光譜相機揭開隱形世界的神奇之門