高光譜成像儀在光譜數據的采集過程中,可以獲取到數量龐大的光譜數據。但這些數據中會存在大量的干擾信息,因此就需要對光譜數據進行預處理,以提取出相應的特征波長,建立預測模型。本文對高光譜數據特征波長的提取方法及建模方法做了介紹。
高光譜數據特征波長提取的原因:
高光譜成像儀檢測到的光譜數據由數百個波段組成,能夠獲得數百個光譜變量,光譜數據量非常大。而且光譜分析時往往需要進行大樣本量的獲取。因此,光譜數據會顯得非常大且冗余,造成后期光譜數據處理分析時效率不高,精度不高,速度下降,提高了對數據處理的配套軟硬件要求,同時也不適于未來的工程儀器的應用開發。
為了解決這種問題,就需要尋找有助于建模的特征變量,減少變量個數,提高運算效率,優化預測模型,提高模型預測的精度,同時也有助于開發便攜、低成本的儀器。因此需要采用光譜特征波長選擇算法來尋找有助于提高模型預測效果的特征波長變量。
高光譜數據特征波長的提取方法:
常用的特征波長提取算法有遺傳算法(GA)、競爭性自適應重加杈算法(CARS)、無信息變量消除法(UME)、連續投影算法(SPA)、回歸系數法(RC)、Random frog等。高光譜數據分析中沒有標準的、唯一的方法選擇最佳波長。
1.Random frog方法
基于可逆跳馬爾可夫鏈蒙特卡洛算法,在模型空間中模擬一條服從穩態分布的馬爾可夫鏈,來計算每個變量的被選概率,從而進行變量的選擇。
2.CARS方法
模仿達爾文進化論中的“適者生存”法則,利用指數衰減函數和自適應重加權采樣技術去除PLSR模型中權重較小的回歸系數,優選出權重前幾的系數。
3.SPA方法
通過對光譜數據進行一系列的投影映射構造新的變量集,并根據多元線性回歸評價模型的預測性能,該變量集中變量的共線性最小。
4.UME方法
向PLSR模型中添加幅度較小的隨機變量矩陣,基于交叉驗證建立新的PLSR模型。將每個變量系數平均值和標準差的商作為穩定性的值,同隨機變量矩陣得到的穩定性的值作比較,選出被認為和隨機變量一樣對模型建立無效的波長變量。
5.GA方法
模擬生命進化機制,從任意一個初始群體出發,產生一群新的更適應環境的個體,使群體進化到搜索區域中越來越好的區域。
6.RC方法
PLSR建模所得到的模型回歸系數,挑選系數絕對值大的作為特征波長。
高光譜數據的建模方法介紹:
由于高光譜數據的復雜以及數據量很大,很難直接的對數據進行定量定性分析,因此需要對提取得到的光譜數據采用化學計量學的方法進行建模分析,對經過特征波長變量提取后的光譜建立多元變量校正模型,比較不同模型的預測效果,選取最優模型,便于以后的儀器開發應用。目前,采用的化學計量學建模算法主要是偏最小二乘回歸法(PLSR)和最小二乘支持向量機(LS-SVM)。
1.偏最小二乘回歸法(PLSR)
PLSR是一種常見的多元統計方法,廣泛應用于光譜檢測模型的建立。其原理是將因子分析和回歸分析相結合,同時將光譜數據和理化參考數據分解,采用留一法交互驗證計算預測殘差平方和,再根據潛在變量的累積貢獻率和預測殘差平方和,尋找最佳的潛在變量個數將光譜數據和理化參考值相關聯,建立回歸模型。其優點是較好的解決了樣本個數少于變量個數的問題。
2.最小二乘支持向量機(LS-SVM)
LS-SVM是一種改進的支持向量機算法,能夠快速的進行線性和非線性建棋分析,能有效解決高維數據分析問題,其算法思想是將原始樣本數據映射到高維空間里,用等式約束取代不等式約束,在高維空間里對最小化損失函數進行求解獲得線性擬合函數。將傳統支持向量機的二次規劃問題,簡化成求解一個等式方程組問題,大大提高計算效率。