古詩詞大全網 - 成語用法 - 中紅外光譜(MIR)的介紹

中紅外光譜(MIR)的介紹

此本來自自己碩士論文的綜述部分。

FT-MIR在檢測某特定物質時會根據該物質的官能鍵與官能團,產生屬於該物質的特征波。研究表明在使用多自變量建立預測某物質模型的過程中,選出該物質特征波來作為自變量,不僅能提高模型預測的準確性,還能增強模型的穩定性(Leardi et al 2002, Zou et al 2010, Vohland et al 2014)。John等較早提出了特征選擇主要分為兩大類,第壹類為過濾法,其是獨立於預測變量的特征選擇算法,並且單獨度量各個自變量的重要性,過濾掉在數據分析中幾乎沒有用的特征;第二類為封裝法,其是將所有自變量逐壹添加或刪除應用在某類算法中,根據模型結果找到最佳自變量組合(John et al 1994)。兩者各有優缺點,過濾法速度快,但其不能根據建立模型的結果來分析自變量,而封裝法能夠結合建立模型準確性的結果來選擇變量,但其計算量比過濾法大且有過擬合的風險(Saeys et al 2007)。但隨後還出現了第三種嵌入法,其在算法構建中加入了特征波選擇,與封裝法類似,但其不能用於其他算法(只能適用篩選特征波的算法),優點在於比封裝法降低了計算量(Saeys et al 2007)。所以比較合理的篩選光譜特征波方法是先使用過濾法縮小範圍,再使用封裝法或嵌入法篩選最終特征波。

定性判別分析(Discriminant Analysis)是在已知特征與類別的訓練集上建立判別模型,再使用判別模型對已知特征與未知類別的新數據進行分類預測。

定性判別分析根據判別準則可分為Fisher判別、距離判別和Bayes判別。Fisher判別是將多維數據投影到某壹個維度上,使各類的總體之間最大限度分開,再選擇合適判別規則將新的樣本分類判別。距離判別是先計算出已知分類的各類別的重心,再對未知類別的數據計算其與各類重心的距離,與某類重心距離最近則歸於該類。Bayes判別是由先驗概率計算出後驗概率,再根據後驗概率分布對新數據作出統計推斷。

定量分析(Quantitative Analysis)是通過某類算法使自變量能夠較為精確地預測因變量的壹種回歸方法,且因變量壹般為連續變化的數據,其壹般分為線性、廣義線性與非線性三種。主要有:偏最小二乘法(Partial least squares, PLS),主成分分析-線性判別分析(PCA-LDA),決策樹(Decision Tree, DT),人工神經網絡(Artificial neural network,ANN),支持向量機(Support Vector Machine, SVM),K最近鄰算法(K Nearest Neighbor, KNN),邏輯回歸(Logistic Regression, LR),隨機森林(Random Forest, RF)。這8中算法的理論部分請查看 機器學習 部分 11 與 12 篇。

定性判別模型的評價可使用混淆矩陣,混淆矩陣及其相關參數是最簡單與最直觀的評價指標之壹,以二分類為例,混淆矩陣如表1-3,可基於混淆矩陣計算出判別模型的評價指標

推導出的參數有:

定量分析模型的評價指標主要有決定系數(coefficient of determination,R2 )和均方根誤差(Root Mean Squared Error,RMSE),R2值越大表示模型越好(0≤R2≤1),RMSE越小表示模型越好(RMSE≥0)。

計算公式如下:

在不同數據集中,可分別計算出相應的R2與RMSE參數。在訓練集中,其中公式(2)中n=樣本數-主成分數-1時,全部數據建模的參數表示為校正R2C(Calibration coefficient of determination,R2C)與校正RMSEC(Root mean square error of calibration,RMSEC);當公式(2)中n=樣本數-交叉驗證時留出的樣本數時,建模的參數表示為交叉R2CV(Cross-calibration coefficient of determination,R2CV)與交叉RMSECV(Root mean square error of cross-calibration,RMSECV);在測試集中,當公式(2)中n=樣本數時,驗證結果得到的參數為驗證R2V(Validation coefficient of determination,R2V)與驗證RMSE p (Root mean square error of validation,RMSEp)。