基于化學(xué)指標(biāo)的煙葉產(chǎn)區(qū)正交偏最小二乘判別分析
發(fā)布時(shí)間:2019-08-25 來(lái)源: 歷史回眸 點(diǎn)擊:
摘 要:為構(gòu)建基于化學(xué)指標(biāo)的不同產(chǎn)區(qū)煙葉的模式識(shí)別模型,收集2003—2007年5個(gè)年度四川、云南和福建3省份共計(jì)1262份烤煙樣品的21種化學(xué)指標(biāo),并進(jìn)行正交偏最小二乘判別分析(OPLS-DA)。結(jié)果表明,基于21種化學(xué)指標(biāo)所構(gòu)建的OPLS-DA模型顯著可靠,模型參數(shù)R2X、R2Y和Q2值分別為0.429、0.702和0.627;模型提取出2個(gè)預(yù)測(cè)主成分,對(duì)四川、云南和福建3省未知煙樣識(shí)別正確率分別為76.67%、93.33%和93.33%;诨瘜W(xué)指標(biāo)的煙葉產(chǎn)區(qū)OPLS-DA模型,可以有效識(shí)別不同產(chǎn)區(qū)煙葉樣品,篩選出各產(chǎn)區(qū)特征指標(biāo)并解釋產(chǎn)區(qū)間差異。
關(guān)鍵詞:烤煙;化學(xué)指標(biāo);正交偏最小二乘;判別分析
中圖分類號(hào):TS41+1 文章編號(hào):1007-5119(2017)01-0091-06 DOI:10.13496/j.issn.1007-5119.2017.01.016
Abstract: In order to construct the pattern recognition model of tobacco producing areas based on chemical measurements, 21 chemical measurements from 1262 samples of flue-cured tobacco were collected from 2003 to 2007, and were used to construct a OPLS-DA model. The results showed that the OPLS-DA model was highly significant with the following model performance statistics (R2X=0.429, R2Y=0.702, Q2= 0.627). The OPLS-DA of the training set gave a model with two Y-predictive components, and gave the correct rate of 76.67%, 93.33% and 93.33% to distinguish samples from Sichuan, Yunnan and Fujian tobacco producing areas. The OPLS-DA model based on chemical measurements can recognize tobacco samples from different producing areas, and can be used in screening for biomarkers for different areas and providing interpretations for regional difference of tobacco samples.
Keywords: flue-cured tobacco; chemical measurements; OPLS; discriminant analysis
開發(fā)特色優(yōu)質(zhì)煙葉對(duì)于打造中式卷煙核心技術(shù),提高中式卷煙市場(chǎng)競(jìng)爭(zhēng)力具有重要意義。不同煙葉產(chǎn)區(qū)光照、降水、溫度和土壤等生態(tài)條件差異較大,所生產(chǎn)的煙葉往往具有不同的品質(zhì)和風(fēng)格特征[1-4],連同品種和栽培措施的差異[5-6],形成了生產(chǎn)特色優(yōu)質(zhì)煙葉的客觀條件。自“特色優(yōu)質(zhì)煙葉開發(fā)”作為《煙草行業(yè)中長(zhǎng)期科技發(fā)展規(guī)劃綱要(2006―2020年)》的重大專項(xiàng)實(shí)施以來(lái),圍繞煙葉品質(zhì)與環(huán)境關(guān)系、煙葉品質(zhì)區(qū)劃相關(guān)研究頗多,包括相關(guān)[7]、聚類[8-9]、因子[10]、判別[11-14]、模糊數(shù)學(xué)[15]、灰色關(guān)聯(lián)[16]、人工神經(jīng)網(wǎng)絡(luò)[17]等多種統(tǒng)計(jì)方法被運(yùn)用。但由于各個(gè)化學(xué)指標(biāo)間關(guān)系的不確定性與復(fù)雜性,導(dǎo)致這些統(tǒng)計(jì)方法很難系統(tǒng)性地建立煙葉的特征化學(xué)指標(biāo)識(shí)別模型[18-19],或模型識(shí)別率低[18]。因此,本研究基于煙葉化學(xué)指標(biāo)進(jìn)行正交偏最小二乘判別分析(Orthogonal Partial Least Squares Regression Discriminant Analysis,OPLS-DA)構(gòu)建不同產(chǎn)區(qū)煙葉的高效模式識(shí)別模型,探索不同產(chǎn)區(qū)煙葉之間的化學(xué)指標(biāo)差異,并進(jìn)行解釋和預(yù)測(cè)分析,為辨別煙葉產(chǎn)地、理解和分析煙葉質(zhì)量和風(fēng)格特色的形成提供幫助和參考。
1 材料與方法
1.1 煙葉樣品
收集整理了“中國(guó)煙草科學(xué)技術(shù)數(shù)據(jù)庫(kù)”[20]中2003—2007年5個(gè)年度四川、云南和福建3省份的全部烤煙樣品信息,共計(jì)1262份,其中,四川278份、云南691份、福建293份。煙草品種包括K326、K346、NC82、翠碧1號(hào)、紅花大金元、云煙85和云煙87。煙葉等級(jí)包括B2F、C2F、C3F和X2F。研究中,分別從3個(gè)省份各隨機(jī)抽取30個(gè)煙樣,構(gòu)成含有90個(gè)煙樣的檢測(cè)集數(shù)據(jù),用于驗(yàn)證模型的有效性。剩余的1172個(gè)煙樣作為構(gòu)建模型的訓(xùn)練集數(shù)據(jù)。
1.2 煙葉化學(xué)成分指標(biāo)
煙葉化學(xué)指標(biāo)數(shù)據(jù)來(lái)源于“中國(guó)煙草科學(xué)技術(shù)數(shù)據(jù)庫(kù)”,指標(biāo)共21種,包括:水溶性總糖、總植物堿、蛋白質(zhì)、總氮、還原糖、總揮發(fā)酸、總揮發(fā)堿、氮堿比、糖堿比、鉀氯比、石油醚提取物總量、醚提取物中性總量、醚提取物酸性總量、醚提取物堿性總量、pH、鉀、氯、硝酸根、硫酸根、灰分和水溶性灰分堿度。
1.3 正交偏最小二乘分析
偏最小二乘判別(Partial Least Squares Regression Discriminant Analysis, PLS-DA)是基于PLS回歸方法,主要反映預(yù)測(cè)變量和因變量之間的線性關(guān)系,是一種有監(jiān)督分類方法。它基于X變量構(gòu)建Y變量的預(yù)測(cè)模型,并根據(jù)X變量新的預(yù)測(cè)集數(shù)據(jù)預(yù)測(cè)Y變量。其公式如下:
相關(guān)熱詞搜索:正交 判別 煙葉 產(chǎn)區(qū) 小二
熱點(diǎn)文章閱讀