番茄是一種受歡迎且營(yíng)養(yǎng)豐富的水果,在全球市場(chǎng)上占據(jù)了重要地位。近幾十年來(lái),大量的研究致力于培育出品質(zhì)更高、抗逆性更強(qiáng)的番茄品種。
果實(shí)的品質(zhì)與幼苗的生長(zhǎng)密切相關(guān),因此,有效監(jiān)控幼苗的生長(zhǎng)對(duì)于培育優(yōu)質(zhì)番茄至關(guān)重要。傳統(tǒng)的化學(xué)方法在監(jiān)測(cè)植物中大量色素的濃度方面可能會(huì)受到限制。
為了克服這些限制,研究人員經(jīng)常求助于非侵入性、高通量和實(shí)時(shí)監(jiān)測(cè)技術(shù),例如光譜學(xué)和高光譜成像,
這些技術(shù)可以在不需要破壞性采樣的情況下評(píng)估植物中的色素濃度,并提供有效監(jiān)測(cè)大量植物的能力。
兩種類(lèi)型的番茄幼苗:未改變的野生型和長(zhǎng)下胚軸缺失(HY5)突變體。野生型花青素含量較高,HY5突變體的花青素含量較低。
花青素在植物光合作用中起重要作用,并影響其他色素的積累。兩種苗種在相同的環(huán)境條件下培養(yǎng)。
如圖1(a)所示,將幼苗置于頂部和底部有開(kāi)口的海綿方塊上,使其葉子向上,根向下,將幼苗種植在72孔泡沫板上。
泡沫板被放置在植物工廠的水培架子上,使番茄幼苗的根部能夠接觸到營(yíng)養(yǎng)液。番茄幼苗以單孔空間分開(kāi)種植,以減少植物葉片在生長(zhǎng)過(guò)程中的相互遮蔭,
以確保植物獲得足夠的光線(xiàn)。本研究記錄了番茄幼苗在播種后17、20和23天的光譜數(shù)據(jù)和色素濃度數(shù)據(jù)。
從4塊泡沫板中選取144個(gè)樣本,每塊泡沫板中包含36棵幼苗。一半的樣本是野生型,另一半是HY5型。
實(shí)驗(yàn)中番茄幼苗的選擇標(biāo)準(zhǔn)是葉片表面平整,以便于光譜圖像的獲取。
共采集了432株幼苗,其中一半為野生型,一半為HY5型。幼苗葉片中色素濃度隨時(shí)間的平均值和分布如圖2所示。
這些折現(xiàn)說(shuō)明了每種光合色素的平均濃度總體上呈上升趨勢(shì)。葉綠素濃度在第20天顯著高于第17天,第23天變化不大。
這可能有兩個(gè)潛在原因:隨著植物的生長(zhǎng),它可能耗盡了土壤中可用的營(yíng)養(yǎng)物質(zhì)。光合色素,如葉綠素,需要氮、鎂等關(guān)鍵營(yíng)養(yǎng)物;植物可能將資源轉(zhuǎn)向開(kāi)花、
結(jié)果或其他繁殖過(guò)程。小提琴圖展示了不同時(shí)間間隔中色素濃度的分布,小提琴圖中較寬的部分表明該范圍內(nèi)樣本數(shù)量較多。
每個(gè)時(shí)間點(diǎn)分組的上部小提琴圖顯示了野生型的分布,而下部小提琴圖代表HY5突變型。HY5是植物生長(zhǎng)發(fā)育過(guò)程中促進(jìn)光形態(tài)發(fā)生,
刺激葉綠素和類(lèi)胡蘿卜素合成的關(guān)鍵調(diào)控因子。HY5缺失導(dǎo)致下胚軸變長(zhǎng),光形態(tài)發(fā)生受損導(dǎo)致色素沉著減少。
在主成分分析法中,載荷圖通常用來(lái)檢驗(yàn)特征與主成分之間的關(guān)系,每個(gè)主成分中原始變量的權(quán)重有助于進(jìn)一步理解所選波長(zhǎng)的重要性。
如圖4(a)所示,在21個(gè)選定的主成分中,有5個(gè)主成分占總載荷的90%以上。曲線(xiàn)的峰谷分別出現(xiàn)在910 nm、950 nm、1130 nm、1400 nm和1450 nm附近,
與番茄幼苗色素的相關(guān)性PC4在910 nm左右上升,PC5在1130 nm左右下降,
可能是由于C-H鍵的拉伸和彎曲振動(dòng)引起的。950 nm和1130 nm附近發(fā)生的特征是由于對(duì)稱(chēng)和不對(duì)稱(chēng)振動(dòng)和旋轉(zhuǎn)方式對(duì)H2O分子的吸收。
1450 nm左右的顯著下降與水的O-H拉伸第一泛音和碳水化合物的存在有關(guān)。
如圖4(b)所示,以葉綠素-a的結(jié)果為例,CARS經(jīng)過(guò)21次蒙特卡羅采樣迭代后,所選擇的特征總計(jì)為37。
所選特征主要集中在950~1150 nm和1400~1480 nm之間。在960 nm處觀察到的吸收峰主要來(lái)自于水分子內(nèi)羥基(OH)的二階頻率加倍,
而在1200 nm附近的衰減被認(rèn)為是有機(jī)物內(nèi)CH基團(tuán)的二階振動(dòng)吸收的結(jié)果。另一方面,葉綠素-b和類(lèi)胡蘿卜素所選擇的波長(zhǎng)不同。
然而,它們都緊密地聚集在兩個(gè)特定的光譜范圍內(nèi):930-1210 nm之間和1350-1550 nm之間的峰谷。
930-1210 nm之間的特征與植物中O-H和C-H鍵的振動(dòng)有關(guān)。綜上所述,這些一致的結(jié)果符合光譜學(xué)的既定原理,支持了特征提取的驗(yàn)證。
(a)基于PCA方法的波長(zhǎng)權(quán)重;(b)CARS法提取葉綠素-a的敏感波長(zhǎng)
為了證明特征提取有助于預(yù)測(cè)性能的提升,進(jìn)行了全波段對(duì)比實(shí)驗(yàn)。表1顯示了不同特征提取方法與PLSR結(jié)合時(shí)的性能,
其中Np代表預(yù)測(cè)中使用的特征數(shù)量,R2c、R2v和RMSEc、RMSEv分別代表校準(zhǔn)集和驗(yàn)證集上的R2和RMSE值。
如表1所示,通過(guò)整合三種特征提取方法,PLSR模型的性能較使用全波段特征有所提升。
以葉綠素-a為例,與全波段相比,PCA、ICA和CARS組合的R2分別提高了0.027、0.030和0.082。
此外,其他三種色素的預(yù)測(cè)中也發(fā)現(xiàn)了相同的改善。因此,這些特征提取方法能有效地移除反射光譜中的無(wú)關(guān)信息。
此外,在表1中,CARS顯示出更高的R2和更小的RMSE,證明了其相較于其他兩種策略。
雖然PCA和ICA方法傾向于使用較少的特征進(jìn)行預(yù)測(cè),但它們可能無(wú)法保留重要的波長(zhǎng)。另一方面,CARS展示了更高的準(zhǔn)確性和魯棒性。
因此,在接下來(lái)的建模討論中采用了CARS來(lái)選擇敏感波長(zhǎng)。
在特征提取后,對(duì)PLSR和ELM進(jìn)行測(cè)試和比較,以確定預(yù)測(cè)番茄幼苗中色素濃度的最佳模型。采用網(wǎng)格搜索技術(shù)確定模型的參數(shù)。
當(dāng)隱藏層節(jié)點(diǎn)數(shù)設(shè)置為30時(shí),ELM達(dá)到,預(yù)測(cè)結(jié)果如圖5(a)所示??傮w而言,ELM比PLSR具有更高的R2和更低的RMSE,
即ELM在檢測(cè)任務(wù)中表現(xiàn)出更高的準(zhǔn)確性和魯棒性,可能的關(guān)鍵因素是數(shù)據(jù)中非線(xiàn)性關(guān)系的存在。
在3種色素中,ELM模型在葉綠素-a的預(yù)測(cè)精度最高,在測(cè)試集上的R2為0.86,在葉綠素-b和類(lèi)胡蘿卜素?cái)?shù)據(jù)中表現(xiàn)出幾乎一致的預(yù)測(cè)性能。
所提出的方法隨后被用于檢測(cè)活體番茄幼苗葉片中的色素濃度。該過(guò)程包括將原始高光譜圖像作為輸入輸入到預(yù)訓(xùn)練系統(tǒng),系統(tǒng)隨即生成色素濃度的預(yù)測(cè)。
如圖5(b)所示,熱圖中的顏色編碼(藍(lán)色代表低濃度,紅色代表高濃度)提供了對(duì)這些色素分布的直觀理解,結(jié)果也確實(shí)合理。如預(yù)期,葉片中的色素濃度高于莖部。
這與植物生理學(xué)的理解一致,葉子是光合作用的主要場(chǎng)所,這些色素在其中發(fā)揮關(guān)鍵作用。
利用預(yù)測(cè)的葉綠素和類(lèi)胡蘿卜素濃度對(duì)野生型和HY5型番茄幼苗進(jìn)行分類(lèi)。為此訓(xùn)練了基于邏輯回歸、支持向量機(jī)(SVC)和K最近鄰(KNN)的分類(lèi)模型,
將番茄幼苗的輸入樣本分為野生型和HY5型。模型訓(xùn)練是在包含三種色素濃度和相應(yīng)基因型標(biāo)簽的真實(shí)化學(xué)數(shù)據(jù)集上進(jìn)行的。
然后,使用訓(xùn)練好的分類(lèi)器和ELM預(yù)測(cè)的色素濃度作為測(cè)試輸入,來(lái)確定番茄幼苗的基因型。分類(lèi)器的主要結(jié)果在表2中進(jìn)行了總結(jié)。
從表中可以觀察到,邏輯回歸和SVC在測(cè)試集上達(dá)到了最高的準(zhǔn)確度得分,約為0.85。
此外,這兩個(gè)模型的F1分?jǐn)?shù)和AUC也達(dá)到了相對(duì)較高的值,分別為0.86和0.85,表明這些模型在處理野生型和HY5型的二分類(lèi)問(wèn)題上具有高水平的表現(xiàn)。
葉綠素和類(lèi)胡蘿卜素的實(shí)際濃度是通過(guò)化學(xué)方法確定的,這些數(shù)據(jù)作為建模的真實(shí)基準(zhǔn)。進(jìn)行了使用不同特征提取算法的實(shí)驗(yàn),
以驗(yàn)證提取過(guò)程的有效性并通過(guò)結(jié)果比較識(shí)別最佳算法。結(jié)果顯示,CARS方法勝過(guò)其他方法,成為特征選擇方法。
每種色素的敏感波長(zhǎng)都被記錄下來(lái),以備將來(lái)應(yīng)用?;赑LSR和ELM構(gòu)建的回歸模型進(jìn)一步用于預(yù)測(cè)葉綠素a、葉綠素b和類(lèi)胡蘿卜素的濃度,
結(jié)果顯示ELM模型表現(xiàn)更佳,這三種色素的R2分別達(dá)到了0.86、0.83和0.83。使用ELM預(yù)測(cè)的色素濃度作為輸入,
基于邏輯回歸和SVC構(gòu)建的分類(lèi)模型用于分類(lèi)番茄幼苗的基因型,在測(cè)試集上達(dá)到了0.85的準(zhǔn)確度。所提出的方法可以整合到運(yùn)行在微型計(jì)算機(jī)上的軟件中,
使用近紅外高光譜相機(jī)實(shí)時(shí)估算色素濃度和基因型。這一概念可能會(huì)啟發(fā)監(jiān)測(cè)設(shè)備的開(kāi)發(fā),旨在提高植物工廠的效率和生產(chǎn)力。
電話(huà)
微信