半岛综合体育三七(Panax notoginseng (Burk.) F.H.Chen),又名文州三七,为五加科(Araliaceae)人参属(Panax)植物,是临床常用传统中药。三七商品有主根、剪口、侧根、须根的划分,不同部位的药用成分构成有较大差异,临床功效也不尽相同。三七的主要商业价值在于剪口和主根,三七粉是三七的主要消费和商品形式。但剪口、主根、侧根和须根等在粉末状态下颜色相同,通过肉眼很难对其进行鉴别。已有研究表明,三七挥发性成分众多BOB·半岛,且三七不同部位挥发物有差异BOB·半岛。因此,可以通过三七粉挥发物的检测对不同部位三七粉进行鉴别。
电子鼻可以快速准确地检测出不同的挥发物类型,通常对一些产品的整体信息提供综合评估,气相色谱-质谱(GC-MS)主要用于挥发性物质的定性和半定量,国内外已有许多采用电子鼻结合GC-MS联用技术研究五加科中药材挥发性成分的研究。昆明理工大学现代农业工程学院的李丽霞、张浩、王俊*等人采用电子鼻技术结合GC-MS对三七整根粉、剪口粉、主根粉、侧根粉和须根粉5 种三七粉挥发性成分进行分析,从而鉴别这5 种三七粉。
经GC-MS 联用技术检测发现,5 种不同部位三七粉挥发物共有31 种,包括萜烯类17 种,占比43.51%~56.21%;芳香族化合物2 种,占比13.75%~25.77%;烷烃类8 种,占比1.06%~3.51%;烯烃、酸类和醇类4 种,占比26.86%~39.23%。采用Duncan法进行多重比较,主要的代表性挥发物见表2。
由表2可知,5 种不同部位三七粉的挥发物在成分和含量上均存在差异(P<0.05)。5 种三七粉检测到的挥发物总量相互之间差异显著(P<0.05)(参照总量平均值)。侧根粉未检测出中苯乙酮和γ-依兰油烯成分,主根中未检测出α-杜松烯成分,其余成分在5 种三七粉中均有分布。5 种三七粉相互之间均存在显著差异(P<0.05)的挥发物成分是桉油烯醇和香橙烯,无显著差异(P>0.05)的成分是辛酸。其余萜烯类、芳香族化合物和烷烃成分均存在不同程度的差异(P<0.05)。因此,可以通过电子鼻利用以上化合物含量差异鉴别5 种三七粉。
从图1可以看出,电子鼻每个传感器对5 种三七粉均有响应,且响应值的变化均不相同。其中传感器S2、S6、S8和S9的响应值变化显著高于其他传感器。传感器S2具有广谱响应性,挥发物含量越大,其响应值变化越大,萜烯类物质在挥发物中含量占比最高,其对S2响应值的变化贡献率最高。5 种三七粉的萜烯类物质在成分和含量上均存在显著差异(P<0.05),总含量大小依次为整根粉、剪口粉、主根粉、侧根粉BOB·半岛、须根粉,与S2的响应值变化规律一致。传感器S6对烷烃化合物灵敏,其响应值的变化从大到小依次为主根粉、剪口粉、整根粉、须根粉、侧根粉,GC-MS联用仪分析的结果(表2)显示,5 种三七粉烷烃含量高低与S6的响应值变化规律相同。传感器S8和S9对芳香族化合物灵敏,响应值的变化从大到小依次为整根粉、剪口粉、侧根粉、须根粉、主根粉,GC-MS联用仪分析结果显示5 种三七粉的芳香族化合物在成分和含量上均存在差异(P<0.05),且5 种三七粉芳香族化合物在含量上的差异与电子鼻S8、S9的响应值变化差异相同。由以上各样品的电子鼻传感器的响应曲线差异分析可以表明,电子鼻在不同部位三七粉的鉴别上具有可行性。
特征变量之间存在高冲突数据会影响特征融合数据的可靠性,继而会影响分类模型建模结果,而Pearson相关系数在度量数据之间的冲突程度上表现良好。以整根粉10 根传感器响应值的INV特征数据和整根粉单个传感器S2响应值的8 个特征数据为例分析特征数据之间的冗余程度。图2是这两种不同维度数据各自的Pearson相关矩阵,其中相关系数的绝对值越接近1,说明二者之间的相关性越大;相关系数的大小在图中用椭圆形球的宽窄和颜色表示,正负用椭圆形球的左偏和右偏表示。由图2A可知,除S7、S9传感器外,其余8 个传感器之间都存在大量冗余信息;由图2B可知,除了最大值特征T4和BFV b特征T7外,其余6 个特征数据之间存在大量冗余信息。所以,需要对特征数据进行特征降维提高分类模型的精度。
为了降低特征变量之间数据高冲突风险,剔除特征之间的冗余信息,挖掘具有重要价值的特征参数,本研究采用CARSBOB·半岛、VISSA和IRIV对80 个三七粉特征变量进行优选,以提高模型的泛化能力和识别准确率,增强模型的鲁棒性。
在CARS的特征选择过程中,设置蒙特卡罗采样次数为50,采用5折交叉验证的方法建立PLSR模型,以RMSECV最小值确定选择的最优特征组合。三七粉的特征选择过程如图3所示。从图3a可以看出,随着采样次数的不断增加,选择的特征数量逐渐减少,且减少趋势逐渐变缓,体现了CARS在特征选择过程中的“粗选”和“精选”的过程。从图3b可以看出,随着采样次数的增加,RMSECV的值呈现先下降后上升的趋势,在下降的过程中,表明无用信息或者干扰信息正在被剔除,而在上升的过程中,表明有用信息正在被剔除。图3c为特征选择过程中各特征变量回归系数的趋势变化,蓝色星号竖线表示最佳采样位置,此时RMSECV值最低,选择的特征变量组合最优。最终通过CARS筛选出了15 个特征变量。
在VISSA的特征选择过程中,设置每轮WBMS生成的变量个数为5000,子模型的数据集占比为0.05,特征变量的初始权重为0.5,采用5折交叉验证的方法建立PLS模型,根据RMSECV最小值确定最终特征个数。由图4可知,随着选择的特征变量数量的增加,RMSECV的值呈先快速下降再趋于稳定后又上升的趋势。当特征变量个数小于16时,RMSECV较大,表明这些特征变量无法准确表征三七粉特征,当特征变量个数大于28时,RMSECV增加,表明此时的特征变量组合中存在冗余或干扰信息,不利于建模。最终在RMSECV值最小(图4箭头)处选择28 个特征变量。
在IRIV特征选择的过程中,采用5折交叉验证的方法建立PLS模型,然后以RMSECV作为评价指标选择特征变量。在每次迭代中,IRIV均会剔除一些无用和干扰的特征变量,保留有用的特征。图5为IRIV选择特征变量数量的过程,经过10 次迭代后,特征变量个数稳定在16 个,再经过反向消除无关变量和干扰变量后,最终保留了14 个特征。
采用CARS、VISSA和IRIV对特征进行选择后分别得到15、28、14 个特征变量。3 种算法选择后的特征变量分布如图6所示,其中横坐标表示10 根电子鼻传感器响应值的特征变量编号,1~8、101~108分别代表电子鼻传感器S1~S10响应值的INV、ADV、RSAV、最大值、最小值、BFV a、b、c,8 个特征,纵坐标表示特征选择算法的类别。CARS选择的15 个特征中,8 个是BFV特征,占比最大;6 个是EV特征,关于S2、S6、S8、S9四根传感器的特征有5 个,占比为1/3。VISSA选择的特征最多,共28 个,其中16 个是BFV特征,占比最大;剩下的主要是相对平均稳态值和最大值,关于S2、S6、S8、S9四根传感器的特征有14 个,占比为1/2。IRIV选择的特征最少,共14 个,其中9 个是BFV特征,占比最大;而关于S2、S6、S8、S9四根传感器的特征也是9 个,占比大于1/2。综上,3 种特征选择算法选择的特征中占比最大的都是传感器响应曲线的BFV(a,b,c),说明其最能够表征电子鼻信号;其中VISSA、IRIV选择的关于S2、S6、S8、S9四根传感器的特征比例占到了1/2及以上,说明在5 种三七粉的10 根电子鼻响应信号中,这4 根传感器的差异最大,与2节的分析一致。
采用KS(Kennard-Stone)算法对数据进行划分训练集和测试集,将每类三七粉的24 个样本中的16 个作为训练集,其余8 个作为测试集,该方法的优点是能保证训练集中的样本按照空间距离分布均匀,能够增加模型的泛化能力。分别建立基于特征提取数据和3 种特征选择数据的SVM、ELM和LSSVM的三七粉电子鼻信号识别模型,并进行对比,探究3 种分类模型对三七粉的识别效果,以及特征选择算法对降低模型复杂度和提高模型精度的实际效果。其中,SVM和LSSVM的核函数选用径向基核函数,参数c、g、gam和sig2均设为默认值,ELM的最佳隐含层神经元个数设置为100,激活函数选择线性整流函数(ReLU)。同时本研究使用测试集的准确率进行模型评价。各建模方法建模结果如表3所示。
由表3可知,基于原始数据和CARS、VISSA、IRIV 3 种特征选择算法数据的3 种分类模型的测试集平均准确率分别为72.5%、80%、84.17%和88.33%。基于3 种特征选择数据模型的平均分类精度都高于原始数据,其中IRIV数据的平均分类精度最高,比原始数据提高了15.83%,这验证了特征选择的必要性。对比3 种分类算法,基于原始数据和3 种特征选择数据的LSSVM模型都表现出了最好的效果,基于IRIV数据的LSSVM模型的测试集准确率最高,达到了90%。由图6可知,IRIV选择的关于S2、S6、S8、S9四根传感器的特征占比最高,大于1/2,而这4 根传感器检测的是烷烃、芳香族化合物和挥发物总量,由表2可知,5 种三七粉挥发物总量、烷烃和芳香族化合物均差异显著,这解释了IRIV选择的特征个数最少,但效果最好的原因。综上所述,本研究采用分类效果最好的IRIV-LSSVM模型作为5 种三七粉分类模型。
LSSVM算法分类精度的高低主要取决于其惩罚因子gam和核参数sig2,因此,为了进一步提高模型的分类精度,本研究引入智能优化算法GWO对LSSVM中的gam和sig2进行优化。GWO的最大迭代次数设置为50,种群大小设置为20,参数gam和sig2的搜索范围设置为[2 -10 ,2 10 ],经过50 次迭代后,优化模型得出最优解,优化建模结果如表4所示。
从表3、4可以看出,优化后分类模型的测试集准确率相较于优化前,提高了7.5%,说明最优惩gam和sig2对提高LSSVM分类精度至关重要。
如图7所示,其中整根粉、剪口粉、主根粉、侧根粉、须根粉的测试集识别准确率分别为100%、100%、100%、87.5%和100%,平均分级准确率为97.5%;其中,有一个侧根粉样本分错成了须根粉,由图1电子鼻响应曲线结果和IRIV选择的特征结果可以推测是此样本的S2、S6、S8、S9四根传感器的响应曲线与须根粉更相似。以上表明,此模型能够正确地鉴别整根粉、剪口粉、主根粉和须根粉,对市场上用侧根粉和须根粉冒充主根粉和剪口粉提供了一种鉴别方法。
采用电子鼻和GC-MS对5 种不同部位的三七粉样品进行分析、鉴别。从5 种样品中鉴定出了31 种成分,对其中15 种主要成分进行分析,主要成分在种类和含量上都有差异,特别是挥发物总量、烷烃和芳香族化合物差异显著。通过特征提取和模型优化两种方法提高了电子鼻对三七粉的识别准确率,IRIV选择的特征是能够体现烷烃、芳香族化合物和挥发物总量差异的4 根传感器响应值的特征。最优的GWO-IRIV-LSSVM模型可对道地产区文山5 种不同部位三七粉进行有效区分,测试集准确率为97.5%。证实了一些重要化合物的含量在5 种样品中存在显著差异。该方法可对道地产区文山不同部位三七粉客观BOB·半岛、高效、准确地鉴别,可用于道地产区优质三七粉混入劣质三七粉的检测。
Copyright © 2002-2024 半岛·综合体育(中国)官方网站 版权所有 备案号:黑ICP备2022001306号