【摘 要】
:
随着经济不断发展,葡萄酒饮用也越来越普及,但与葡萄酒发展密切相关的品质鉴定手段还停留在单靠品酒师的人工品尝的阶段,显然这已经很难满足当今巨大的市场需求。而随着大数据观
论文部分内容阅读
随着经济不断发展,葡萄酒饮用也越来越普及,但与葡萄酒发展密切相关的品质鉴定手段还停留在单靠品酒师的人工品尝的阶段,显然这已经很难满足当今巨大的市场需求。而随着大数据观念深入人心,葡萄酒物化属性的科学检测手段应运而生,这些都为数据挖掘应用于葡萄酒的品质鉴定带来了硬件及软件支持。本文就通过运用数据挖掘方法,基于葡萄酒的理化属性数据,尝试对葡萄酒品质进行鉴定分类。现阶段,利用数据挖掘对葡萄酒品质鉴定还比较少,并且普遍存在的问题是尽管这些分类器模型的整体准确率并不低,但是对于低品质葡萄酒的识别准确率却很低。而本文在运用Logistic多项模型,Tan神经网络,带偏差项的BP神经网络以及C5.0决策树四种分类算法的同时,不仅仅关注分类模型的整体预测精度,同时也会深入去分析具体到各个品质类别的准确率,发现在高整体准确率的背后,不平衡数据使到分类器忽略了其中的少数类。而本文的创新之处在于运用SMOTE过抽样以及随见丢弃欠抽样的方式结合来平衡数据,并选择出最优的决策树分类模型。并且为进一步从全面提高模型的判定准确率,本文将决策树C5.0结合Boosting技术,形成组合分类器,大大提高预测精度。最后,为更符合实际应用,考虑到现实当中误判成本不均等的情况,采用代价敏感学习方式来优化模型,使得模型在保证整体准确率的同时,大大地提高了低品质葡萄酒的识别率。并且同时也显著降低了误判成本。
其他文献
宁夏西吉县是全国马铃薯优势生产区域。20世纪90年代以来,随着马铃薯淀粉加工业的兴起和发展,马铃薯产业由过去扶贫解决温饱转变为西吉县的主导产业。经过多年的发展,西吉的
试井作为油气藏评价的一项重要手段,在气田勘探开发中发挥着重要作用。对于渗透率较低的储层,利用短期的不稳定试井资料进行试井解释,双对数曲线往往难以反应出边界的特征,而
气敏传感器是一种能检测不同种类与不同浓度的气体,并将这些参量转化成电信号输出的装置,广泛应用于环境调查、国家安全、食品加工、家庭生活、医疗诊断、搜索预防等生产生活中
嘉绒藏族是藏族的一个重要分支,主要分布在今四川省阿坝、甘孜地区,明清以来先后形成了一些大小不等的嘉绒土司。学术界对嘉绒藏族的研究发端于20世纪三四十年代,在诸多方面
目的 探讨小干扰RNA沉默CDK2(cyclin-dependent-kinase2)、CyclinE基因表达对人肺癌细胞株A549细胞增殖、及细胞周期的影响。方法 以脂质体Lipofectamine2000将化学合成的CDK2
伴随着新课程改革的不断推进,新课程理念逐渐渗透到课堂教学中。"一切为了学生为了学生一切",已成为教师教学设计和教学评价的指导思想。与传统的初中化学课程相比,新课程在
全国各发电集团下属电厂推出"上大压小或关小"的举措后,实施了退城进郊战略,在异地扩建新电厂.本文以华能集团下属的华能长兴电厂为案例,提出了异地扩建电厂在基建时期几种不
农村基础教育作为整个国民教育体系的重要组成部分,也是新农村建设的有机组成部分。农村基础教育事业的健康发展既关系着农村精神文明的建设,也关系着我国新型城镇化进程的推进
<正>琥珀是数千万年前的树脂被埋藏于地下,经过一定的化学变化后形成的一种树脂化石。琥珀的形状多种多样,表面常保留着当初树脂流动时产生的纹路,内部常见气泡及古老昆虫或
词汇是语言三要素中最活跃的因素,新词新语是观察社会生活的晴雨表,是反映现实的一面镜子。词汇发展的主要方式是创造新词,而新词的创造一般又是在已有的语言材料和构词方法