基于特征选择的多维度数据预测与分类方法研究

来源 :河南科技大学 | 被引量 : 0次 | 上传用户:ydlwxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,随着人们对信息时代知识的深入了解,大数据、物联网以及云计算等新兴术发展带来了巨大的研究机遇。而复杂系统下,多维度数据的预测与分类在数据挖掘技术领域下受到研究者们的广泛关注。并且在众多产业技术领域,例如,在共享数据经济、生物学信息分析、能源化工分析、以及电子商务用户行为分析等均得到普遍的应用。一方面,面对各个领域内日益增长的数据信息,其中蕴含着极其丰富的知识和决策类信息。在多维度数据集中进行更加有效和充分地提取有价值的可支配信息是当前研究中的一个挑战。另一方面,为了能够对不同结构的多维度数据进行归纳和整理,并从中进行知识发现,机器学习与数据挖掘技术逐渐成为新兴信息技术。如今,所获得的数据在结构和格式上越来越精细和复杂,其中所包含的信息也越来越冗杂。在应用实践的需求推动下,对多维度数据进行预测和分类迅速成为数据挖掘技术中的研究热点。当前的多维度数据预测与分类算法特征选择方式,以特征工程为基础,针对相关缺陷提出一系列改进措施,经过实验证明完成后的算法理论具有一定的显著效果。主要研究内容如下所列:1.提出结合相关性系数的随机森林预测算法。通过改进森林的特征选择方式,对复杂系统下的多维度数据中的特征进行相关性评估,然后根据相关性系数数值划分区间,将具有强相关性的特征和共线性的数据噪音剔除。增加了森林中决策树间的差异性,增强了森林的整体的泛化能力。通过共享单车需求量实验验证提升了算法预测精度并解决了产生的过拟合问题。2.提出了基于因子分析的动态时间弯曲相似性降维法。在高时间复杂度的序列中相似性,通常采用动态时间弯曲及下界函数进行距离度量。但是算法计算过程效率较低,且度量质量较差。鉴于此,将因子分析与动态时间弯曲下界函数进行结合,通过其进行降维转换协方差矩阵和距离矩阵,并推导出具有对称性的下界函数,改进算法的特征选择方式,构建时序预测模型。最终,通过实际空气质量和电力负荷数据完成算法的可行性和有效性验证。3.提出了结合互信息的因子分析分类方法。因子分析在多维度数据中为常见的降维方法,该方法仅可以处理线性数据关系,为评估特征间依赖性的强弱。互信息则具有良好的非线性处理能力。采用互信息对特征间的相关性进行计算,将特征相关性结果进行转换为特征值矩阵评估因子,作为输入信息。通过分类算法构建分类模型。利用癌症基因组数据完成实验验证,该方法提高了算法的分类性能,取得一定的效果。通过以上三个内容的数学推论和实验可知,本文在多维度数据预测与分类上对特征选择进行改进和结合,提高了原本算法的预测精度和分类强度。本文的改进的算法内容具有广泛的应用价值,对其他研究者有一定的理论借鉴意义。
其他文献
国家职能问题是马克思恩格斯国家职能思想中的重大理论问题,也是现实我国国家政权建设中的重大实践问题。对马克思恩格斯国家职能理论的发展变化进行系统的考察,在一定程度上丰富了马克思恩格斯国家职能思想,而且极大地有助于深刻认识我国国家政权建设的实践问题。在不同的时代,国家职能的内容也不尽相同,国家职能是随着时代的变化而处于不断变化中的,并非一成不变的。马克思恩格斯国家职能理论随着生产力、科学技术、全球化进
供水管网系统是现代城市社会经济发展的重要基础设施。然而,我国的管网漏损问题十分严峻,2013-2017年,我国每年的漏损量都在70亿m3以上,平均漏损率约为15%,部分城市超过25%,全年漏损量相当于同期南水北调中线工程全年调水量。管网漏损不仅会造成优质水资源和能源的浪费,若不加以控制,甚至会发展成爆管事故,影响城市居民正常出行生活。管网漏损包括真实漏失、计量损失和其他损失,其中真实漏失又分为明漏
伴随社会经济的不断发展,先进的技术也不断被开发和应用,人们的生活在高科技的支撑下已经变得更加便捷和舒适。作为物流中重要环节的配送服务,也得到了良好的发展。各种物流服务的提供方已经为“最后一公里”问题提供了多种解决方案,即时配送就是其中一种高效的配送解决方案,在中心城区的快递配送中起到了良好促进作用。但与此同时,由于即时配送行业处于发展起步阶段,也存在着相关标准和制度规范不够完善,配送路径规划不够科
近年来,海量多源异构数据急剧增长,数据表现形式变得更加复杂。数据规模的不断增大,使得传统CPU硬件平台的存储和计算能力远不能满足应用需求。GPU的出现可使这些问题在一定
在我国创新驱动和供给侧结构性改革的背景下,债券市场存量增大,企业面临扩张风险和融资风险,债券市场打破刚性兑付现象频繁发生,其违约风险越来越受关注。结合大数据和人工智能背景,在债券市场上建立科学的违约预警模型有助于整体利益最大化,实现市场经济的健康发展。通过阅读国内外学者的研究发现,现有债券违约风险预测模型较少关注类别的多样性,多使用单分类器模型,且多基于平衡样本进行研究。本文基于风险管理和分类预测
颗粒前体蛋白(Progranulin,PGRN)定位于人染色体17q21.32。作为一种分泌性糖蛋白分子,其蛋白由593个氨基酸组成,包含一个分泌信号肽和七个半高度保守的半胱氨酸衔接的重复结
在新课程改革的背景下,《义务教育语文课程标准(2011年版)》提出要全面提高学生的语文素养理念,语文是“百科之母”,是学好其它科目的基础学科,也是学生实现全面发展的基础。提高学生的语文素养离不开教师课堂教学,教师的教学行为有效是课堂教学质量的保障。因此,教师的教学行为越来越受到社会各界的关注,教师教学行为的研究也成为了课堂教学改革的焦点之一。同时,这也是促进教师专业化发展的研究趋势。本研究主要目的
零缺陷这一理念是在20世纪60年代由国际质量专家菲利浦·克劳士比先生提出的,作为一种先进的质量管理思想,越来越被全世界的工商业广泛接受与认可,并将其作为一种科学的质量
ODS钢凭借着其优异的抗辐照性能和抗高温性能,成为聚变堆第一壁/包层重要要的候选结构材料。本文以9Cr-ODS钢为研究对象,尝试制备出具有双尺度晶粒尺寸分布的9Cr-ODS钢,采用机械合金化法并通过控制时间制备出不同球磨程度的合金粉末,而后在细晶粉末中加入体积分数为35%的粗晶粉末,并混合均匀。在1000℃,135MPa下进行热等静压烧结(HIP),并针对具有双尺度晶粒尺寸分布的9Cr-ODS钢在
建筑不单纯是一种物质产品,还是一种精神文化产品,它不仅具有居住的功能,还蕴藏了深厚的伦理精神,这些伦理精神可供我们研究出对当下生活指引的方向。中国明清官式建筑集合了中国古代建筑所有的建筑技术、文化和所蕴含的伦理观于一身,是中国古代建筑几千年来发展到最后的辉煌时期。细看封建社会中中国传统建筑在最后沉淀的精华,它是中国传统文化和哲学的物质外壳,也在其中映射出一些伦理规范和对人们的终极关怀。要研究中国明