【摘 要】
:
大量数据必然饱含了丰富的知识与极高的价值。无论大数据具有何种内涵和外延,如体量巨大、种类繁多、快速流动和低价值密度等,其本质特征是数据的海量性、高维性、异构性、动态性、时空性、多样性、多源性、多尺度性和模糊性。数据挖掘技术是实现数据向知识和价值转化的重要技术手段,但是要从大数据中挖掘出隐含的丰富知识和价值,传统的数据挖掘技术面临多方面的挑战。而解决大数据挖掘问题的重要途径,就是根据大数据的本质特征
论文部分内容阅读
大量数据必然饱含了丰富的知识与极高的价值。无论大数据具有何种内涵和外延,如体量巨大、种类繁多、快速流动和低价值密度等,其本质特征是数据的海量性、高维性、异构性、动态性、时空性、多样性、多源性、多尺度性和模糊性。数据挖掘技术是实现数据向知识和价值转化的重要技术手段,但是要从大数据中挖掘出隐含的丰富知识和价值,传统的数据挖掘技术面临多方面的挑战。而解决大数据挖掘问题的重要途径,就是根据大数据的本质特征,研究与设计更加高效的算法。目前,聚类算法、关联规则算法均是大数据挖掘技术中的重要研究内容。其中,聚类算法指将大量数据信息中具有相似、相近的数据对象进行分组处理,使近似数据信息得以集合聚类,以便于数据挖掘计算的算法过程。聚类算法已被广泛地应用于发现数据对象的全局分布模式中,如数据分析、市场研究、模型评估等。而关联规则算法则主要描述大量数据结构间的内在关联性,该算法也已被广泛应用于地球科学、气象学、医学、经济学等领域的大数据挖掘分析中,使得其数据分析更具有高度价值与意义。为进一步提高现有数据挖掘算法的效率,改善数据挖掘的结果,本文基于现有聚类算法和关联规则算法存在的缺陷与问题,分别设计了两种面向大数据的数据挖掘改进算法:一是针对目前CABWAD聚类算法存在的聚类效果不佳、数据处理难度大、算法结构不够合理等方面的缺陷与问题,提出了改进CADD算法,并通过仿真实验与对比测试,验证了该算法的有效性与聚类高效性;二是针对目前Apriori算法中存在的算法聚类部分问题,以及算法参数设置问题,提出了Apriori改进算法的设计,并分别利用地球化学数据和临床医学数据进行了两组基于距离的关联规则算法实验,根据原算法和改进算法的对比测试,检验了改进算法的高效性。
其他文献
目的比较溶栓后经皮冠状动脉介入治疗(PCI)与直接PCI对急性ST段抬高型心肌梗死(STEMI)患者的临床治疗效果。方法选取45例急性STEMI患者为研究对象。其中35例患者行直接PCI治
我国成人函授学历教育的实施及发展对提高我国成人学历层次以及全民素质起到了巨大的推动作用。但最近几年以来,由于种种原因,我国成人函授学历教育质量严重滑坡,个别学校甚至到
回顾1.需求 (1)沥青2011年二季度,国内沥青需求整体低迷。在经历2011年前4个月的冬储备货期后,沥青市场备货需求告一段落,此时大部分工程项目尚未集中开工,加之资金链普遍抽紧,
陕商是中国历史上最早的"西部牛仔",前后500年的商贸活动在西部留下了极其丰富的精神与物质遗产。兰州"柳合山堂"是兰州仅存的陕西儒商大宅院和山陕商号的"独特标本",这座具
文章以百色学院建设具有百色精神的高水平应用型大学的实践为例,论述一个新建地方本科院校探索建设具有自身特色的高水平应用型大学的历程、做法、成效、问题和展望。这可以
基于胜任力冰山模型,对应用型本科营销人才胜任力培养模式进行研究。通过研究拟构建起适应区域经济发展需求的营销人才胜任力模型,引导高校的教学内容、方法和评价体系的改革
生态研究发现,自然生态环境不仅对人的机体起作用,而且还影响人的精神和道德。这一生态与精神道德方面的问题,近年来越来越受到苏联文艺界密切的关注。人与自然,成了苏联文艺
近年来,随着智能电网的建设和变电站人工替代技术的推广,变电站自动巡检机器人在各级变电站得到广泛应用。然而目前的巡检机器人系统并不能自动查找分析故障隐患设备,只能对已出现缺陷的设备生成报告,很多隐患设备只能通过人工方式预测排查,因而加重了运维人员的生产负担。为了强化机器人在变电站巡检工作中的利用效率,使巡检机器人更好地服务于运维工作,减轻人员负担,本文提出利用数据挖掘技术分析变电站运行数据,使巡检机
我科收治1例高压电致全身多处伤的危重患者,抢救成功,报告如下。1病历简介患者男,24岁,因施工时手持钢筋与10 kV高压电线接触而当即昏迷,脱离电源后紧急送至当地县医院,约20