三支概念格分布式构建算法的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lllll15
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
形式概念分析是一种有效的知识表示与知识发现的工具,已被成功应用于知识工程、机器学习、信息检索、数据挖掘、软件工程、社交网络分析等许多领域。三支概念分析是形式概念分析的拓展,结合了三支决策中“三分而治”的思想,相对于形式概念分析提供了更加丰富的信息。然而三支概念分析理论被提出来并不久,有效的三支概念构建算法比较少,尤其是在数据规模比较大的情况下。本文设计实现三支概念与三支概念格的分布式构建算法,使得三支概念分析理论可以在大数据领域得到良好的发展与应用。首先,论文分析现有经典概念格构建算法和三支概念格构建算法的基本思想,在Spark分布式框架的基础上提出了SI3C算法。SI3C算法借鉴In Close算法的优点,设计实现基于Spark的三支概念分布式构建算法。为了使算法适应Spark分布式集群框架,SI3C算法将In Close算法深度优先搜索的遍历方式改造为广度优先搜索,从第二层开始,迭代生成每层三支概念。算法将上一次迭代生成的所有三支概念分布到Spark集群各个节点中,以任务并行的方式计算出该层三支概念的所有亚概念,直到生成最小的三支概念为止。同时算法使用Spark丰富的高性能算子实现三支概念的生成与剪枝操作,并对In Close算法生成概念的过程进行改进,减少计算的复杂度。论文对多组数据集进行实验,实验结果表明:SI3C算法能够有效地计算出形式背景对应的所有三支概念。其次,论文提出了基于背景分解的三支概念构建算法CV3C。CV3C算法首先通过形式背景的并置或叠置操作将三支概念的构造问题转化为经典概念的构造问题;其次,算法通过二部图中的割点将形式背景进行分解得到若干子背景,并在Spark框架上对每个子背景分别调用经典概念串行算法,以数据并行的方式计算出所有子背景对应的形式概念,再将生成的概念进行重构将其转化为三支概念。接着论文对CV3C算法进行优化,提出CV3C+算法,对分解不均匀的子背景进行特殊处理。当子背景的维度超过阈值时,调用经典概念分布式构建算法SIFC,再以任务并行的方式计算出该子背景对应的概念,提高算法的并行度。为了验证算法的效率,论文选取多组具有割点的形式背景进行实验,实验结果表明基于背景分解的三支概念构建算法与直接通过形式背景叠置计算三支概念的算法相比计算效率得到了提升;优化后的CV3C+算法性能也优于CV3C算法。最后,在Spark Graph X组件上对记录了概念层次关系的SI3C算法生成的三支概念设计相应的三支概念格Hasse图构建算法SI3CL,以图形化的方式展现三支概念间的父子关系。论文通过多组随机数据进行实验,实验表明三支概念格Hasse图分布式构建算法SI3CL能够有效的计算出三支概念间的父子关系并且生成对应的Hasse图。
其他文献
近年来,边缘计算发展迅速,通常利用卷积神经网络实现智能计算任务,但边缘计算设备一般内存容量受限、实时性要求较高,而卷积神经网络模型普遍规模庞大,计算复杂,因此有必要对现有的神经网络模型进行压缩与加速。为了实现这个目的,在本文中分别从输入部分和权重部分这两个角度对其进行量化处理,进一步降低了参数冗余与结构冗余所带来的内存消耗和时间消耗。本文所做的工作主要包含以下几个方面:1)为了提高模型压缩率,在网
我国经济正处于结构调整时期,经济增长由高速变为中高速,这对我国商业银行存贷款和流动性影响重大。2013年“钱荒”的发生引起国内监管部门对流动性风险的高度重视,银监会在2
随着互联网的飞速发展,用户数量和业务量呈现出爆炸性的增长。但是,由于地面网络自身的局限性,需要卫星网络弥补其短板,实现通信全球化、便利化。但是由于传统卫星网络所带来的传播损耗、高延时、拓扑结构变化频繁等问题,造成卫星网络在实际应用中遇到很多技术难题,也给传统信息传输理论和技术带来非常大的挑战。针对以上问题,我们将软件定义网络(Software Defined Network,SDN)技术应用到卫星
随着社会发展的不断加速,残疾人适应不良的问题也愈加凸显。通过调查发现,大庆市H社区残疾人社会适应现状不佳,存在社会交往能力较弱、生活能力水平较差、行为规范掌握程度较低、职业技能水平较低等问题,究其原因包括缺乏有效的社会交往技能、始终缺乏康复知识学习、社会支持网络不完善、相关职业培训缺位等;其改善社会交往能力的需求、提高生活能力的需求,完善社会支持网络、获得职业技能提升的需求十分明显。针对这些需求,
我国典型再生资源产业的高质量发展对我国经济和人民生活显得十分重要。首先,本文研究了禁止“洋垃圾入境”政策对我国再生资源产业的影响。其次,基于系统动力学预测模型,对我国GDP总量,第二、三产业产值占地区GDP比重,及典型再生资源产业从业人员密度等主要影响要素的模拟值与实际值的拟合度均在0.90以上,拟合度较高;人均可支配收入、人均消费水平、商务部环境环保政策因素及投入资金比重等主要要素的拟合度均在0
在低空多径环境中,多径相干信号严重影响雷达对目标的探测性能,此时,传统波束形成接收算法与超分辨子空间类参数估计算法性能迅速下降甚至失效,对相干多径信源无法进行有效接收和分辨。许多现有方法对多径信号进行抑制分离,大量多径抑制的算法被提出。但是,如果多径信号中的目标信息被更深层次的挖掘和利用,那么,雷达性能则将进一步提升。因此,有必要对多径利用雷达的相干波束形成方法和目标参数估计算法进行研究。1.建立
近年来,随着电子商务的蓬勃发展与信息时代的到来,物流行业迎来了发展的契机,第三方物流更是迅猛发展,越来越多传统物流企业向第三方物流转型,使得行业内部竞争激烈,而价格优势是市场竞争中立于不败之地的重中之重。第三方物流企业想在激烈的市场竞争中生存下去并保持稳定的发展,就要通过科学的方法进行成本核算与控制。物流业属于服务业,其间接费用相较制造业占比大,成本核算与控制不同于制造业。TDABC(Time D
地质聚合物是由Si-O四面体与Al-O四面体聚合而成的三维网络状胶凝材料。具有原料来源广、价格低、生产节能、绿色环保等优点。本文首先采用原状CFB脱硫灰和磨细CFB脱硫灰分别制备CFB脱硫灰地质聚合物砂浆,在相同养护条件下,利用强度对其进行优化;然后对影响材料性能的因素进行了研究,制备出最佳CFB脱硫灰地质聚合物材料,进而分析了养护制度对其性能的影响,并采用XRD、SEM测试技术对不同制度下的CF
绿色技术创新作为全世界新一轮科技竞争与工业革命的主要阵地,是发展绿色经济的重要动力,是实现可持续发展的根本保障。随着我国经济发展进入新常态,如何有效优化地区创新资源配置,提高企业绿色技术创新效率,是我国实施创新驱动战略、建设创新型国家面临的重要课题之一。良好的金融生态环境既可以促进国家创新发展战略的实施,又对提高地区绿色技术创新水平有重要影响。基于金融生态环境的视角研究绿色技术创新,既丰富绿色技术
高分辨图像具有画面清晰、色彩丰富等优点,很多应用场景对图像分辨率都有着较高的要求。然而现实世界中,成像过程受众多因素影响,往往无法获得高质量的图像。为了解决这一问题,可以考虑使用超分辨率重建技术恢复图像损失的细节信息,达到提高图像质量的目的。深度学习的发展使得图像超分辨率重建技术获得了很大的突破,是近年国内外学者研究的重点,卷积神经网络凭借自己的独特优点成为研究这一领域的主要手段。因此本文使用深度