开源社区数据挖掘关键技术研究与设计

被引量 : 0次 | 上传用户:cklingdian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的普及和软件开源运动的迅速推进,越来越多的开源软件获得了令人瞩目的成功,对开源软件数据的挖掘与分析在软件工程领域受到了广泛重视,并形成了软件资源库挖掘研究方向。然而,互联网开源社区的数据挖掘研究相对起步较晚,当前的开源社区数据挖掘工作由于缺乏统一的数据挖掘平台,不得不重复地实现基础设施,并面临着实验数据储备有限,工作难以对比交流等等困难。为了应对这个挑战,本文开展了如下工作:(1)本文设计了开源社区数据挖掘平台INFLUX。本文将INFLUX平台划分为数据存储、信息抽取、数据挖掘、概念应用四个层次,在此基础上对平台的Web数据爬取、软件实体信息抽取和数据索引三大核心基础设施模块进行了实现。目前INFLUX平台已从五个开源社区获取了近700,000个开源软件的Web数据,对其中510,000个软件提供了跨社区检索,并对多项开源社区数据的分析和挖掘工作提供了支持。(2)本文设计了INFLUX平台软件实体信息抽取模块的核心算法。如果按照传统的人工观察法来实现软件实体信息抽取,必须为每个开源社区设计不同的抽取程序。本文设计了一种开源社区软件实体信息自动抽取算法。该算法利用不同开源社区网站间存在的软件实体属性重复来自动导出新网站的网页模板,并结合标签路径法与属性名验证实现了软件实体信息的准确、自动抽取。本文使用INFLUX平台获取的数据进行了抽取实验,结果表明新算法能够实现高精度的跨社区软件实体信息自动抽取。(3)本文设计了INFLUX平台软件标签层次挖掘服务核心算法。INFLUX平台的软件标签层次挖掘服务旨在通过分析开源社区软件标签数据来导出软件标签分类层次,提供更好的软件标签组织管理方式。本文设计并实现了该服务的核心算法AHCTC。相对于同类标签分类层次生成算法,AHCTC首度采用聚合式层次化聚类框架来生成分类层次,规避了计算标签广义度这一瓶颈。本文使用INFLUX平台获取的数据集将AHCTC与两个同类算法进行了对比实验,通过定性与定量分析论证了AHCTC算法的优势。
其他文献
目的探讨急性肠系膜静脉血栓临床治疗的综合护理效果.方法选择2016年6月—2018年7月间我院普外科接收的急性肠系膜静脉血栓予以临床治疗的患者40例,随机分为2组,对照组使用常
对于世界认识总的来说在哲学史上可分为唯心主义和唯物主义,造成了在对世界观不同认识基础上对于知和行的不同看法,即知和行问题。知行观是中国哲学史中一对最核心、最基本的范畴。中国哲学从先秦到明清都未停止过对知行观的探讨。中国哲学史上专门讨论过知行难易、知行先后、知行分合、知行轻重等问题,囿于时代所限,中国传统哲学的知·行观很难解决近代以来中国社会出现的各种问题。马克思的辩证唯物主义认识论作为科学的认识论
半月板是稳定膝关节的重要结构之一,具有承重、润滑关节、缓冲震荡等功能。半月板损伤后往往会出现膝关节疼痛、弹响、交锁等,若未能得到及时、正确的诊治将导致膝关节失稳、
从数学学习能力与数学核心素养之间的联系出发,论述了学生数学学习能力与数学核心素养的培养策略。应当引入生活中的数学元素,降低数学学习难度,在此基础上以层层设问的形式
目的:探讨红外热成像技术在腰椎间盘突出症证候疗效评定中的应用价值。方法:对60例腰椎间盘突出症患者采用非手术综合疗法治疗,分别于治疗前后测量双侧大腿后侧、大腿后外侧
毛泽东与新民主主义理论关系新探陈湘舸在人类思想史上有这种现象:某个思想家提出一种理论以后,随着时间的推移、形势的变化与认识的深入,而又自我否定、放弃了它。如列宁先提出
毛泽东哲学思想的理论层次问题,是毛泽东哲学思想研究中的一个重要课题,从整体上科学地把握毛泽东哲学思想的理论层次,有益于毛泽东思想研究工作的深入化和系统化,也有益于我
目的确定白及多糖的提取方法,测定相对分子质量及其结构。方法以白及块茎为材料,经超声提取,乙醇沉淀,Sevag法脱蛋白,超滤处理和凝胶柱(SephadexG-200)层析进行分离纯化;采用
在水池设计中,优化扶壁柱与操作平台(走道板)的相对刚度,可以改善池壁顶部支座条件,有助于优化结构的受力情况,并且有助于减少顶部裂缝的开展。它克服了由于挡土墙顶部相对刚度较小