面向开源社区的软件大数据持续汇聚平台关键技术研究与实现

来源 :长沙理工大学 | 被引量 : 1次 | 上传用户:a7281423
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,开源软件发展迅猛,其应用领域和适用范围越来越广泛;与此同时,开源软件的成功也吸引了大量的开发者投入到开源软件的开发,仅GitHub社区就已经托管了 6千多万的版本库,有超过2千万的用户参与到这些项目仓库的开发和维护。开源软件社区积累了大量的软件开发和开发者行为等数据,这些极具挖掘价值的数据逐步引起了研究人员的关注,已经有相关工作对开源软件相关的研究点(如群体开发机制和质量保证手段)展开了一系列探索。高效可靠的数据获取是研究工作开展的重要前提,为了更好地支持此类研究的有效开展,在本文中我们面向GitHub开源社区提出了一个软件大数据数据持续汇聚平台,其主要内容包括:第一,在原始数据采集方面,本文提出了一个易扩展的高效数据采集方法。本文按照系统的业务逻辑把整个系统拆分为任务生成和任务执行两个模块,两个模块之间通过任务队列和数据存储进行连接和交互。通过这种解耦合的方式,本文把系统中相对耗时和耗费资源的任务执行模块并行化,提高系统实时横向扩展的能力,能够更好地满足用户对数据采集系统高速率的采集需求。第二,在结构化数据抽取方面,本文提出了面向数据多源性的数据抽取模型。本文根据开源社区中数据类型种类繁多的特点提出了模板化的抽取策略。首先把系统中的抽取逻辑和数据格式进行分离,然后针对每一种数据类型设计抽取模板。这样的策略使得抽取模块能够根据数据的不同类型,调用不同的抽取模板进行解析和抽取。这种方式提高了代码的可用性和灵活性,能够更好地适应多数据类型的采集需求。第三,在数据可视化方面,本文设计了直观可交互的数据展示系统。本文直观地展示了系统中的数据流以及采集系统各模块的运行情况,以期提高系统的可控性,方便用户与系统间的交互。通过该系统,用户可以直观地获取系统处理的数据概况,对系统的状态有更清晰的把握和认识。此外,用户还可以便捷地对系统的各个模块进行操作,便于对系统的实时控制。
其他文献
本文通过对上海家化股份有限公司的研究,发现公司的股权结构各异,上市公司股权高度集中、股权分配不合理现象较为严重等问题。结合公司实际发展状况,提出企业优化股权结构,合
本报讯 央企中国外运股份有限公司21日在宁宣布,旗下的江苏中外运有限公司和中外运长江有限公司进行战略重组,成立中国外运长江有限公司。$$    中国外运长江有限公司注册
报纸
紫杉醇是存在于红豆杉树中的一种化学物质,其独特的抗癌疗效日益被人们重视,被誉为20世纪90年代国际上的抗癌药三大成就之一。介绍了紫杉醇的抗癌机理及获取紫杉醇的几种方法。
机舰适配性是舰载飞机总体设计的核心内容之一,通常包括性能适配和保障适配两部分,是舰载飞机总体设计特有的阶段;其内涵是指舰载飞机充分、高效利用航母的特性,使用其设备和
目的:研究分析倍他司汀治疗良性阵发性位置性眩晕成功手法复位后的残余头晕效果。方法:随机抽取我院自2015年2月至2016年2月收治的良性阵发性位置性眩晕患者80例,分为对照组(
<正>从《诗经·七月》到陶渊明的田园诗,直到宋代苏轼的和陶诗,古代诗家较多的关注田园题材。《七月》描摹了周代先民的田园劳作和农家生活,而陶诗及苏轼和陶诗更强调诗人的
由于国际外汇市场和利率市场的活跃性,企业外债风险也将随着市场的变化而处于暴露和波动的状态之下,如果企业尚未意识到规避风险的重要性,如果未能将这类风险进行有效的管理,
隐蔽型真菌毒素是真菌毒素与谷物基质成分或其他食品组分结合形成的一类强极性结合态真菌毒素,此类毒素在常规的分析方法中检测不到,人和动物摄入后在肠道内水解为毒素单体而
目的通过第一天"导航日"的培训,提高护生实习质量。方法将120名护生随机分为观察组和对照组,每组各60名,观察组护生在入科第1天进行"导航日"培训,内容包括:科室环境介绍、工
<正>"与您相遇在教学的旅程上,我们不会孤单!愿意和您一起走过泥泞,愿意与您一道翻过高山,看看山那边的风景!"2016年3月,由《小学语文教学》编辑部、《小学教学设计》编辑部