面向开源社区的软件大数据持续汇聚平台关键技术研究与实现

来源 :长沙理工大学 | 被引量 : 1次 | 上传用户：a7281423

【摘要】

：

近些年,开源软件发展迅猛,其应用领域和适用范围越来越广泛;与此同时,开源软件的成功也吸引了大量的开发者投入到开源软件的开发,仅GitHub社区就已经托管了 6千多万的版本库,

【作者】

：

林维

【出处】

：

长沙理工大学

【发表日期】

：

2018年01期

【关键词】

：

开源社区数据采集数据抽取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近些年,开源软件发展迅猛,其应用领域和适用范围越来越广泛;与此同时,开源软件的成功也吸引了大量的开发者投入到开源软件的开发,仅GitHub社区就已经托管了 6千多万的版本库,有超过2千万的用户参与到这些项目仓库的开发和维护。开源软件社区积累了大量的软件开发和开发者行为等数据,这些极具挖掘价值的数据逐步引起了研究人员的关注,已经有相关工作对开源软件相关的研究点(如群体开发机制和质量保证手段)展开了一系列探索。高效可靠的数据获取是研究工作开展的重要前提,为了更好地支持此类研究的有效开展,在本文中我们面向GitHub开源社区提出了一个软件大数据数据持续汇聚平台,其主要内容包括:第一,在原始数据采集方面,本文提出了一个易扩展的高效数据采集方法。本文按照系统的业务逻辑把整个系统拆分为任务生成和任务执行两个模块,两个模块之间通过任务队列和数据存储进行连接和交互。通过这种解耦合的方式,本文把系统中相对耗时和耗费资源的任务执行模块并行化,提高系统实时横向扩展的能力,能够更好地满足用户对数据采集系统高速率的采集需求。第二,在结构化数据抽取方面,本文提出了面向数据多源性的数据抽取模型。本文根据开源社区中数据类型种类繁多的特点提出了模板化的抽取策略。首先把系统中的抽取逻辑和数据格式进行分离,然后针对每一种数据类型设计抽取模板。这样的策略使得抽取模块能够根据数据的不同类型,调用不同的抽取模板进行解析和抽取。这种方式提高了代码的可用性和灵活性,能够更好地适应多数据类型的采集需求。第三,在数据可视化方面,本文设计了直观可交互的数据展示系统。本文直观地展示了系统中的数据流以及采集系统各模块的运行情况,以期提高系统的可控性,方便用户与系统间的交互。通过该系统,用户可以直观地获取系统处理的数据概况,对系统的状态有更清晰的把握和认识。此外,用户还可以便捷地对系统的各个模块进行操作,便于对系统的实时控制。

其他文献

上海家化公司治理现状及建议

本文通过对上海家化股份有限公司的研究,发现公司的股权结构各异,上市公司股权高度集中、股权分配不合理现象较为严重等问题。结合公司实际发展状况,提出企业优化股权结构,合

期刊

公司治理股权结构内部控制

“中外运”在宁战略重组

本报讯央企中国外运股份有限公司21日在宁宣布，旗下的江苏中外运有限公司和中外运长江有限公司进行战略重组，成立中国外运长江有限公司。$$　　　　中国外运长江有限公司注册

报纸

漫谈天然抗癌药物——紫杉醇

紫杉醇是存在于红豆杉树中的一种化学物质，其独特的抗癌疗效日益被人们重视，被誉为20世纪90年代国际上的抗癌药三大成就之一。介绍了紫杉醇的抗癌机理及获取紫杉醇的几种方法。

期刊

紫杉醇抗癌机理红豆杉

面向机舰适配的舰载飞机起降特性分析

机舰适配性是舰载飞机总体设计的核心内容之一,通常包括性能适配和保障适配两部分,是舰载飞机总体设计特有的阶段;其内涵是指舰载飞机充分、高效利用航母的特性,使用其设备和

期刊

机舰适配性滑跃起飞拦阻着舰甲板风舰载飞机航空母舰

倍他司汀治疗BPPV手法复位成功患者残余头晕的疗效评价

目的:研究分析倍他司汀治疗良性阵发性位置性眩晕成功手法复位后的残余头晕效果。方法:随机抽取我院自2015年2月至2016年2月收治的良性阵发性位置性眩晕患者80例,分为对照组(

期刊

倍他司汀良性阵发性位置性眩晕手法复位残余头晕效果分析

范成大与宋代苏州田家生活——“丰收节里诗文会”之二

<正>从《诗经·七月》到陶渊明的田园诗,直到宋代苏轼的和陶诗,古代诗家较多的关注田园题材。《七月》描摹了周代先民的田园劳作和农家生活,而陶诗及苏轼和陶诗更强调诗人的

期刊

风土民俗杜茅柴《四时田园杂兴》丰收节

银行巧施“锦囊妙计”企业不再听天由命——借日元外债企业巧妙应对日元升值

由于国际外汇市场和利率市场的活跃性,企业外债风险也将随着市场的变化而处于暴露和波动的状态之下,如果企业尚未意识到规避风险的重要性,如果未能将这类风险进行有效的管理,

期刊

日元升值日元汇率付息日

谷物及其制品中隐蔽型真菌毒素的污染及检测技术研究进展

隐蔽型真菌毒素是真菌毒素与谷物基质成分或其他食品组分结合形成的一类强极性结合态真菌毒素,此类毒素在常规的分析方法中检测不到,人和动物摄入后在肠道内水解为毒素单体而

期刊

隐蔽型真菌毒素谷物及其制品污染检测技术

急诊科“导航日”在护生临床带教中的应用

目的通过第一天"导航日"的培训,提高护生实习质量。方法将120名护生随机分为观察组和对照组,每组各60名,观察组护生在入科第1天进行"导航日"培训,内容包括:科室环境介绍、工

期刊

护生护理带教导航日

新疆小学语文教学的领跑者——记鱼利明及“乌鲁木齐市小学语文名师工作室”

<正>"与您相遇在教学的旅程上,我们不会孤单!愿意和您一起走过泥泞,愿意与您一道翻过高山,看看山那边的风景!"2016年3月,由《小学语文教学》编辑部、《小学教学设计》编辑部

期刊

小学语文教学教研员名师工作室乌鲁木齐市领跑者

面向开源社区的软件大数据持续汇聚平台关键技术研究与实现

其他学术论文