【摘 要】
:
伴随着开源理念的赓续提高,开源社区的发展日新月异,孕育了海量的开源软件,软件资源高度分散而且良莠不齐,难以用传统单一、封闭的方式对开源软件进行评估进而检索优质软件。因此,提出一种新的开源软件排序算法是非常有意义的。本文提出了一种对软件进行综合评估的新方法,从客观和主观两个层面来综合评估软件。客观上采用文本匹配及基于隐式的结合方法,建立开源软件在软件主体社区及软件衍生社区的关联,进而量化软件在软件衍
论文部分内容阅读
伴随着开源理念的赓续提高,开源社区的发展日新月异,孕育了海量的开源软件,软件资源高度分散而且良莠不齐,难以用传统单一、封闭的方式对开源软件进行评估进而检索优质软件。因此,提出一种新的开源软件排序算法是非常有意义的。本文提出了一种对软件进行综合评估的新方法,从客观和主观两个层面来综合评估软件。客观上采用文本匹配及基于隐式的结合方法,建立开源软件在软件主体社区及软件衍生社区的关联,进而量化软件在软件衍生社区的社区群体情感评价值。主观上根据软件主体在对应的协同开发社区挖掘相应的度量指标,最终定量和定性结合分析挖掘出四类度量因子并量化了11个指标对于软件质量贡献的权重。最终通过设计database、IDE类别下的项目评估验证了多维评估方法的有效性。本文重新定义solr中基于lucene的文本相关度排序打分机制,在文本相关度匹配软件的基础上加入软件多维评估值排序因素形成软件排序算法,对算法采取分两次阶段排序策略进行优化和验证。通过搭建分布式检索工具solrcloud,定性分析软件主体流行度作为系统开源软件数据集的筛选,最终实现基于多维评估值的对开源软件进行检索排序的分布式系统。最后构建查询测试集与工业界现有软件排序系统作对比,有效检验了基于多维评估值的开源软件检索优化方法,实现了高效、细粒度、全方位的开源软件检索系统。
其他文献
对于大脑皮层结构和功能的特征研究一直是脑科学领域的热点研究问题。得益于磁共振成像技术的出现,为结构和功能脑影像的特征提取提供了可能性。本文中,首先基于磁共振结构像重构获取脑皮层点云图谱,提出一种新的大脑皮层点云特征提取算法,考察男女大脑结构上存在的差异性以及正常人和精神分裂症人员皮层结构上的差异。其次,基于磁共振功能图像,通过计算偏侧化指标这个特征,进一步考察精神分裂症人员中幻听和非幻听人员特有的
当代民族文学特别是20世纪80年代中期以来的民族文学中普遍表现出民族认同的现象,这牵涉到民族文学的各种文体如小说、诗歌、散文等,其中尤以少数民族小说体现最为显著,从长篇小说《心灵史》《尘埃落定》等到大量的中短篇小说莫不如此。这种民族文学中的民族认同现象不仅数量众多,而且形态多样;不仅有外显的表征,也有内隐的征候;所涉及到的不仅有一流的名家名作,也有一般的作家作品。
随着视频监控头的海量增长,智能视频监控系统在社会上有着越来越多的迫切需求,尤其是在智能安防、智能交通管理、智能医疗等领域。其中,视频异常检测是智能视频监控系统的核心技术。在有监督的条件下,视频异常检测会消耗大量的人工成本、物资、时间等进行数据的标注;而无监督的异常检测可以很好地克服这些不足,但宥于没有先验知识作为依照,目前开展的研究相对较少。本文着眼于无监督视频异常检测技术和应用,主要开展了以下两
程序自动修复技术为软件调试、软件维护等任务带来了极大的便利,因而引起了研究人员的广泛关注,越来越多的方法被提出以更好地解决修复问题。然而,这些技术在测评环节中存在着多种偏差,使得研究人员不能够全面地客观地分析当前技术的修复能力。本文针对当前的修复工具测评环节中的三类偏差进行研究,内容涵盖程序修复流水线上三个环节(缺陷定位,补丁生成,与补丁验证)中的两个(缺陷定位与补丁验证)以及缺陷数据集的选取,旨
近几年来,深度卷积神经网络(Deep Convolution Neural Network,DCNN)在语义分割任务上取得了显著的进展,极大地提高了语义分割的准确性以及处理效率。在自动驾驶视觉传感器采集的图像中,语义分割方法通过像素级的标注及时精准地获取道路空间方位和障碍物轮廓等信息,已经成为驾驶视觉场景下实现自主规划和主动避障的主流解决方法。对于这类对实时性要求高的应用,如何在保持高效的推理速度
作为现代图像系统的重要部分——多光谱与高光谱图像为探测地物目标提供了丰富的空间信息与光谱信息,在民用与军事领域均有很深的应用价值。与其相关的图像处理技术包括图像搜索、增强、融合、语义分割、异常检测与图像分类等。本文针对多光谱图像融合技术与高光谱图像分类技术进行了深入研究,主要工作包括:(1)本文提出了一个由RLNSST算法与引导滤波器结合的新型融合算法。在深入理解图像融合技术基本理论的基础上,本文
作为一项典型的计算机视觉任务,人群计数的目标是精准高效地统计视频或图片等载体中所含有的总人数。目前,人群计数任务已在公共安全领域的诸多方面得到大力推广和积极应用,越来越多的学者开始将其作为研究课题进行专项讨论。基于采取的方法或者手段,可将人群计数大体划分为两种:一种是基于回归的人群计数,它主要通过创建的回归模型进行人数统计;另一种则是基于检测的人群计数,它依托成熟的目标检测技术对特定场合中包含的人
随着倾斜摄影测量技术、无人机技术和三维重建技术的快速发展,大范围场景下倾斜摄影测量数据的生产速度有了大幅提升。处于信息化时代的人们,也越来越希望能够通过多种多样的科学技术手段了解自己所处的环境,二维影像所提供的信息已经远远不能满足人们的需求,面向三维可视化的需求越来越多。虽然面向三维web可视化的研究有了诸多进展,但是大范围场景下倾斜摄影测量数据的可视化仍存在诸多问题。例如,分层级数据加载过程中,
近年来,随着开源生态的迅速发展,积累了大量的开源软件资源。在这些数目庞大的软件资源中,不乏质量很高的代码片段,以及其衍生品,如代码摘要、文档等。这些高质量的资源具有丰富的价值。然而在海量的开源资源中,如何挖掘出这些高质量的开源资源,使其能够复用于未来的软件工程之中,仍然面临着许多挑战。本文认为面对大数据背景下的开源资源,需要从两个方面进行着手:理解代码与定位代码。因此,本文提出了进行了如下研究:1
模糊测试是一种常用于软件测试中的技术,其中,灰盒模糊测试技术因为具有覆盖率信息反馈以及快速生成用例的特点而应用广泛,但是它需要大量时间去产生测试用例覆盖程序,所以测试效率仍较为低下。现如今计算资源规模庞大,利用分布式计算资源可以加速灰盒模糊测试过程,这个方法区别于传统改进算法,并与其他方法可以相互增益。本文针对大规模分布式并行的持续性模糊测试技术展开了研究。第一,本文采用了以数据库为中心的架构用来