基于文本分析的开源npm包分类研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:blueblood008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Npm(Node Package Manager)作为JavaScript语言的软件包管理器,管理着超过250万的开源第三方库——npm包。由于缺少合适的分类方式,海量的软件资源面临着管理与检索的难题。在开发者分享和交流npm包的开源社区中,自定义的标签在描述包功能的同时也起到了一定程度的分类作用,然而当前的标签机制存在着内容混杂、同义词表述形式不同等问题,无法满足管理与检索的需求。不仅如此,npm社区中超过四成的包缺少标签,且庞大的数量使得无法以人工方式实现标签补全。为此,本文围绕npm社区类别标签构建和自动化的npm包多标签分类方法这两个问题展开研究。(1)提出了一种基于标签关联关系构建类别标签的方法,来为npm包面向功能构建分类类别。该方法首先利用关联关系挖掘算法为npm社区中的标签生成标签关联关系图。其次通过社区检测算法将标签基于关联关系聚类,形成多个表示独立功能的标签关联社区。最后,通过人工方式筛选、合并标签关联社区,并根据标签在社区中的影响力设计了类别标签识别机制。本文对npm社区中被依赖次数最多的8000个包应用此方法,得到了具有代表性的35个类别标签。(2)提出了一种面向Readme文档的多标签文本分类方法,实现npm包的自动化分类。该方法首先根据自述文档Readme的内容结构,制定了针对于提取功能描述信息的内容切分方案。其次采用带有权重的关键词集去捕捉Readme文档中的分类信息与类别标签之间的语义关联,使得方法在分类准确性上优于传统的多标签文本分类方法。方法中先基于有监督的主题模型L-LDA训练时生成的主题词分布来构建类别标签关键词集。再利用词移距离算法计算待分类包的Readme文档与各类别标签关键词集的语义相似度。最后根据相似度的排序结果赋予待分类包类别标签。经过实验验证,本文所提出的面向Readme文档的多标签文本分类方法可以有效地为npm包从功能上进行分类。与作为基线的多标签分类方法相比,本文方法在Macro-F1,Hamming Loss和LRAP三个多标签分类评价指标上均有大幅提升,验证了方法分类的准确性。同时,该方法对实际的无标签包分类中也有较好表现,从而验证了方法的有效性。此外,本文为开源npm包分类研究建立了具有代表性的数据集。
其他文献
随着城市建设不断发展,建筑垃圾产量与日俱增。本文以新和县2018—2020年生活垃圾和建筑垃圾产量为参考,结合新和县实际情况,提出了源头减量控制、建筑垃圾再生利用、推广使用环保建材、完善法律规范和管理制度、借鉴先进技术和模式、引进社会投资等六个方面的建筑垃圾处理优化措施,分析了垃圾处理优化完成后的经济效益和社会效益。
期刊
根据电磁兼容课程实践性强的特点,结合电子科技大学电磁兼容相关课程教学经验,从电磁兼容三大技术——接地、屏蔽和滤波入手,分别设计出相关的教学实验内容。并根据仪器设备条件,开发了实验装置,包括针对接地技术设计的安全接地实验、针对屏蔽技术设计的屏蔽效能测试实验、针对滤波技术设计的传导干扰抑制与滤波实验。在教学中开展的三个实验,促进了电磁兼容相关课程教学和人才培养项目质量的提升。
期刊
聚类是数据挖掘领域的一项经典任务,通过预定义的相似性度量将未标记的输入数据划分成不同聚类。在过去的几年中,人们提出了各种聚类方法来解决现实世界中的问题,如文本聚类和图像聚类。随着图结构数据的出现,如生物网络和社会网络,如何将属性图节点划分为不同聚类引起了广泛关注。与文本和图像数据不同,属性图中的每个节点都有一组属性特征,属性信息表示节点本身的特征值,结构信息则表示节点结构之间的潜在相似性。因此,如
学位
知识图谱以结构化的有向图形式来描述真实世界的知识,近年来已被广泛应用于问答、信息检索、推荐系统、机器阅读理解、对话生成等各个领域。然而,常用的大规模知识图谱中存在大量缺失的事实,知识图谱面临的不完整性问题严重阻碍了其在相关下游任务中的应用能力。为了补全知识图谱,基于强化学习的推理方法在知识图谱上进行多跳推理来预测缺失的事实,有着兼具推理的准确性和可解释性的独特优势。然而,当前的基于强化学习的多跳推
学位
沿空留巷对于提高矿区煤炭采出率、延长矿井使用年限、减少巷道掘进量及防治瓦斯灾害具有重要的意义。针对坚硬顶板条件下,综采工作面沿空留巷出现的采空区顶板难垮落、动压扰动大、围岩应力集中的现象,导致留巷巷道围岩变形难以控制,以忻州窑矿8318工作面沿空留巷为工程背景,开展了现场调研、岩石力学测试、理论分析、数值模拟及现场工业性试验等工作,对坚硬顶板切顶留巷围岩支护控制技术进行了研究,主要研究成果如下:(
学位
<正>心脏磁共振(CMR)灌注在缺血性疾病的诊断中具有重要作用,被广泛应用。随着各种灌注技术以及后处理方式的不断发展,心肌灌注成像从一个定性评估心肌微循环障碍的技术发展到一个精确量化的技术,并且实现了半定量到全定量的发展。在各种可能导致心肌微循环异常的疾病中均有应用,同时为临床了解疾病进程、指导治疗及评估预后提供更多可用的影像学信息。本文主要针对CMR灌注定量评估在心脏疾病中的研究应用及进展做一综
期刊
高铁列车振动作为一种可重复使用的绿色环保震源,对进行地质勘探、地下结构反演等工作有着重要的意义。高铁列车行驶时产生的振动波在地下介质中传播时,由于介质的吸收衰减作用,导致观测到的高铁列车振动信号的振幅、波形等都会发生复杂变化。本文通过在高铁线路附近的空旷场地布置传感器采集高铁列车产生的振动信号数据,对实测高铁列车振动信号采用三种不同的时频分析方法对信号进行处理,通过对比时频分析结果选定改进广义S变
学位
表面缺陷分割是指对物体表面的气孔、划痕等各种缺陷进行提取的过程。表面缺陷分割能够指导工业生产和检修,有效防止残次品流入市场。磁瓦是各种工业电机中的重要部件,它的性能很大影响了电机的使用。由于原料、工艺等各种原因,生产出的磁瓦表面可能会出现如气孔、破碎、裂缝、磨损、不均匀等各种缺陷。目前,这些缺陷大多依靠人工目视检测。但是,由于工作量大,耗时长,工人很难快速正确的检查磁瓦质量。鉴于深度学习在计算机视
学位
时序预测是一项重要的研究课题,在金融、医疗、气象、交通运输、电力调度等民生领域有着广泛的应用,因此,对于时序预测相关问题的研究一直是学者们关注的热点。从早期的基于统计理论的时序预测方法研究,到21世纪初,基于传统机器学习方法的时序预测方法逐渐发挥其性能和优势,再后来,随着计算机算力的大幅提升和深度学习理论的发展,利用基于深度神经网络的模型进行时序预测成为了新的研究热点。然而,在小样本时序预测场景下
学位
针对利用DSC曲线研究煤氧复合反应的阶段划分、热量变化及产物生成路径等方面存在定义表述不够系统,TG和DSC耦合分析不够深入等问题,利用TG/DSC/MS联用技术,开展惰气和空气氛围下不同升温速率煤氧复合全过程的测试与分析。实验表明:基于DSC划分法可将煤氧复合全过程划分为水分蒸发及气体脱附吸热阶段、化学吸附和缓慢反应放热阶段、煤热解生成活性基团放热阶段和挥发分与固定碳燃烧放热阶段。通过特征温度的
期刊