大规模软件工程知识库的自动构建

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:luohuaxiyushi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据与人工智能时代的到来,知识库作为具有层级结构知识集合,已成为智能化应用的知识基础设施。在软件工程领域中,例如软件缺陷预测、语义关联度计算、软件文档相关性分析和开发人员推荐等工作中,知识库也正发挥着越来越重要的作用。然而,现阶段缺乏成熟的软件工程知识库,其主要的来源仍然是从通用知识库中提取、或者临时手工构建,无法达到大规模和丰富语义的标准,同时缺乏规范化。因此,构造大规模软件工程知识库是必要且紧迫的。在此背景下,本文基于Wikipedia和Stackoverflow数据源,使用机器学习的方法,自动挖掘软件工程概念以及概念间的语义关系,构建基于不同数据源的软件工程领域知识库;同时结合本体对齐的方法,对知识库进行对齐与融合,使得最终构建的软件工程领域知识库具有大规模、高精度的特性。本文的主要贡献和创新点包括:1)研究提出了从Wikipedia和Stackoverflow中联合抽取软件工程概念的方法。该方法从Stackoverflow中抽取软件工程领域的标签集合,挖掘问答文本进行领域概念发现,然后使用标签传播方法在Wikipedia中进行领域概念扩充。该方法使所构建的软件工程知识库保持了Wikipedia大规模的特性,同时具有较高的准确度。2)研究提出了根据Wikipedia和Stackoverflow结构特征和软件工程领域的语义特征,自动发现概念间关系的方法。该方法基于Wikipedia和Stackoverflow,根据不同数据源结构分别设计了软件工程领域上下位关系的结构特征,并结合词汇的语义相似度计算方法,使用机器学习方法完成概念的关系抽取。3)研究提出了迭代式的半监督学习方法。为解决训练数据缺失、数据准确度提升的问题,本文基于规则进行关系过滤,对数据集进行错误和冗余处理,通过迭代式的半监督学习,提高了抽取关系结果的准确度。作为研究成果,本文构建和发布了知识库SETaxonomy,一个具有大规模和规范化特性的软件工程领域知识库,该知识库包含了247,638个软件工程领域知识,以及429,445个上下位关系、26,443个同义词关系、36,037个关联关系。相比于通用知识库如DBpedia,Yago,BabelNet等所包含的软件工程领域知识,SETaxonomy具有更大的规模、更丰富的语义关系以及更高的领域概念准确度。
其他文献
国际上通常用美国西德克萨斯轻质原油、北海布伦特原油价格波动来反应原油市场供需情况。同一品种期货合约在不同市场间的联动问题备受关注,为企业经营者在跨市场套利和套利
本文针对在车辆拥堵疏导中,人为疏导拥堵成本高、灵活性差,疏导时间长,效率低的问题,对拥堵问题进行抽象建模,提出了基于多agent系统的交通拥堵车辆自主疏导系统的构想,设计
通过ICP~OES、SEM等手段确定了污泥的主要组分为碳酸盐,其中含有菱形及球形碳酸钙颗粒。研究了不同注入方式下污泥与盐酸在多孔介质中的反应效率及其对渗透率的影响,得出管线中
第一部分 克唑替尼治疗ALK阳性晚期非小细胞肺癌的长期生存预后分析目的:临床试验结果显示,克唑替尼治疗间变性淋巴瘤激酶(anaplastic lymphoma kinase,ALK)阳性的非小细胞肺
以信阳地区为研究区,探讨其城乡聚落体系的空间分布规律,证明乡镇聚落体系与城市体系遵循相同的分形模式,并借助分维,分析了系统的结构问题,指出其未来优化的方向。
目的观察黄芪多糖对脑卒中后抑郁(PSD)模型大鼠学习记忆能力及抑郁样行为的影响并分析机制。方法 Wistar大鼠48只,随机均分为假手术组、抑郁模型组、黄芪多糖低剂量组(200 mg
党的十七届五中全会通过的《关于制定国民经济和社会发展第十二个五年规划的建议》强调,要坚持把建设资源节约型、环境友好型社会作为加快转变经济发展方式的重要着力点,加大
据流行病学统计结果显示,女性癌症人群中乳腺癌患病率高居首位且逐年上升,已严重威胁到女性的健康。目前,化疗是乳腺癌临床治疗的主要手段,但是临床上常用的化疗药物(例如紫杉醇)无法彻底清除乳腺肿瘤细胞,同时伴随着严重的毒副作用。近年来,随着纳米技术在生物医药领域的发展,许多纳米药物已被用于乳腺癌的临床治疗中。其中脂质体作为一种具有良好生物安全性、高载药量等优势的药物载体,成为最早被用于临床的纳米药物载体
导演:乔梁摄影:刘飚作曲:曾光美术指导:罗梦京樊乙兵郭丹录音:白晓光剪辑:马其林主演:高子峰郝汉常玉红故事梗概:本片根据河南青年作家贺敬涛的小说《民办教师苏瘸子》改编,