大规模软件工程知识库的自动构建

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：luohuaxiyushi

【摘要】

：

随着大数据与人工智能时代的到来,知识库作为具有层级结构知识集合,已成为智能化应用的知识基础设施。在软件工程领域中,例如软件缺陷预测、语义关联度计算、软件文档相关性

【作者】

：

董翔

【出处】

：

上海交通大学

【发表日期】

：

2004年期

【关键词】

：

软件工程知识库概念抽取关系发现本体对齐半监督学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大数据与人工智能时代的到来,知识库作为具有层级结构知识集合,已成为智能化应用的知识基础设施。在软件工程领域中,例如软件缺陷预测、语义关联度计算、软件文档相关性分析和开发人员推荐等工作中,知识库也正发挥着越来越重要的作用。然而,现阶段缺乏成熟的软件工程知识库,其主要的来源仍然是从通用知识库中提取、或者临时手工构建,无法达到大规模和丰富语义的标准,同时缺乏规范化。因此,构造大规模软件工程知识库是必要且紧迫的。在此背景下,本文基于Wikipedia和Stackoverflow数据源,使用机器学习的方法,自动挖掘软件工程概念以及概念间的语义关系,构建基于不同数据源的软件工程领域知识库;同时结合本体对齐的方法,对知识库进行对齐与融合,使得最终构建的软件工程领域知识库具有大规模、高精度的特性。本文的主要贡献和创新点包括:1)研究提出了从Wikipedia和Stackoverflow中联合抽取软件工程概念的方法。该方法从Stackoverflow中抽取软件工程领域的标签集合,挖掘问答文本进行领域概念发现,然后使用标签传播方法在Wikipedia中进行领域概念扩充。该方法使所构建的软件工程知识库保持了Wikipedia大规模的特性,同时具有较高的准确度。2)研究提出了根据Wikipedia和Stackoverflow结构特征和软件工程领域的语义特征,自动发现概念间关系的方法。该方法基于Wikipedia和Stackoverflow,根据不同数据源结构分别设计了软件工程领域上下位关系的结构特征,并结合词汇的语义相似度计算方法,使用机器学习方法完成概念的关系抽取。3)研究提出了迭代式的半监督学习方法。为解决训练数据缺失、数据准确度提升的问题,本文基于规则进行关系过滤,对数据集进行错误和冗余处理,通过迭代式的半监督学习,提高了抽取关系结果的准确度。作为研究成果,本文构建和发布了知识库SETaxonomy,一个具有大规模和规范化特性的软件工程领域知识库,该知识库包含了247,638个软件工程领域知识,以及429,445个上下位关系、26,443个同义词关系、36,037个关联关系。相比于通用知识库如DBpedia,Yago,BabelNet等所包含的软件工程领域知识,SETaxonomy具有更大的规模、更丰富的语义关系以及更高的领域概念准确度。

其他文献

国内外原油期货价格联动关系比较分析

国际上通常用美国西德克萨斯轻质原油、北海布伦特原油价格波动来反应原油市场供需情况。同一品种期货合约在不同市场间的联动问题备受关注,为企业经营者在跨市场套利和套利

期刊

原油期货价格联动比较分析

基于multi～agent的交通拥堵自主疏导系统设计

本文针对在车辆拥堵疏导中,人为疏导拥堵成本高、灵活性差,疏导时间长,效率低的问题,对拥堵问题进行抽象建模,提出了基于多agent系统的交通拥堵车辆自主疏导系统的构想,设计

期刊

multi～agent交通拥堵自主疏导系统设计

污泥与盐酸在多孔介质中的反应及分布规律

通过ICP～OES、SEM等手段确定了污泥的主要组分为碳酸盐，其中含有菱形及球形碳酸钙颗粒。研究了不同注入方式下污泥与盐酸在多孔介质中的反应效率及其对渗透率的影响，得出管线中

期刊

二氧化碳污泥多孔介质反应效率调剖储层伤害

克唑替尼治疗ALK阳性晚期非小细胞肺癌的临床疗效、预后及基因谱分析

第一部分克唑替尼治疗ALK阳性晚期非小细胞肺癌的长期生存预后分析目的:临床试验结果显示,克唑替尼治疗间变性淋巴瘤激酶(anaplastic lymphoma kinase,ALK)阳性的非小细胞肺

学位

克唑替尼间变性淋巴瘤激酶非小细胞肺癌预后原发耐药基于捕获的二代测序循环肿瘤DNA

信阳地区城乡聚落体系的分形几何特征

以信阳地区为研究区，探讨其城乡聚落体系的空间分布规律，证明乡镇聚落体系与城市体系遵循相同的分形模式，并借助分维，分析了系统的结构问题，指出其未来优化的方向。

期刊

城镇体系地理分形分维

黄芪多糖提高脑卒中后抑郁模型大鼠学习能力的实验观察

目的观察黄芪多糖对脑卒中后抑郁(PSD)模型大鼠学习记忆能力及抑郁样行为的影响并分析机制。方法 Wistar大鼠48只,随机均分为假手术组、抑郁模型组、黄芪多糖低剂量组(200 mg

期刊

黄芪多糖脑卒中后抑郁(PSD)核转录因子-κB(NF-κB)信号通路细胞因子学习能力行为

绿色经济与中国绿色发展指数的编制(下)

党的十七届五中全会通过的《关于制定国民经济和社会发展第十二个五年规划的建议》强调,要坚持把建设资源节约型、环境友好型社会作为加快转变经济发展方式的重要着力点,加大

期刊

绿色发展指数师范大学统计局亚太经合组织

茶树花衍生纳米囊泡在乳腺癌治疗中的研究

据流行病学统计结果显示,女性癌症人群中乳腺癌患病率高居首位且逐年上升,已严重威胁到女性的健康。目前,化疗是乳腺癌临床治疗的主要手段,但是临床上常用的化疗药物(例如紫杉醇)无法彻底清除乳腺肿瘤细胞,同时伴随着严重的毒副作用。近年来,随着纳米技术在生物医药领域的发展,许多纳米药物已被用于乳腺癌的临床治疗中。其中脂质体作为一种具有良好生物安全性、高载药量等优势的药物载体,成为最早被用于临床的纳米药物载体

学位

茶树花脂质纳米囊泡乳腺癌口服静脉注射

大力推广使用新型和可再生能源——北京市利用地源热泵情况调研报告

期刊

地源热泵地源热泵系统地源热泵技术燃煤锅炉房可再生能源北京市情况调研

《太阳开花》影片分析

导演:乔梁摄影:刘飚作曲:曾光美术指导:罗梦京樊乙兵郭丹录音:白晓光剪辑:马其林主演:高子峰郝汉常玉红故事梗概:本片根据河南青年作家贺敬涛的小说《民办教师苏瘸子》改编,

期刊

创作者历史叙事电影频道“文革”《太阳开花》影像修辞隐喻结构摄影机音乐天赋

大规模软件工程知识库的自动构建

其他学术论文