论文部分内容阅读
自然语言是软件需求的主要描述手段,在软件产品线工程的领域工程阶段,人工分析产品线需求文档集合耗时耗力,根据需求文本的领域特点,应用自然语言处理等技术为各项需求分析任务提供(半)自动化辅助是提高领域工程效率的重要手段。除正规需求文档外,互联网上日益涌现的软件评论也蕴含了大量对软件维护与更新有价值的信息,从软件工程视角对海量评论文本进行挖掘,对以用户为中心的软件演化具有重要意义。
产品线中的众多需求文档涉及不同的利益相关者,导致需求表达呈现多样化特点,为领域需求分析与建模的(半)自动化过程带来挑战。在线评论中的用户反馈是软件维护过程中收集需求的重要渠道,也为发布规划中任务优先级排序提供指导。
针对需求术语表构建时面临的领域概念表达不一致问题,改进了一种关键词抽取方法,引入基于语义相似度的短语相似性计算指标,提高了从功能性需求中抽取应用领域需求术语的准确性。
针对相同功能具有不同需求表达的描述异构问题,融合语义角色理论和需求模板定义了一个通用的功能性需求语义框架,并利用序列标注算法训练框架元素自动标注模型,通过对比框架元素的实例值识别描述异构的需求,将相同功能的不同表达映射到同一个正交可变性模型上。
针对非功能性需求收集问题,改进了一种基于bootstrapping策略的半监督聚类算法,提出类别种子词挑选方法,并基于词向量和语义距离衡量评论语句相似度,提高了非功能性需求评论语句多标签分类效果。
针对软件功能特征优化的优先级排序问题,融合主题建模、统计推断和整数规划,提出一个基于软件评论挖掘为功能特征优化提供定量化建议的通用可解释框架。
本文研究结果表明,结合软件工程的背景知识,根据需求文本的领域特点,综合利用和改进文本分类、关键词抽取、语义角色标注、主题建模等自然语言处理技术可以为大规模需求文本分析中的需求收集、需求术语表构建、产品线可变性建模、发布规划制定等任务提供(半)自动化辅助,提高效率。
产品线中的众多需求文档涉及不同的利益相关者,导致需求表达呈现多样化特点,为领域需求分析与建模的(半)自动化过程带来挑战。在线评论中的用户反馈是软件维护过程中收集需求的重要渠道,也为发布规划中任务优先级排序提供指导。
针对需求术语表构建时面临的领域概念表达不一致问题,改进了一种关键词抽取方法,引入基于语义相似度的短语相似性计算指标,提高了从功能性需求中抽取应用领域需求术语的准确性。
针对相同功能具有不同需求表达的描述异构问题,融合语义角色理论和需求模板定义了一个通用的功能性需求语义框架,并利用序列标注算法训练框架元素自动标注模型,通过对比框架元素的实例值识别描述异构的需求,将相同功能的不同表达映射到同一个正交可变性模型上。
针对非功能性需求收集问题,改进了一种基于bootstrapping策略的半监督聚类算法,提出类别种子词挑选方法,并基于词向量和语义距离衡量评论语句相似度,提高了非功能性需求评论语句多标签分类效果。
针对软件功能特征优化的优先级排序问题,融合主题建模、统计推断和整数规划,提出一个基于软件评论挖掘为功能特征优化提供定量化建议的通用可解释框架。
本文研究结果表明,结合软件工程的背景知识,根据需求文本的领域特点,综合利用和改进文本分类、关键词抽取、语义角色标注、主题建模等自然语言处理技术可以为大规模需求文本分析中的需求收集、需求术语表构建、产品线可变性建模、发布规划制定等任务提供(半)自动化辅助,提高效率。