知识驱动的文本分析软件生成方法及关键技术研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:yunpiaosifang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
技术工具化,工具业务化,业务自动化成为情报学研究领域的一种趋势,同时也是情报学科近几年来研究的重点和热点之一。由于计算机的大量普及,在情报学的研究中,使用大量的软件工具开展研究成为了一种趋势,其中涉及了大量与自然语言处理相关的技术。一方面,传统的情报分析人员对技术和工具的研究并不深入,无法选择合适的技术和工具定制化的解决情报研究中出现的问题。另一方面,市场上存在着大量工具可供情报分析人员使用,但是随着情报研究的不断深入,研究对工具定制化的需求也越来越高,要在当前大量的工具中找到适合处理当前资源的工具比较困难,并且市场上的工具都是面向通用资源的,软件普遍的自适应性比较差,具有一定的局限性,对某种特定资源的处理效果并不理想。因此,本文基于这种大量使用软件的趋势和软件普遍自适应性较差的现状,借助自然语言处理的方法,开展了软件自动生成相关的研究。  通过大量的调研发现,知识驱动的方法针对性较强,能够有效的适应不同环境下的需求,能够对当前环境下的需求做出分析并提出解决方案,与本文的研究目的相符合,所以,本文将文本分析软件作为研究对象,主要研究知识驱动的软件生成方法和关键技术。研究成果有以下几点:  对软件数据的收集和提取的方法及关键技术进行了研究,包括各类软件数据的获取、清洗和解析过程中使用的方法和关键技术。本文的软件数据主要有两个来源,教材示例代码和开源软件,共获取到9349个类,将这两种不同来源的代码使用自然语言处理的方法进行不同颗粒度的解析和标注。教材代码在“方法”颗粒度上解析,使用字符串匹配的方法将每个代码文件中的每个单独的方法提取出来,以便对java代码的基本结构进行分析;软件源码在“代码行”颗粒度上解析并标注,根据java代码的特点和软件生成的特点,定义了一系列的标签,使用标签对每代码行进行标注,为知识驱动的软件生成提供规范化的软件语料,这种语料是经过深加工的、以代码生成为目标进行规范化处理的。其中的关键技术包括Java要素分析、软件逻辑提取和代码模块提取;  对知识驱动模型的构建及其关键技术进行了介绍,用知识驱动模型指导规范的软件语料,能够实现软件的自动生成。首先使用自然语言处理的方法分析上文得到的语料,构建Java基本模型,在Java基本模型的基础上结合软件逻辑构建知识驱动模型框架。知识驱动模型的构建过程中需要对代码进行评价和选择,使用三种方法对代码模块进行评价:分词方法评价、代码相似度计算和代码指标评价。最后,研究了三种知识驱动模型的构建方法,分别是:通用知识驱动模型、文本语言驱动模型和软件复杂程度驱动模型。根据要处理的文本的特点及用户的需求,结合代码分析的结果,用知识驱动模型框架作为指导,能够得到特定的知识驱动模型;  搭建了一个软件生成平台,将本文研究的内容集成到平台中,该平台分为4个功能模块:原料软件管理模块、代码模块管理模块、文本分析模块和软件生成管理模块,能够实现软件的自动生成和生成代码的修改。  以文本分析软件为研究对象,分别解析了9种分词软件,并根据解析的结果构建了知识驱动模型,设计了两组实验,第一组进行了文本语言驱动的软件生成,第二组进行了软件复杂程度驱动软件的生成,取得了很好的效果,并对结果进行了分析。
其他文献
目前,在全球化、国际化的大趋势之下,科技要素在全世界的配置和流动成为当今科技活动的重要特征。一个国家的科技要良好的发展,就必须做好国际化,通过多种国际科技合作方式,充分吸
学术虚拟社区是学术观点在非正式交流平台一种更快捷、高效的沟通模式,其知识的共享与传递补充了学者在正式交流情况下的不足之处。而学术虚拟社区间用户的互相评论、回复关系
本文分析了作者2019年发表的独著与合著的共49篇文章,总结了作者2019年的研究视野、学术重心与领域关键词.
城市生活垃圾分类工作在全国全面展开.研究选取重庆市某试点街道进行问卷调查,采用“思维象限法”结合AHP和半定量打分法,由浅入深分析被调查者对生活垃圾的意识和能力,从而
期刊