知识驱动的文本分析软件生成方法及关键技术研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户：yunpiaosifang

【摘要】

：

技术工具化，工具业务化，业务自动化成为情报学研究领域的一种趋势，同时也是情报学科近几年来研究的重点和热点之一。由于计算机的大量普及，在情报学的研究中，使用大量的软件工具开

【作者】

：

贾艾婧

【机构】

：

中国科学技术信息研究所

【出处】

：

中国科学技术信息研究所

【发表日期】

：

2017年期

【关键词】

：

文本分析软件自动生成模块化设计知识驱动

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

技术工具化，工具业务化，业务自动化成为情报学研究领域的一种趋势，同时也是情报学科近几年来研究的重点和热点之一。由于计算机的大量普及，在情报学的研究中，使用大量的软件工具开展研究成为了一种趋势，其中涉及了大量与自然语言处理相关的技术。一方面，传统的情报分析人员对技术和工具的研究并不深入，无法选择合适的技术和工具定制化的解决情报研究中出现的问题。另一方面，市场上存在着大量工具可供情报分析人员使用，但是随着情报研究的不断深入，研究对工具定制化的需求也越来越高，要在当前大量的工具中找到适合处理当前资源的工具比较困难，并且市场上的工具都是面向通用资源的，软件普遍的自适应性比较差，具有一定的局限性，对某种特定资源的处理效果并不理想。因此，本文基于这种大量使用软件的趋势和软件普遍自适应性较差的现状，借助自然语言处理的方法，开展了软件自动生成相关的研究。　　通过大量的调研发现，知识驱动的方法针对性较强，能够有效的适应不同环境下的需求，能够对当前环境下的需求做出分析并提出解决方案，与本文的研究目的相符合，所以，本文将文本分析软件作为研究对象，主要研究知识驱动的软件生成方法和关键技术。研究成果有以下几点:　　对软件数据的收集和提取的方法及关键技术进行了研究，包括各类软件数据的获取、清洗和解析过程中使用的方法和关键技术。本文的软件数据主要有两个来源，教材示例代码和开源软件，共获取到9349个类，将这两种不同来源的代码使用自然语言处理的方法进行不同颗粒度的解析和标注。教材代码在“方法”颗粒度上解析，使用字符串匹配的方法将每个代码文件中的每个单独的方法提取出来，以便对java代码的基本结构进行分析;软件源码在“代码行”颗粒度上解析并标注，根据java代码的特点和软件生成的特点，定义了一系列的标签，使用标签对每代码行进行标注，为知识驱动的软件生成提供规范化的软件语料，这种语料是经过深加工的、以代码生成为目标进行规范化处理的。其中的关键技术包括Java要素分析、软件逻辑提取和代码模块提取;　　对知识驱动模型的构建及其关键技术进行了介绍，用知识驱动模型指导规范的软件语料，能够实现软件的自动生成。首先使用自然语言处理的方法分析上文得到的语料，构建Java基本模型，在Java基本模型的基础上结合软件逻辑构建知识驱动模型框架。知识驱动模型的构建过程中需要对代码进行评价和选择，使用三种方法对代码模块进行评价:分词方法评价、代码相似度计算和代码指标评价。最后，研究了三种知识驱动模型的构建方法，分别是:通用知识驱动模型、文本语言驱动模型和软件复杂程度驱动模型。根据要处理的文本的特点及用户的需求，结合代码分析的结果，用知识驱动模型框架作为指导，能够得到特定的知识驱动模型;　　搭建了一个软件生成平台，将本文研究的内容集成到平台中，该平台分为4个功能模块:原料软件管理模块、代码模块管理模块、文本分析模块和软件生成管理模块，能够实现软件的自动生成和生成代码的修改。　　以文本分析软件为研究对象，分别解析了9种分词软件，并根据解析的结果构建了知识驱动模型，设计了两组实验，第一组进行了文本语言驱动的软件生成，第二组进行了软件复杂程度驱动软件的生成，取得了很好的效果，并对结果进行了分析。

其他文献

Spatial pattern and its evolution of Chinese provincial population:Methods and empirical study

本文通过对荣华二采区10

期刊

Chinaprovincialpopulationurbanizationmigrationspatial patternnatural growt

积极心理学在小学中高年级语文教学中的渗透与应用

随着教育改革的不断深化,小学语文教学模式发生了根本性变化,面向小学中高年级学生的语文教学要把重心放到提高学生的阅读理解能力与写作能力上,注重学生语文素养的培养.积极

期刊

积极心理学小学中高年级语文教学

略论初中语文教学中激发学生情感的有效方法

语文课堂教学是老师学生的互动活动，同时，也是特定意义上的特殊人际交往，既在进行知识传授，又在进行情感交流。因此，适时地激发学生的情感，对唤起学生学习语文的兴趣、提高学生语文

期刊

初中语文教学学生情感语文综合素养学生学习语文知识传授人际交往情感交流课堂教学互动活动兴趣方法

我国科研机构国际化水平的测度研究

目前，在全球化、国际化的大趋势之下，科技要素在全世界的配置和流动成为当今科技活动的重要特征。一个国家的科技要良好的发展，就必须做好国际化，通过多种国际科技合作方式，充分吸

学位

科研机构国际化水平测度体系评价指标主成份分析

基于复杂网络理论的学术虚拟社区小团体研究——以丁香园医药学术网站为例

学术虚拟社区是学术观点在非正式交流平台一种更快捷、高效的沟通模式，其知识的共享与传递补充了学者在正式交流情况下的不足之处。而学术虚拟社区间用户的互相评论、回复关系

学位

无标度理论复杂网络学术虚拟社区小团体核心用户群数据挖掘信息交流知识共享

我爱去图书馆

期刊

中国隐形冠军企业的实证研究

竞争情报本质上是一门实践的科学，企业作为市场主体应该是研究、应用和发展竞争情报的主体。因此本论文试图通过竞争情报方法来研究中国市场的“隐形冠军”——几乎不为人知却

学位

隐形冠军企业发展战略竞争情报评价体系

天津市举办公共图书馆馆长培训暨工作交流会议

为了使我市公共图书馆系统尽快适应当前形势的发展 ,在新世纪初开好头 ,实现新跨越 ,由天津市文化局主办的“天津市公共图书馆馆长培训暨工作交流会议”于 2 0 0 1年 4月 1 3

期刊

天津市公共图书馆馆长培训工作交流

我的2019:研究视野、学术重心与领域关键词

本文分析了作者2019年发表的独著与合著的共49篇文章,总结了作者2019年的研究视野、学术重心与领域关键词.

期刊

5G时代媒体融合后真相网络空间

刘小飞城市居民实施垃圾分类意识和能力评估

城市生活垃圾分类工作在全国全面展开.研究选取重庆市某试点街道进行问卷调查,采用“思维象限法”结合AHP和半定量打分法,由浅入深分析被调查者对生活垃圾的意识和能力,从而

期刊

知识驱动的文本分析软件生成方法及关键技术研究

其他学术论文