基于文档认知理解的创意画像构建技术研究

来源 :中国电子科技集团公司电子科学研究院 | 被引量 : 0次 | 上传用户:hbsheng111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在文档信息化管理和文档知识化解析日益重要的今天,部分领域对项目文档级的语义理解有迫切需求。如在科研项目规划评估过程中,要求能够精准理解新申请项目中研究内容、技术指标对应技术方向的能力现状;在科研情报生成过程中也要求实现对各研究方向内容、能力的精准识别与统计。当前技术主要通过在全文范围内识别关键词或特征进行模糊统计,无法理解文档的行文语义,更难以支持研究内容、技术指标能力等指定范围的创意知识的精准识别。为此,本文围绕项目构想文档的创意识别与判重需求,开展基于文档认知理解的创意画像构建技术的研究,针对项目文档数据研究创意画像精准构建能力,通过识别文档结构、要点语句的行文特征以及关键特征的自然语言处理逼近文档级语义理解,提升对研究内容、技术指标能力状态等内容的精准理解能力。本文采用行文结构牵引与自然语言处理相结合的思路,首先针对项目文档构建文档结构模型,在文档结构模型中明确文档中的关键结构要素,包括研究目标、研究内容、技术指标等,将非结构化项目文档数据转化为结构化的创意画像模型;在此基础上,围绕创意画像模型,首先通过子标题和语义段落划分实现对创意知识要素的内容定位,然后在锁定语义段落的基础上,通过段落级、句子级行文结构识别出候选知识结构要素集合,同时采用段落级的自然语言处理及特征识别等方法对候选要素集合进行验证,提升知识提取的准确性。结合本文的研究成果,实现了项目构想文档创意画像服务软件的原型,并将本文方法与经典的段落级知识要点提取算法——TextRank、LexRank和TF-IDF进行了对比实验。实验结果表明,本文方法的平均准确率较标准TextRank算法提升6.39%,较标准LexRank算法提升5.59%,较标准TF-IDF算法提升17.08%。
其他文献
近年,数字政府受到我国公共管理学术界的高度关注,相关研究与日俱增,但在数字政府研究的历程、现状及其趋势等方面还存在争议。我国公共管理学术界对数字政府研究的历程大致经历了概念引介、理论溯源和深化发展三个阶段,且现在正处于数字政府深化发展阶段。中国未来数字政府研究需要系统关注数字政府治理实践、数字政府建设中数据共享、信息公开与公众满意度、数字政府建设影响因素、国外数字政府经验研究以及数字政府建设评估六
【设计理念】小学低年级学生处于自我意识形成和发展的最初阶段,他们的自我意识容易呈现两极化:一种表现为自我意识极强,什么都要自己说了算;另一种表现为完全没有自我意识,大人说什么就是什么,需要引导学生增强自我意识。本课通过绘本引导学生在与同伴、家人共同找寻自我闪光点的过程中获得良好的情感体验,提升自我意识和自信心。
学位
学位
学位
学位
学位
学位
学位
小学阶段的学生性格比较活泼好动,在课堂教学开始的阶段难以集中学习注意力,而教师在课堂教学开始时,往往会讲到一些框架式知识和重难点知识,学生如果不能及时集中学习注意力,就很容易会错过这部分内容,对学生的学习非常不利。因此,教师应该改进课堂教学方法,利用简单的课堂导入,设计新颖的课堂教学活动,以吸引学生注意力,激发学生学习兴趣,在最大程度上提高学生的课堂学习效率。一、设计问题互动环节,帮助学生总
期刊