论文部分内容阅读
在文档信息化管理和文档知识化解析日益重要的今天,部分领域对项目文档级的语义理解有迫切需求。如在科研项目规划评估过程中,要求能够精准理解新申请项目中研究内容、技术指标对应技术方向的能力现状;在科研情报生成过程中也要求实现对各研究方向内容、能力的精准识别与统计。当前技术主要通过在全文范围内识别关键词或特征进行模糊统计,无法理解文档的行文语义,更难以支持研究内容、技术指标能力等指定范围的创意知识的精准识别。为此,本文围绕项目构想文档的创意识别与判重需求,开展基于文档认知理解的创意画像构建技术的研究,针对项目文档数据研究创意画像精准构建能力,通过识别文档结构、要点语句的行文特征以及关键特征的自然语言处理逼近文档级语义理解,提升对研究内容、技术指标能力状态等内容的精准理解能力。本文采用行文结构牵引与自然语言处理相结合的思路,首先针对项目文档构建文档结构模型,在文档结构模型中明确文档中的关键结构要素,包括研究目标、研究内容、技术指标等,将非结构化项目文档数据转化为结构化的创意画像模型;在此基础上,围绕创意画像模型,首先通过子标题和语义段落划分实现对创意知识要素的内容定位,然后在锁定语义段落的基础上,通过段落级、句子级行文结构识别出候选知识结构要素集合,同时采用段落级的自然语言处理及特征识别等方法对候选要素集合进行验证,提升知识提取的准确性。结合本文的研究成果,实现了项目构想文档创意画像服务软件的原型,并将本文方法与经典的段落级知识要点提取算法——TextRank、LexRank和TF-IDF进行了对比实验。实验结果表明,本文方法的平均准确率较标准TextRank算法提升6.39%,较标准LexRank算法提升5.59%,较标准TF-IDF算法提升17.08%。