一种基于概念格的中文文本摘要方法研究

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:Javayuyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机、手机的普及以及现代信息技术的快速发展,每天都有大量的新信息载入网络并以电子文档的形式呈现给人们。如何快速、准确的从这些庞杂的电子文档中获取需要的信息,已经成为一个迫在眉睫的问题。文本摘要就是解决这种问题的一个切实可行的方法,同时也可以缓解移动设备屏幕小、大文本信息阅读不便的问题。本文通过总结、分析有关文摘方法的国内外研究现状,提出了一种基于概念格的中文文本摘要方法。本文的主要研究内容和创新工作包括:1)设计了一种基于语义相似度的“概念”提取方法。本文把“概念”重新定义为具有相同意义的词集,该方法首先对文本进行分词、去停用词、统计词频等,综合利用词频、词长、词性等信息计算关键词权重,剔除权重过小的关键词后计算关键词之间的语义相似度,并据此合并同义词、相似词为一个“概念”,计算各“概念”的权重并输出权重较高的“概念”。2)利用概念格在规则发现方面的优势,以“概念”为属性,以文档中挑选的句子为对象构建一种可以表示文档信息的概念格。针对概念格构建过程中计算量过大的问题,对这种概念格进行属性以及稀缺“概念”组合的约简。这种文本概念格在组合词发现、局部主题发现以及句子相似度计算等方面也有一定的研究价值。3)提出一种利用文本概念格抽取摘要的方法。该方法以最小概念损失率作为一种衡量标准,使用全局最优化策略抽取句子并进行后期处理后组成摘要,该方法可以针对不同压缩比率提供具有最小概念损失率的全局最优的句子组合。以复旦大学提供的分类语料库为实验数据集,对本文方法进行实验研究,实验结果表明本文方法是切实可行的,尤其在概念损失率方面表现突出。
其他文献
【目的】分析藤茶高通量转录组序列,从中挖掘出黄酮类化合物合成相关基因,为进一步揭示藤茶黄酮类化合物生物合成调控机制提供理论参考。【方法】分别采集藤茶的幼叶和成熟叶
本文简介了我们结合实际工程,对钻孔灌注桩进行后压浆技术处理的一些方法与分析。结果一要用后压浆技术可以有效地克服泥浆护壁钻孔灌注桩的三大缺陷:桩身泥上、桩底沉渣、桩周
【目的】克隆番茄促分裂原活化蛋白激酶(MAPK)基因SlMAPK6,并分析其在不同非生物胁迫及信号物质处理下的表达模式,为深入探究SlMAPK6基因在番茄逆境响应中调控机制提供理论参
通过对2017年高中数学课程新标准带来的高中数学内容变化趋势和《高等数学》编写的传统方法的研究,从数学教育论的视角探讨《函数与极限》编写中需要明确的知识衔接点、教学
本文结合我们将钻孔压灌粉煤灰混凝土桩技术应用于某工程的实际,总结、概括了其施工工艺和施工注意事项,根据对桩的静荷试验结果,简要分析了粉煤灰混凝土桩复合地基的承载力特性
经元善是晚清著名的慈善家,他几十年如一日,呕心沥血,淡泊名利,将一生中的黄金岁月都献给了晚清慈善事业。在十几年的慈善实践中,经元善形成了独具特色的慈善思想和主张。他
我国建筑行业发展迅猛,是一大经济支柱型产业,不论是建筑材料生产制造,或是消费与出口,我国均处于世界领先水平.在建筑材料中,有很多不同类型的材料,陶瓷、石材、门窗、人造
目的:分析经桡动脉冠心病介入诊疗中桡动脉痉挛的发生及其预测因素。方法采用回顾式分析方式,从2011年6月-2014年12月来我院治疗冠心病的患者病例中选出1500例,对其病例进行详细
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
2011年数字图书馆理论与实践国际会议将与2011年9月26~28日在柏林召开。以探讨先进技术为目的的欧洲数字图书馆会议(ECDL)已经召开了14届,第15届会议更名为数字图书馆理论与实