基于自适应聚类的中文多文档自动文摘研究

被引量 : 0次 | 上传用户:hsh15811353953
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及、信息获取途径的增加,人们获得的信息日益丰富。为了从这些丰富的信息中快速、准确地获取有用信息,提高用户获取信息的效率,文档的自动摘要处理变得越来越重要。多文档自动文摘技术日益成为自然语言处理领域的一个研究热点。多文档自动文摘致力于从多篇同主题文档中将全面、简洁的摘要性文档呈现给用户,提高用户获取信息的效率。目前,多文档自动文摘领域的一个较成熟的方法是将文档集合中所有的句子按照多个特征的组合统一进行排序,按照顺序进行文摘句抽取,该类方法简单易行,但是随着摘要对象的多样化,对于文摘内容的主题覆盖度有了更多的要求,而此类方法很难在主题覆盖度与内容冗余之间到达平衡;另一类方法是从文档集合中发现摘要对象的潜在子主题,从不同子主题中进行文摘句抽取。该类方法通过文本聚类技术来发现潜在子主题,但目前大多数聚类方法在一定程度上都需要人为规定聚类的数目,并不能准确反映文本的实际情况,影响摘要效果。针对上述问题,本文提出了一种运用改进K-means算法自适应聚类的中文多文档自动文摘方案。主要研究工作如下:1、提出了一种自适应发现文档集合子主题的策略。在多文档自动文摘中,子主题的发现多通过聚类算法实现,本文应用一种改进的K-means聚类算法从整个文档集合的统计信息中确定类的个数,自适应地发现子主题,一定程度上克服了大多数子主题发现方法需由人工主观决定的缺陷。2、利用文档集合的统计信息确定初始聚类中心,而非随机选择。使得子主题中心的发现更加客观合理,采用基于质心方法提取的文摘句更具有子主题的代表性。3、在文本向量化的过程中,运用语言资源工具对向量空间模型(VSM)进行改进和优化,一定程度上了弥补了特征模糊、维数过高的缺陷。4、设计并实现了一个中文多文档自动文摘系统。实验证明系统得到的文摘具有良好的效果,验证了文中方法的可行性。
其他文献
从国内现状和国际大背景两方面来看,由于高校自身的改革需要和各种其他因素的影响,使得我国高等教育不得不转变原有的一些观念,并对其进行相应的更新和转变。为了适应时代的
地膜覆盖和秸秆覆盖是两种高效节水的作物栽培技术,在改变农田下垫面性质和能量平衡、调节土壤温度及改善土壤水分状况等方面具有显著作用,达到提高经济产量、减少水分无效消
2004年,COSO《企业风险管理——整合框架》(简称ERM)的出台为企业提供了风险管理理念与方法上的指导,一定程度上满足了企业管理当局及各利益相关者对风险管理的要求。目前,国
博物馆的陈列设计最能表现该馆的性质,是博物馆最直接与观众接触与交流的部分。景观陈列是自然历史博物馆常用的一种展示方式,它能够将自然界动物、植物与其生活环境的相互关
随着城市机动化进程的不断加快及人们对环境问题越来越多的关注,研究尾气排放影响因素下的交通网络设计问题不仅有重要的理论价值,而且在解决环境和交通等问题中有着重要的现实
仿射不变特征量不受传感器获取图像的视点和相机参数变化的影响,与其它特征量相比,在稳健性、重复率、区分度、适用范围方面具有很大的优势。近年来,仿射不变特征提取理论及
语言的学习是知识内化与外化的有机融合,内化需要在静态下完成,外化需要在动态下完成,而动静结合的教学艺术关系到语言的学习能否内化于心、外化于形。因此,在教学中,教师可动静结
投资基金涉及三方:管理人、托管人和持有人。基金持有人是基金资产的最终所有人,享有基金资产带来的一切收益;基金托管人是基金资产的名义持有人与保管人;基金管理人是负责基
围产儿死亡率是衡量一个国家经济文化水平和医疗卫生水平的主要标志之一,也是衡量一个地区围产保健工作开展情况,产科质量以及新生儿科水平的一项重要指标。围产儿死亡率的下
气道炎症性疾病目前并无一个公认的标准,在文献中似乎更多地涉及支气管哮喘、慢性阻塞性肺疾病(COPD)和囊性纤维化,或许还包括弥漫性泛细支气管炎和上气道疾病(慢性鼻炎、鼻窦炎