中文关键词提取技术研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:xkt376
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词是代表文章重要内容的一组词。对文本聚类、分类、自动摘要等起重要的作用。此外,它还能使人们便捷浏览和获取信息。现实中大量文本不包含关键词,自动提取关键词技术有也因此重要意义和价值。本文分析了关键词提取的三个重要方面:1、候选的选取;2、候选信息的分析。3、基于所获信息的关键词提取算法。   围绕着这三个方面,首先本文介绍了LDA模型及其参数估计方法。结合主题模型的生成过程,提出了首先利用主题模型进行关键词提取的算法。然后,提出了一种基于词义相似度提取关键词的算法。通过在网络上检索解释词语对应文本,计算文本的相似度来获得词义相似度。利用聚类算法将词语分成类别,在每个类别中选择代表性的词作为关键词。最后,本文使用无参数贝叶斯模型尝试解决候选选取的相关问题。   在信息选取方面,本文考虑在统计信息之外,在引入词义信息方面进行了相关尝试。研究了基于LDA的主题分析技术以及通过网络获取词语的解释文本来计算词语间的相似度。   在算法方面,本文研究了利用主题模型生成过程,以及结合词语自身特征提   取关键词的算法。本文还研究了基于文本间的相似度。使用聚类技术,将候选词分为重要类别,综合词义表示与统计特征,从每个类别中选出一个代表词作为关键词。   在候选提取阶段,未登录词对分词会造成的影响,为了尝试解决非登陆词识别问题,文还研究了基于贝叶斯的无指导分词。探索了Dirichlet过程,以及层次Dirichlet过程的应用。  
其他文献
数字印刷是印刷技术发展的重要方向,数字印刷的一个重要特征是每张印品上的图文数据是可变的,因此数字印刷要求极高的数据传输速率,当前主流硬盘带宽无法满足数字印刷对传输
基于视频的人体运动姿态跟踪是计算机视觉领域一个重要的研究课题,其广阔的应用前景对推动虚拟现实、人机交互、智能监控、医疗以及其他领域的发展有重要的研究意义。人体运
基于J2EE平台的轻量级开发框架消除了一些传统开发中多余的复杂性和技术方面的约束,业界应用十分广泛,但仍然采取效率低下的手工方式的模型转换,所以需要建立一套可行的系统
随着数码设备的普及和互联网的快速发展,网络资源环境下的图像资源越来越丰富。如何从海量的web图像资源中检索用户感兴趣的图像成为信息检索领域的热点问题。近年来,基于概念
随着科技的进步,观测手段,实验工具的巨大革新,导致的数据的爆发式膨胀,科学研究方法从过去的经验科学阶段转变到以数据处理,分析,挖掘为核心的数据探索阶段。在十多年前,计算方法被
以微博、社交网络等为代表的Web2.0互联网应用的兴起及其处理数据量的爆炸性增长,对数据管理的灵活性、可扩展性、高性能的读写有了更高的要求。传统的关系数据库由于模式固定
随着企业信息化建设进程的推进,越来越多的企业需要集成各种不同的信息管理系统。在对企业信息管理系统进行集成时,主要会面对系统间的异构性、完整性、语义冲突和集成内容的
语音分离作为语音信号处理的重要研究方向,在语音识别、语音增强等方面都有着非常积极的意义。本论文在分析和总结以往研究工作的基础上,针对欠定语音分离的难点问题(传统算
反馈顶点集是给定图中的一个顶点子集,删除这个顶点子集让剩下的图成为森林。最小反馈顶点集问题是经典的NP完全问题之一,在实践中有广泛应用,包括操作系统中死锁预防和解除、信
分类问题是机器学习领域中的一个基本问题,对分类器的设计和改进等研究工作层出不穷并且日益出新。当前的分类算法主要以概率统计方法为理论工具,在模式识别、数据挖掘等领域