一种基于主题的文本聚类方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:appleandtzf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有的文本聚类方法难以正确识别和描述文本的主题,从而难以实现按照主题对文本进行聚类。本文提出了一种新的基于主题的文本聚类方法:LFIC。该方法能够准确识别文本主题并根据文本的主题对其进行聚类。本方法定义和抽取了“主题元素”,并利用其进行基本类索引。同时还整合利用了语言学特征。实验表明,LFIC的聚类准确率达到94.66%,优于几种传统聚类方法。
其他文献
基于记忆的自适应语言模型虽然在一定程度上增强了语言模型对不同领域的适应性,但其假设过于简单,即认为一个在文章的前面部分出现过的词往往会在后面重复出现.通过对一些文
在全球经济不断发生震荡的今天,我们既要关注富人的发展,更要关注穷人的生存,引导社会不能只研究如何让有钱人挣到更多的钱,不研究怎样让没钱人挣到生存的钱。只有克服"歧视性
本次863中文信息检索评测的目的是检测互联网环境下大规模数据的中文信息检索技术的研究现状和系统有效性,中文与接口技术评测组综合考虑了目前信息检索面临的难点以及中文信
办公套件是人们日常应用最为广泛的信息处理软件之一,但真正意义的藏文办公套件至今都尚未问世,成为藏文信息技术发展的“瓶颈”.开源项目OpenOffice.org的不断发展和日益成
<正>中兴通讯凭借多年通信产品开发经验,并根据国内外移动市场发展的最新情况开发了新型移动通信系统——ZXG10,该系统采用GSM PhaseⅡ+标准,同时兼容GSM900和DCS1800,可以支
企业在建立质量体系时,应结合本身的实际情况,选择最佳的方案.本文针对各个企业本身的特点,提出建立与健全质量体系的三个行之有效的方案.
<正>一.在TEM小室中进行灵敏测量的方法用TEM小室对BP机——整装天线通信设备之一进行灵敏度测试,已被列人GB/T 15938-1995《无线寻呼系统设备总规范》中.它规定:8个方向测出
中国经济社会的发展到了一个历史性变革的关键时期,尤其是农村的综合改革更需要“顶层设计,系统集成”。随着主体功能区建设的启动和深入,中国将面临有史以来最大规模的劳动力转
随着市场竞争的加剧,产品质量和服务质量已成为市场贸易中的重要指标,由于这两者都取决于企业员工本身的品质,因此的人员品质便成为企业赢得竞争的必胜武器。
第三次中美战略与经济对话5月9日在华盛顿拉开帷幕。作为世界最大发展中国家与世界最大发达国家之间的高层对话,在对话的第一天双方就释放出积极信号,高层言论表明双方推进务