基于粗集模型的聚类方法及其在文献过滤系统中的应用

来源 :山西大学 | 被引量 : 0次 | 上传用户:liuyibi1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息过滤(Infonnation Filtering)是一种个性化的、主动的信息服务机制,是对传统信息检索服务的有益的补充。信息过滤包括许多内容,如声音、图像和文本等等,在本文中,我们主要指对文献的过滤。聚类(Clustering)是将一组问题空间的对象按相似度进行分类,把相似的对象归为一类,尽可能使得类内的对象间的平均距离最小,而使类间的距离最大。本质上,聚类属于一种无监督的学习,将聚类技术应用于信息过滤中可以在一定程度上提高系统的过滤效率,同时也对信息过滤的查准率与查全率有积极的作用。将聚类技术用到文本信息过滤中,本质上属于文本挖掘范畴。 自然语言的不确定性和模糊性造成了计算机对自然语言处理的困难,由于粗糙集不仅具有描述不精确概念能力,而且还给出了对不精确度的度量,因此将粗糙集的有关理论用于对自然语言的描述有一定合理性。 本文在粗糙集理论的背景知识下,对于文本的粗糙集表承模型和基于此模型下的聚类在信息过滤系统中的应用,进行了深入的研究。所作的工作和创新点总结如下: 1.提出了一种新的文本表示模型,该模型基于粗糙集的对知识的等价划分的思想,试图保持文本的概念信息:定义了该模型下的粗糙相似度;并提出了基于该模型的计算文本相似度的方法。 2.将文本聚类技术应用到信息过滤中。对文档进行了聚类,在检索的期间,对用户提出的检索词先进行和每一类的类心比较,得到与之最近的类别,仅将属于该类别中的文档与用户提出的检索词进行运算,从而缩小了检索的范围,提高了检索的效率,也在一定程度上克服了检索结果的偏差。 3.将文本聚类技术应用到信息过滤中。借鉴了协作过滤的思想,不再把用户看成是独立的个体,而是看成按一定的相似兴趣联系的群体类,对用户模型进行了聚类,这样在发送文献时不再以单个用户模型作为计算对象,而是以用户兴趣类作为计算对象,同时进行文献推荐时也是以用户兴趣类作为推荐对象的,以期提高过滤效率和准确率。 实验结果表明,引入本文提出的基于粗糙集的聚类方法之后的信息过滤系统较原来的系统在性能上有所提高。
其他文献
随着Internet的迅猛增长,电子邮件作为最快捷、最经济的通信方式,也得到了飞速发展。但是,许多销售广告、快速致富等垃圾邮件也在网络中传送,这些垃圾邮件不仅占据邮件服务器的大
数据挖掘研究如何从大量的数据中智能地、自动地提取出有价值的知识和信息,是当前相当活跃的研究领域。近年来,随着我国铁路信息化建设快速发展,知识的自动获取已经成为制约其进
随着计算机技术的迅猛发展和电子技术的高速发展,个人电脑的价格也越来越低廉,应用也越来越普及。Windows系列操作系统在个人电脑上有非常高的市场占有率。在Windows上运行的软
综合信息系统集成平台是面向整个企业或组织的管理信息系统,它强调把整个企业或组织看成一个系统,按系统的观点去分析和处理信息流,实现各子系统间的紧密联系、相互制约和数据共
随着整个社会的信息化演变,企业管理者和IT人员对积累下来的数据、信息进行管理和利用的要求不断提高,集中于操作型日常事务处理的传统数据库系统已经不能完全满足现代企业的
信息系统将企业的物资流、信息流、资金流纳入统一的管理之下,使企业的资源配置更加合理,使信息在企业内部的传递更加通畅、快捷,提高了企业的管理水平和核心竞争力。 我国外
目前在海岸动力数值模拟研究领域,数值模拟计算和数值模拟后处理方面都有大量的研究成果,而数值模拟前处理方面却还停留在依靠人工方法读取纸质地图数据的阶段,因而基于组件式地
当前,数据挖掘应用到了很多行业,产生了较好的社会效益,因此它得到了很好的发展。随着应用的不断扩展,数据挖掘系统之间进行挖掘模型交流的需求越来越强烈,而预测模型标记语言(PMM
信息网格旨在有效便捷的解决广域、异构信息的共享、互连和互操作的问题。织女星信息网格的使用模式是让用户在任何时间、地点以及任何设备上使用网格,以达到高生产率服务。
随着Internet在全球范围内呈现出爆炸式的发展趋势,TCP/IP协议的拥塞控制算法研究也就变得更加重要和紧迫。在此背景下,本文针对SACK算法的缺陷及存在的问题,进行了比较系统、深