【摘 要】
:
Web文档聚类可以协助搜索引擎找出高质量的网页,是Web挖掘的一个重要研究方向。Web文档聚类技术的关键之一在于特征词或特征词组的选择。一篇文档的主题并不是与文档中的所有
论文部分内容阅读
Web文档聚类可以协助搜索引擎找出高质量的网页,是Web挖掘的一个重要研究方向。Web文档聚类技术的关键之一在于特征词或特征词组的选择。一篇文档的主题并不是与文档中的所有词相关,能体现文档主题的只有其中一部分,关键是要得到最能体现文档主题的特征项。现有的挖掘算法得到的频繁模式不仅维数高,而且不能很好的反映文档表达的语义信息。如何挖掘到理想的特征项,成为改进聚类算法的一个很重要的方面。为了解决这一问题,参考目前的数据挖掘领域的工作,给出了一个文档数据库模型,即将每一篇文档映射为一个数据库,文档中的每个句子看作文档中的一个交易,每一个词看作一个项目。然后利用关联规则挖掘算法来挖掘最能体现文档的特征单词集。相比较于传统的文档频繁特征项,句子级的频繁单词集包含了更多的局部信息。基于文档数据库模型,针对Web文档海量的特点,给出一种初步聚类和精确聚类相结合的两层聚类模型。先初步聚类后依据类间距离和类内链接强度阈值合并或拆分类,最后实现文档聚类。在此过程中,采用可变精度粗糙集模型计算文档中的每个频繁单词集对聚类的贡献,以此计算每个频繁单词集的权值。给出了基于容错粗糙集的聚类描述扩展。得到聚类结果后,为了进一步增强聚类的效果,对每个类别进行聚类描述。解决了由于同义词或者简写等语法现象造成的聚类描述不能精确匹配的问题,提高了聚类描述的有效性。容错粗糙集模型在处理模糊的、不确定关系方面有很大的优势。在信息检索领域中,特别是查询词扩展,文档与文档的关系,特征词与特征词的关系处理上得到充分的应用。
其他文献
数据挖掘(DataMining),又称为数据库中的知识发现(简称KDD),是从大量数据中提取可信的、新颖的、有效的并能被人们理解的模式的处理过程。它是一门新兴的交叉学科,汇集了来自机
通过工作流管理系统对工作流程的管理和控制,可以实现企业经营过程的计算机化,为企业实现更好的经营目标提供了一个重要手段。但传统的工作流管理系统只专注于工作流程的运转
当前,SUN公司提出的J2EE已经日渐成为企业Web应用的开发标准。J2EE以组件技术为基础,具有N层体系结构,为非常广泛的领域构建了一个完整的、面向对象的、易维护可扩展的应用架
在磁盘驱动器中,定位和精确跟踪磁道对读写磁盘数据至关重要。当前硬盘工业的发展趋向于小型化和微型化。随着记录密度的不断增长,需要伺服系统能可靠的跟踪磁道。精确的寻道
通信系统中的一个固有问题是干扰。作为4G的代表技术之一的LTE-Advanced对资源利用率的要求更高,希望能够使用接近于1的频率复用因子,因此小区间干扰问题更需要得到解决。异
随着互联网的高速发展,搜索引擎成为互联网用户查找信息的第一入口,作为搜索引擎核心组件的网络爬虫用于在互联网上采集数据。现在网络信息正以指数级的速度不断膨胀,网页采
在很多自然语言处理任务和应用中,相关性计算是最重要的环节之一。随着微博和微信等移动社交应用的用户越来越多,互联网上产生了大量的短文本信息。面对急剧增长的短文本,从
随着计算机与网络技术的广泛应用,数据库安全技术已成为信息安全的重要研究领域。数据库推理控制是研究高安全等级的安全数据库系统的关键技术之一,是保障数据库安全的重要手
硬盘作为一种高容量,高稳定性存储设备在存储领域占据着主导地位。硬盘容量的大幅度提升离不开读/写通道技术的改进,目前对读/写通道的相关研究主要表现在编码技术的改进和读