层次式协同聚类算法及模型选择技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:rommer006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着文本数据的急剧增长,文本聚类方法已成为大家关注的热点。文本数据常用文档-词矩阵表示,基于这种表示方法大多数传统的聚类算法采用单向聚类方法,即要么只是对文档进行聚类,要么只是对词进行聚类,忽略了文档与词之间的相互关系。基于信息论的协同聚类算法ITCC(Information Theoretic Co-clustering algorithm)将文档-词矩阵看作一个联合概率分布,以最小化初始变量和聚类后的变量间的互信息损失为目标函数,同时对文档和词进行聚类。这种方法从信息论的角度捕获了文档和词之间的自然关系,对高维稀疏的文本数据起到很好的聚类效果。本文在分析了协同聚类算法的优缺点的基础上,提出了一些改进方案,并进行了大量的实验分析,完成了以下研究工作:(1)本文提出了层次协同聚类算法HITCC(Hierarchical Information Theoretic Co-clustering),该算法结合了分裂的层次聚类的思想,将每一层的节点分裂都看作一次协同聚类过程,而且在节点分裂时基于父亲节点的协同聚类结果对文档和词同时分裂,然后使用互信息或者卡方检验的方法作为停止条件控制树的增长。此方法不仅能发现存在子空间的簇,而且可以显示簇与簇之间的层次关系,另外也避免了协同聚类算法确定行簇和列簇数目的问题。通过实验证明,HITCC算法可以获得比平面的协同聚类算法更好的聚类效果,而且与当前经典的文本层次聚类算法的效果相当,甚至更好。(2)本文基于HITCC算法又提出了其改进算法——基于模型选择的层次式聚类算法MS-HITCC(Model Selection-HITCC)。该算法在层次树的每一层只是按照协同聚类结果对文档进行分裂,保留父亲节点所有的词。在进入下一层协同聚类前,使用特征选择的方法选择一部分词进行聚类。这样的操作可以在分裂过程中保留重要词的信息,有利于聚类过程的进行。基于此操作,MS-HITCC算法将多项式混合模型应用于层次式协同聚类方法中,并且使用AIC或者BIC的方法进行模型选择,从而避免设置任何参数值,对数据更有普遍适用性。
其他文献
随着社会经济的高速发展,在金融、国家安全、法政、电子商务和电子政务等应用领域的信息安全显示出前所未有的重要性。身份识别与认证是保证信息安全的必要前提。而基于生物
当今世界处于信息爆炸式的增长并且迅速更新的时代,计算机和互联网技术的蓬勃发展对传统教育模式提出了巨大的挑战,催生了网络辅助教学平台的发展,但是同时具备下面优势的网
教务管理是高等学校教育管理过程中重要的组成部分,科学合理的管理流程不仅能提高教务管理人员的工作效率,而且能够提高整个高校教育管理的工作质量和效率。本论文以辽宁石油
随着无线通信和移动计算技术的发展,人们对无线宽带接入提出了更高的要求。无线网络能够实现高容量、高速率的Internet接入,是未来无线通信逐渐替代有线网络通信的先决条件,
伴随着计算机技术的不断发展,互联网日趋普及,网络上信息数量不断扩大,用户可以更自由的获取信息,这满足了用户的信息需求。但是随着网络上信息的大幅增长,用户在有限的时间
谓词加密算法是可搜索加密算法领域的研究热点,提供了外包数据的密文查询功能。谓词加密算法中假设外包方(例如云服务商)会正确地执行查询算法,并将真实的查询结果返回给用户
互联网上存在海量的网络资源,如何有效利用、开发这些资源是当前的一个研究热点问题。随着企业竞争越来越激烈,诸多业务要求在较短时间内汇聚网络上的网络资源以求解业务问题
信息化是当今社会发展的趋势,随着计算机、通讯技术与医疗影像科学在医疗行业的进一步应用,我国医院信息化管理进程得到不断深入和拓展。国内部分医院已经建立起了独立的医院
代码变形技术是软件保护技术的关键技术之一,属于针对逆向工程与加密技术互补的安全分支。代码变形技术按照类型分为词法变形、数据变形和控制流变形。本文主要研究了基于控
随着互联网的不断发展,在线数据库的数量不断增多,DeepWeb模式集成的重要科学研究意义和显著的工程应用价值就凸现出来,但是由于这些数据库在地理上分布、管理上自治、模式上