基于Hadoop平台的网页聚类方法研究

被引量 : 0次 | 上传用户：nfx0123

【摘要】

：

网页是互联网中信息存在的主要形式，人们通过网页发布和查询信息。而随着信息时代的日益变迁，网页的数量呈现了爆炸式的增长。在数以亿计的网页中，如何才能更加有效的挖掘知识？如

【作者】

：

何兴

【发表日期】

：

2012年期

【关键词】

：

Normalized Cuts Multiclass谱聚类网页聚类 Hadoop MapReduce

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

网页是互联网中信息存在的主要形式，人们通过网页发布和查询信息。而随着信息时代的日益变迁，网页的数量呈现了爆炸式的增长。在数以亿计的网页中，如何才能更加有效的挖掘知识？如何才能快速的辨别垃圾信息？如何才能更加从容地对数据归类？数据挖掘是处理这些问题的有力工具，而网页聚类则是其中的一种手段。通过聚类，能够无监督或半监督的对网页进行基于语义的划分。网页聚类的实际应用很广，它能够应用到很多实际问题当中。搜索引擎能够通过网页聚类，为用户提供更多的相关信息。对搜索引擎结果进行聚类，能够为用户提供搜索结果的导航，用户能够根据聚类标签，直接定位到自己期望的内容。网页聚类还能区分垃圾网页等等。因此，网页聚类一直以来都是数据挖掘中的一个研究重点，但是还有很多问题值得我们继续研究。可以将网页聚类问题划分为多个子问题，即网页的去噪、内容的提取、相似度的定义、降维、聚类算法的应用、类别数目的确定、聚类标签的生成等。对于上述的每个子问题，都经过了前人的研究，但仍然存在改进的空间。本文针对网页聚类问题中的聚类算法的应用进行了研究，将Multiclass谱聚类算法应用到了网页聚类和网页结果聚类中。并实现了能对搜索结果聚类的网页搜索引擎，该搜索引擎系统中集成了多重聚类方式，集成了Multiclass谱聚类算法和Normalized Cuts算法等聚类算法。基于谱聚类的网页聚类方法虽然能够获得良好的聚类效果，但算法中使用了一个N*N维（其中N是聚类对象的个数）的矩阵来表示聚类对象之间的相似关系。随着聚类对象数目的增多，该矩阵的大小增长更快，导致内存无法存储该矩阵，从而使得谱聚类方法失去可扩展性。因此本文研究了增强谱聚类的扩展性的方法，提出了使用Hadoop平台中的MapReduce机制扩展Normalized Cuts算法的方法，并实现了基于Hadoop平台的网页聚类方法，这种方法具有可扩展性，能并行的执行，从而解决了单台机器不能将整个相似性矩阵存储在内存中的问题。

其他文献

门禁住区开放度及其影响研究

改革开放以来，随着我国福利制度的改革、社会阶层的分化、住房市场化等一系列社会经济改革，中国社会经济资源重新分配，贫富差距逐步拉大，社会空间分异现象日趋明显化，中国传统社区

学位

门禁住区开放度影响广州

X项目的施工组织设计优化分析

改革开放以来，我国社会经济持续稳定并且快速发展。随着房地产业的发展力度和各省市为确保经济增速在基础建设方面的投入增大，我国的建筑业迎来了一个节能高效与和谐发展的新纪

学位

工程项目管理施工组织设计网格方法优化

广东省药品GSP实施与发展研究

药品是关系人民生命健康的特殊商品，药品流通行业是关系国计民生的重要行业。药品经营质量管理规范（Good Supply Practice for Pharmaceutical Products，简称GSP），是药品经营过程

学位

药品GSP问题与对策建议与展望

15例早产儿慢性肺部疾病的护理体会

目的:通过呼吸道的管理,严格控制氧疗指征,加强肺部护理,合理喂养,针对家长的恐惧心理做好相应的心理护理,从而提高早产儿慢性肺部疾病(CLD)的生活质量,减少住院天数,改善预

期刊

早产儿慢性肺部疾病机械通气护理

课堂规则的制定与执行

期刊

执行规则制定法一贯性

宋词分期问题研究述略

期刊

南宋词北宋词南渡词人研究述略

Vitalstim吞咽障碍治疗仪在球麻痹致吞咽困难康复护理中的应用

目的:观察VitalStim治疗仪对脑卒中吞咽障碍的治疗效果。方法:将80例脑卒中吞咽障碍病人随机分为治疗组和对照组各40例,治疗组采用VitalStim电刺激配合吞咽训练及常规药物治

期刊

脑卒中吞咽障碍VitalStim电刺激吞咽训练

中国资本外逃问题研究

资本的积累和投入对一国的经济发展至关重要，所以中国从20世纪70年代末起实施“改革开放”政策，大力吸引外资，有效地提高了生产效率，使得中国经济长期高速增长。但是，在政府通过各

学位

资本外逃规模测算影响因素

房地产企业供应商评价与应用研究

随着国内房地产行业高速发展带来了一系列社会问题，2010年以来，国家相继出台了一系列限贷、限购等政策，房地产调控政策越来越严。房地产企业之间竞争日趋激烈，企业之间的竞争早已

学位

房地产企业供应商评价AHP-模糊综合评价法

透空砖砌建筑表皮的表现力及其室内光影表现力研究

随着经济和技术的发展，各种新型材料不断涌现，砖作为传统建筑材料渐渐不再成为建筑材料表达的重点。但几千年来，砖建筑在人们心里的地位始终没有改变，在建筑立面材料和技术急速发

学位

砖透空砌筑建筑表皮室内光影效果表现力

基于Hadoop平台的网页聚类方法研究

其他学术论文