Web社区发现算法的研究与实现

来源 :燕山大学 | 被引量 : 0次 | 上传用户：yanghaibin123

【摘要】

：

Web是一个巨大的信息资源库,不仅内容复杂、而且形式各异。根据查询主题需要发现Web上聚集在一起的社区,使用户很快地从互联网上提取所需知识,即为Web社区挖掘。Web社区发现

【作者】

：

刘静

【机构】

：

燕山大学

【出处】

：

燕山大学

【发表日期】

：

2009年期

【关键词】

：

Web社区最大流社区发现 HITS 种子网页

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Web是一个巨大的信息资源库,不仅内容复杂、而且形式各异。根据查询主题需要发现Web上聚集在一起的社区,使用户很快地从互联网上提取所需知识,即为Web社区挖掘。Web社区发现使有效地利用链接信息加强现有搜索和浏览技术成为可能,且对搜索引擎、门户网站内容自动分类以及互联网内容的过滤都有重要的意义。本文从不同的Web社区定义出发,在深入研究Web社区挖掘技术的基础上,提出一种新的Web社区挖掘算法。首先,研究最大流算法的种子网页发现过程。针对此过程受用户主观因素影响的问题,结合HITS算法能够发现权威的主题网页的优点,提出PHITS算法。该算法先完善邻域图的构造过程,再采用新的公式计算页面的权威值和中心值,最后将权威值较大的网页提取出来。其次,将PHITS算法发现的网页作为最大流算法的种子网页,再采取相对严格的、同时对社区内外的点进行约束的Web社区定义,运用最大流算法发现Web社区,整个社区发现过程称之为PH-MaxFlow算法。再次,对于已经发现的Web社区,传统的评价方法是由用户根据查询主题和查询结果给出相应的评价,针对这种评价容易掺杂用户主观需求的问题,将Web社区的形成与图的划分相结合,提出了确定的评价所发现社区与查询主题相关度大小的公式。最后,构造了简单的Web社区搜索系统,对上述的研究内容进行了实验验证并给出实验结果。

其他文献

工作流程可视化定义工具的研究与实现

用图形化的表示方法来定义工作流，具有操作简便、理解直观等众多优点，并已成为了现代化工作流管理系统的一个必备组成部分，由于大部分都是商业软件，为了深入了解其实现原理，本文探

学位

工作流程可视化工作流模型定义工具

一种多阶段语义web服务发现途径及其实现

随着Internet技术的快速发展和软件应用需求的继续增长，面向服务的计算成为了学术界和产业界关注的热点。面向服务的计算以“软件即服务”的理念为前提，期望以服务作为基本元素

学位

网络服务软件开发程序语言语义分析

移动Ad Hoc网络路由协议的模拟与性能分析研究

移动Ad Hoc网络是由一组无线移动节点组成的，不需要依靠现有固定通信网络基础设施的网络。该网络能够迅速展开使用，所需人工干预最少，并且是没有任何中心实体、自组织、自修复的

学位

移动Ad Hoc网络无线链路路由协议OPNET工具

基于属性和关系的物体描述方法研究

图像理解是计算机视觉领域一个基础并且重要的问题，对于一张输入图像，研究者希望计算机可以像人类一样去理解其所包含的语义内容。作为图像的核心组成部分，图像中的物体包含了最

学位

物体描述图像理解乘积模型深度学习

基于RSSI的WSN抗干扰定位算法研究与实现

无线传感器网络是一类以应用为中心的网络,而节点定位问题是无线传感器网络进行目标识别、监控、跟踪等众多应用的前提,也是传感器网络研究中的热点问题之一。传统的定位方法

学位

无线传感器网络节点定位RSSI抗干扰D-GaussianR-EWMA

基于遗传算法的二维熵图像分割方法的研究

图像分割是计算机视觉领域的一个重要而且基本的问题。图像分割是指把图像分解成各具特性的区域并提取出感兴趣目标的技术和过程,是从图像处理到图像分析的一个关键步骤,在图

学位

阈值分割二维最大熵法改进遗传算法

不确定的单种/多种移动物体连续RNN查询

近年来,随着无线网络通信技术和定位技术(如GPS)的发展,大量具有定位功能的无线设备(例如移动电话、车载GPS等)得以普及。当这些设备被部署到一些运动着的对象上时,人们便可

学位

不确定移动对象单种多种连续反向最近邻

基于遗传和免疫克隆选择算法的特征选择方法研究

基于实例的模式识别中，由于存在着大量实例和特征个数的可变特性，导致难于形成高区分度的特征子集，从而使分类器识别性能低下。基于遗传算法的特征选择使用选择、交叉和变异算子

学位

遗传算法免疫克隆选择算法特征子集种群退化

电力系统网络安全分区及管理平台的研究与实现

随着通信技术和网络技术的发展,接入电力企业网络的系统越来越多,调度中心、电厂、变电站、用户等之间进行的数据交换也愈加频繁,这对电力监控系统和数据网络的安全性、可靠

学位

安全分区网络管理平台电力监控系统

基于XML的测试用例复用模型研究

软件测试作为保证软件质量的主要手段，是软件开发过程中的重要环节。随着软件质量意识的提高，在整个软件工程中，软件测试费用的比重越来越大。复用软件测试用例，是降低软件测试的

学位

软件测试软件质量软件开发

Web社区发现算法的研究与实现

其他学术论文