论文部分内容阅读
Web是一个巨大的信息资源库,不仅内容复杂、而且形式各异。根据查询主题需要发现Web上聚集在一起的社区,使用户很快地从互联网上提取所需知识,即为Web社区挖掘。Web社区发现使有效地利用链接信息加强现有搜索和浏览技术成为可能,且对搜索引擎、门户网站内容自动分类以及互联网内容的过滤都有重要的意义。本文从不同的Web社区定义出发,在深入研究Web社区挖掘技术的基础上,提出一种新的Web社区挖掘算法。首先,研究最大流算法的种子网页发现过程。针对此过程受用户主观因素影响的问题,结合HITS算法能够发现权威的主题网页的优点,提出PHITS算法。该算法先完善邻域图的构造过程,再采用新的公式计算页面的权威值和中心值,最后将权威值较大的网页提取出来。其次,将PHITS算法发现的网页作为最大流算法的种子网页,再采取相对严格的、同时对社区内外的点进行约束的Web社区定义,运用最大流算法发现Web社区,整个社区发现过程称之为PH-MaxFlow算法。再次,对于已经发现的Web社区,传统的评价方法是由用户根据查询主题和查询结果给出相应的评价,针对这种评价容易掺杂用户主观需求的问题,将Web社区的形成与图的划分相结合,提出了确定的评价所发现社区与查询主题相关度大小的公式。最后,构造了简单的Web社区搜索系统,对上述的研究内容进行了实验验证并给出实验结果。