Web2.0用户特征发现及兴趣社区构建的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:cloudyliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0时代的到来,博客、论坛、维基百科等服务兴起并被广泛使用,使每个Web用户都有机会成为信息提供者。Web2.0环境里注册用户对应着现实生活中的人,其网络行为与人的社会活动存在着密切联系,如用户在博客里记录生活琐事,在论坛上评论社会新闻,在维基中撰写其擅长领域的文章等等。Web2.0服务的核心是“人”,因此对用户的个体特征进行描述,进而构建基于兴趣倾向的用户社区,必将使Web2.0上的增值业务更加精准,使用户之间的交流更加方便。   本文提出了基于文档集合的关键词提取算法BiasHITS,用得到的关键词作为用户个体特征的描述。BiasHITS将某一用户发布的全部文章看做一个有机的整体,认为其可以反映出用户在现实生活中的兴趣倾向,算法不仅考虑词本身的重要性,同时考虑了它所属文档的重要性。在计算用户相似度的过程中,为了建立同义词、近义词及语义相关词之间的联系,本文提出了基于WordNet的虚拟概念降维算法,使兴趣相似用户之间的关联更加紧密。建立了用户之间的兴趣关联之后,本文进一步提出了基于种子扩展的贪心算法挖掘用户兴趣社区,该算法降低了社区核挖掘的复杂度,同时保证了社区核内的用户兴趣高度相似,而社区核间的用户兴趣低相关。最后以雅虎博客作为实验数据,验证了本文所提算法的有效性。  
其他文献
网络信息抽取是指从半结构化的html网页中,抽取出正文、作者、时间等关键信息。网络信息抽取是包括搜索引擎、舆情系统、推荐系统等在内的数据分析系统的基础支持技术,用于从采
P2P网络具有很高的可扩展性、自治性和容错性,能充分利用个人电脑的网络带宽、存储空间以及计算资源,为构建文件共享和存储系统提供了非常有利的条件。但由于系统用户具有高度
市场全球化的趋势使得市场竞争日益激烈,跨行业、跨区域的企业制造模式已经逐渐形成。作为一种跨平台、网络化、服务于企业的企业建模和管理工具,ERP(企业资源计划)的概念于1990
H.264是目前最新的视频压缩编码标准,编码效率是MPEG-2的2~3倍,广泛应用于在通讯、计算机、消费电子等领域。同时,与之前的MPEG-1/2和H.263标准相比较,H.264的算法复杂度也大幅增
近年来,基于分布式对等(Peer-to-Peer)系统在互联网上广泛的流行起来,成为了当前占据Internet主要流量之一。基于分布式散列表(Distributed Hash Table,DHT)的结构化P2P系统是P2P领
服务建模是当今软件工程领域的热点研究方向之一。为了支持面向服务的软件系统开发,本文论述了如何基于《CBDI-SAETM Meta Model foz SOA2.0》服务建模语言规范进行服务建模。
信息技术和互联网的飞速发展使得人们可以更好地享受各类视频信息,如:有线电视、交互式网络电视、蓝光光盘等。为了节约这些视频信息的存储空间及网络传输带宽,国内外的科研机构
随着互联网和移动通信等技术的飞速发展,以及普适计算模式代替传统的计算模式,使得每个人任何时候都处在信息的包围之中,并且面临的信息丰富多样。它们在人们的生活中的作用越来
随着跨域联盟技术的发展,越来越多的Web应用系统被移植到跨域联盟以支持联盟用户访问。由此,Web应用系统对于联盟用户的访问控制和授权成为跨域联盟需要研究的基本问题之一。 
事件监测是无线传感器网络的一种重要应用。尤其是对于一些紧急事件,例如化学物质泄露、火灾等,往往希望尽快确定事件发生或影响的区域。无线传感器网络可以快速地覆盖事件可能