基于社会化媒体的自适应信息推荐机制研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:wff0301
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于互联网的优越特性,在其上发布信息极为便捷,这就使得互联网上的信息数量以近乎爆炸的速度增长。如此多的信息即使浏览一遍都无法做到,用户希望能找到感兴趣的部分更是不可能的。传统的搜索方法只能呈现给所有用户一样的排序结果,无法针对不同用户的兴趣偏好提供相应的服务。信息的爆炸使得信息的利用率反而降低,这种现象被称之为“信息过载”。推荐系统是为解决互联网上的信息过载问题而提出的一种智能代理系统,能从互联网的大量信息、中向用户自动推荐出符合其兴趣偏好或需求的资源。在当前Web 2.0的环境下,社会化媒体的出现使得用户不仅是网络内容的浏览者,也是网络内容的制造者。它的发展进一步加剧了网络时代的信息爆炸。传统的推荐系统通过让用户回答问题或者主动定制的方式来获取用户的兴趣,进而实现推荐。然而,用户的兴趣不是一成不变的,它会随着时间的推移而变化。针对该点,本文提出了一种自适应信息推荐机制,来及时跟踪用户兴趣变化,推荐用户感兴趣的资源。社会化媒体形式多样,如论坛、博客、内容社区、社交网络等。在这些形式下,用户可以发布或者转帖一篇文章,其他用户可以对其阅读或评论,这些评论本身又会被其他用户阅读或评论。从用户评论中,可以观察出用户当前感兴趣的话题。传统的基于内容的推荐方法一般根据原文的内容信息来推荐相关文章。然而,我们知道,随着用户讨论的继续,讨论的主题也会发生变化,即用户兴趣也会发生变化。这时,如果仅仅依据原文本体进行推荐,则返回的文章往往不是用户当前最感兴趣的,从而会降低用户的满意度。因此,本文考虑了结合用户评论和原文本体来构建主题模型,利用该模型来选择相关文章。根据观察发现,每条评论对推荐结果的影响应该是不一样的,如有些评论对原文内容有深刻的见解,而有些评论完全是无意义的讨论。所以,当利用用户评论信息来跟踪主题演变时,区分开每条评论的影响非常重要。这里,我们从用户评论中抽取出评论间语义关系、结构关系以及用户权威来区别每条评论对推荐的影响。分析事件报道在网络上的传播,可以发现其存在如下四个特点:转载重合、报道重合、包含重合和追踪重合。这些特点使得基于内容的推荐系统存在一个严重问题—重复推荐,即推荐文章的内容与原文含有相同的信息,这样会增加用户的阅读负担。于是,本文提出了一种方法来解释推荐文章与原文本体之间的逻辑关系(包括一般化、特殊化和重复),以此降低重复内容的推荐,推荐出符合用户需求的文章。本文第一部分介绍了课题的研究背景、研究目的和意义,对文中涉及到的一些基本概念作了简单介绍。介绍了推荐系统的定义;四种主要方法,即基于内容的推荐、协同过滤推荐、混合型推荐和基于数据挖掘技术的推荐;针对四种方法,分别以一个系统实例解释其工作模式;对推荐系统的评测标准进行了汇总。还介绍了社会化媒体的概念以及与传统媒体相比,其具有的一些特点。最后,总结了本文的主要工作和贡献如下:(1)本研究是在国内外率先结合用户评论来协助信息推荐服务的研究,为基于社会化媒体的信息推荐研究提供一条崭新的研究思路,将信息推荐的研究从Web 1.0的传统静态媒体延伸到了Web 2.0的社会化媒体模式。(2)为了充分利用社会化媒体的用户交互体验特征,我们独创性地设计了一套基于图论的用户评论信息挖掘机制,可以准确地捕捉用户对事件的关注焦点,并将其与原文本体内容相结合,使得推荐的结果既反映了作者的观点,也反映了读者的观点。(3)为了减轻用户的认知负担,我们创新性地提出了一套基于信息熵理论来判断文本逻辑关系的机制。通过该机制,我们可以获得推荐文章与原文章的逻辑关系。此外,该研究成果可以广泛地应用到文本分析的内容逻辑判断中。例如,搜索引擎的结果呈现,基于内容的广告设置等。本文第二部分介绍了该课题的研究基础与背景。首先,针对本文的实验对象,即新闻和博客,对已有的相关研究工作进行了总结。新闻推荐从现有的商业新闻推荐系统和学术研究两个方面进行了介绍。接着,针对文中存在的主题漂移问题,对主题检测与跟踪技术的研究发展进行了汇总。最后,对本文将涉及到的相关理论知识作了简要介绍,如语言模型,PageRank算法、信息熵、T检验等。本文第三部分是核心部分,介绍了自适应信息推荐机制的设计。首先,展示了总体系统框架图,并对其运作流程进行简单介绍。然后,针对框架中的各个模块进行详细阐述。通过用户间关系建模计算用户权威,这里的关系包括了引用关系与回复关系。在整个社区中,根据一个用户对另一个用户的信息进行引用或者回复来构建图模型,然后利用PageRank算法计算每个用户的权威。接着,计算评论权重。这里,我们同样利用了图模型,不同的是,现在的模型是建立在用户评论之间的关系上,这里的关系包括了语义、引用和回复关系。语义关系指的是两条评论之间的内容相似性,引用或回复关系指的是一条评论对另一条评论的信息引用或者回复。模型构建好后,也利用PageRank算法得出评论的权重。一条评论质量的好坏,由其作者的权威和评论本身共同决定,因此,我们将用户权威和评论权重结合起来,计算出每条评论的最终权重。其次,将这些权重信息和原文本体、用户评论一起输入到合成器中,构建主题模型。利用该主题模型从数据库中检索出相关文章。最后,根据信息熵理论来解释相关文章与原文本体之间的逻辑关系,返回符合用户兴趣的文章。本文第四部分是实验设计与分析。介绍了系统开发环境、实验数据的获取以及详细信息。实验数据包括两部分:一个是新闻数据集,一个是博客数据集。由于我们获取的是整个网页数据,所以需要对网页进行解析,抽取出所需部分。还介绍了评测标准的选取,为了评测目的,我们除了选用一些常用的指标,还引入了一个新的评测指标—新颖度,来度量返回文章的主题多样性。接着,设计了一系列实验:1)将本文提出的方法与两种常用方法进行比较,结果表明,在新闻和博客数据集上,我们的方法都明显优于其它两种;2)分析了用户权威和评论对推荐效果的影响,实验结果表明结合用户权威和评论信息有利于提高推荐效果;3)分析了评论间关系对推荐效果的影响,实验结果显示,针对不同的文本形式,有不同的推荐效果。对于新闻数据,结合用户评论间的内容关系会导致推荐效果的降低;然而,对于博客数据,结合用户评论间的内容关系有助于推荐效果的提高;4)对推荐关系解释进行了评估。本文的最后一部分是对本文研究工作的总结和未来研究工作的展望。总结了本文研究的基于社会化媒体的自适应信息推荐系统的整体设计;针对本文的研究工作,指出了其存在的一些不足之处,并给出了以后的发展方向。
其他文献
随着智能手机市场的快速发展智能手机已经变得越来越普及,已经成为人们生活中的不可或缺的一部分,然而其的安全问题却成了重大潜在威胁。智能手机由于其开放接口特点,使其功
目前,虚拟机技术的发展日新月异,应用越来越广泛,它是近年发展起来的有着巨大潜力的计算机应用技术之一。虚拟机技术通过软件来模拟计算机处理器的运行,减少了硬件平台对于软
传统的实体定位技术仅可以提供已知确定物体的位置信息,而物联网中布设的各式传感器网络实时监测着其周边环境,其信息资源丰富、分布广泛,可以利用这些传感器采集的数据,借鉴Web
支持向量机是在统计学习理论基础上发展起来的一种性能优良的新型机器学习方法。它具有坚实的理论基础,巧妙的算法实现和卓越的性能。当支持向量机应用于实际问题时,首先面临
本文首先系统地介绍了国内外关于本体论知识的不同见解和观点,主要涉及本体论的概念、类型、作用、结构、构造原则、开发方法及其应用研究等,尤其指出了其在相关领域中在知识表
随着芯片集成度的不断提高,功能验证已成为集成电路设计流程中时间耗费最大的环节,尽早且快速地发现集成电路设计中的错误,对于缩短验证周期具有重要意义。目前,功能验证方法主要
在信息网络技术不断发展的今天,融合网络已经成为当前最活跃,最具创新性的领域之一。网络的融合使得原有电信服务的种类和内涵都有了新的扩展,具有异构网络智能协作,资源共享
随着计算机软硬件的发展以及应用水平的提高,事件流应用越来越多的出现在网络安全、金融分析、传感器网络等领域中。目前已用于国家网络安全监控应用的DBroker系统作为一种基
随着信息技术的快速发展,人们收集、存储和传输数据的能力不断提高,各类应用领域产生海量的数据,数据挖掘与机器学习成为了数据分析和知识发现的重要工具。频繁模式挖掘是数据挖
在模式识别、机器学习以及数据挖掘中,分类是一个基本而又重要的问题。作为模式分类的研究方法之一的支持向量机技术近来也得到广泛的研究和应用。进行分类时,我们必备的两个