论文部分内容阅读
博客、微博、微信……我们处在Web 2.0应用下多种类的社会化媒体平台汇集的信息分享时代,图片、视频、文本……我们已被类型繁多更新快速的大数据包围,然而信息如洪水般涌现的当今,我们又苦于难以寻求需要的信息。解决信息过载的方法目前来说主要有两种,一种是用户的主动检索,另一种是被动推荐。对于信息检索来说,虽然这种主动获取信息方式是解决信息过载的方法之一,但是对于需求偏好不尽相同的用户来说,检索结果的大众化并不能满足用户的个性化需求,用户在检索信息时会耗费一些时间浏览和检索与需求内容无关的信息,从而降低了信息的利用率,难以很好解决信息过载问题;对于推荐来说,可以针对用户个人的兴趣偏好为用户推荐个性化信息,为解决信息过载提供另一种思路。此外,在当今广泛流行的社会化媒体平台上拥有海量的动态变化的情境信息和用户兴趣信息,然而这些信息没有被更好的利用和挖掘。集成社会化媒体的信息资源,并融合实时情境信息,从全局观念出发对用户的兴趣信息进行挖掘和推荐,得到适用于各个社会化媒体类型推荐技术的应用框架,这或许是面向知识服务这一终极目标的一个重要发展方向。本文从社会化媒体资源全局利用的角度出发,以面向用户的知识服务为目标,结合社会化媒体平台的特征提出融合情境因素的多维社会化信息推荐模型研究。该模型主要基于社会资本关于结构维、关系维和认知维三个维度的划分,将本研究的多维信息推荐体系分为三个层次:基于社会关系的推荐、基于信任关系推荐和基于语义关系的推荐。依据每个推荐维度中的主要特征运用合适的方法,并融合情境因素,实现每个理论维度中基于用户-资源-情境的多维方法推荐并进行实验分析。最终将每个维度方法运用到不同的数据集中,对结果进行分析,找到方法的适用范围,形成基于各个社会化媒体平台推荐技术的应用框架。本文是面向实际应用的理论和方法研究,全文共9章,除去引言和总结前后两章,其余各章节主要内容如下:第1章:理清概念,梳理研究的理论基础。首先,理清了本文的研究对象---社会化媒体,包括定义、类型与特征,为后续得到的社会化媒体推荐技术的应用框架提供依据;其次,主要针对涉及到的情境、社会资本的概念进行了整理,包括每个概念的分类和应用领域。情境概念的梳理为后续的影响因素奠定基础,社会资本理论为本文的多维信息推荐的维度划分提供理论上的支撑。最后,界定了社会化推荐和社会化信息推荐的概念,加深本文对社会化信息推荐的理解。本章内容为本研究奠定了坚实的理论基础,是研究的思路源泉。第2章:融合情境因素的多维社会化信息推荐模型的总体阐述。首先,根据社会资本的概念和维度,以及社会化媒体的特征,本文认为用户对社会化媒体上信息的需求归根结底是对其上社会资本的需求,因此依据社会资本维度提出了多维社会化信息推荐模型;其次,进一步分析了该模型的多维特征,包括理论上的多维特征与方法上的多维特征;最后总结了该模型用到的方法体系,并具体对每个维度的方法进行了简要的阐述。本章内容是本文研究的总体框架,为后续研究提供逻辑上的梳理。第3章:研究了影响用户兴趣偏好的主要情境因素。首先,根据理论基础章节中对情境的分类,以及实际生活中基本兴趣信息的类型,将研究问题分为四个测量变量,分别为用户情境、环境情境、任务情境和兴趣信息。每个变量下设置若干题项,并利用相应的相关性分析和差异性分析方法逐一探讨各种类型的情境因素与用户兴趣偏好的关系。在具体的方法使用选择中,通过考虑测量变量是否为分类有序变量将变量分为两部分,其中对分类有序变量进行Kendall’s tau-b相关性分析,剩余的变量进行交叉列表的差异性分析,最后对得到结果进行讨论分析。本章内容对今后开展融合情境因素的社会化信息推荐具有重要的理论指导意义。第4章:维度之一的基于社会关系的社会化信息推荐研究。该维度对应社会资本的结构维度。在社会化媒体中除了朋友等熟人之间的交互关系,更多的是以弱关系组成的人际网络,因此将弱关系考虑到推荐中是十分必要的。利用CPM方法将用户进行社区划分,得到具有强关系的用户集与具备弱关系的用户集;其次,由于大多数社会化媒体平台并不具备评分机制,本文利用社会网络和复杂网络的性质计算用户对资源的评分,具体的,综合考虑社会化媒体用户社区划分的结果,均从个体用户对自身资源的评分以及基于网络中心性的大众对资源的评分两个方面计算资源的初始值;最后,运用空间距离的思想将情境融入方法中,并利用欧几里得距离测量(Euclidian Distance Metric)公式将融合情境的推荐公式分解,得到用户相似度与情境相似度的平方和形式,进而借鉴传统的基于用户的协同推荐方法实现资源推荐。实验证明,在社会关系维度中融合情境因素的方法优于传统二维推荐方法。第5章:提出基于信任关系的社会化信息推荐。该维度对应社会资本的关系维度。本文认为用户社会关系之间的信任属于显性信任,而在发布的资源中具有一定相似兴趣的用户之间存在隐性信任,通过两部分组成的信任网络是出于用户社会关系和资源两方面的考虑。首先利用TF-IDF的权重计算方法和余弦相似度计算方法分别得到资源之间和情境之间的相似度,从而构建信任网络和情境网络;其次,通过网络之间的最短路径传递计算直接信任度(两个用户之间没有其他用户)和间接信任度(两个用户之间存在一个或以上用户),并将情境网络中大于阈值(平均值)的情境融入到信任网络中,得到改进后的信任网络;最后,根据设定的最大信任距离找到拟推荐的用户集,并实现基于用户信任度的协同推荐。实验结果表明,在信任关系维度中融合情境因素的推荐方法较原始信任网络的推荐效果更好。第6章:提出基于语义关系维度的社会化信息推荐研究。该维度对应社会资本的认知维度。前两个维度分别利用“关系”、“关系+信息”两个角度实现推荐,本章的推荐更多的是考虑“信息”这一角度。思路方面,首先利用潜在语义分析中的狄利克雷分配(Latent Dirichlet Allocation, LDA)方法对每个用户发布的资源进行主题挖掘,构建以每个用户的兴趣主题为单位的用户兴趣模型,得到用户兴趣的若干主题;另一方面,根据情境因素的特征构建情境语义层次模型,以支持情境之间的语义相似性计算;文本语义计算时,考虑到社会化媒体信息的随意性等特性,选择以社会化媒体中的维基百科为语义计算的外部扩展集,基于实验数据集构建维基百科的应用本体,以支持资源之间的语义计算;运用层次树方法计算资源之间和情境之间的语义相似性,并将情境因素融入到资源语义计算中,最终根据资源的语义相似性得分实现用户信任推荐。实验表明,在语义关系维度中融合情境因素的推荐效果明显好于仅基于资源语义得到的推荐。第7章:基于微博数据集,实现多维社会化信息推荐模型的实证分析并得到该模型的推荐技术应用框架。根据微博平台的特征,将微博数据划分为三种类型数据集:“社交型”、社交+内容分享型”、“内容分享型”,分别将每个维度方法应用到三种数据集中,以找到每个方法的适用范围。结果得到,三种数据类型与社会化媒体的类型一一对应,通过分析得到了多维社会化信息推荐模型的应用框架,即每种维度方法的适用范围。此外,根据数据集的特性,进一步定性分析了方法的拓展性应用,即本文提出的方法同样可以应用于不同用户类型的推荐问题。综上所述,基于社会化媒体的信息推荐是一个复杂且庞大的问题,本文只是结合社会资本维度以及情境因素两个方面实现的推荐,以期能为面向社会化媒体的知识服务提供参考和借鉴。