协同标签系统中用户标注专家度建模算法的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:yangweifeng111222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,作为互联网上用户生成内容(User Generated Content)的形式之一,协同标签系统(Collaborative Tagging Systems)也越来越流行。随着标签系统的发展,在该应用背景下的用户标注专家度建模问题也显得格外重要。如果可以提供标注专家度建模算法,那么标签系统可以将那些标签缺失或者含有低质量标签的对象推送给相应的专家用户,让这些专家用户帮忙提供更多更高质量的标签,从而改进其他基于标签数据的应用(如对象资源的检索等)。此外,在标注专家度建模算法的支持下,标签系统可以为用户提供“专家用户检索”的功能,用户可以查询并关注他所关心的特定话题下的专家用户,从而增强用户体验。   标签系统中存在着丰富的结构信息,如用户、对象和标签三种实体间的相互关联以及同一种实体内部的关联关系。这些结构信息中隐含着丰富的专家度信息,可以用于解决标签系统中的专家度建模问题。首先,从每个标注行为来看,如果用户能够独立提供高质量的标签,那么可以认为该用户的标注专家度较高;其次,用户的专家度是互相关联的,例如用户在相似话题上的专家度是相近的。基于这些专家度信息,本文提出一种全新的协同标签系统中的专家度建模方法--Expertise Propagation算法。具体来说,首先利用“观察专家度模型”来提取每个标注行为上可“直接观察”到的用户专家度;其次,提出基于图规则化的“散播专家度模型”,利用用户、对象和标签等同种实体的内部联系以及从标注行为上观察获取的用户专家度,建立专家度图,构建优化模型,对优化模型求解,使得最终获取的用户专家度符合整个标签系统的结构特征。   本文通过在一个实际的标签系统Delicious上的实验证明,本文提出的专家度建模方法同已有的标签系统下的专家度建模方法相比,可以更准确地发现标注专家,而且该专家度建模方法对于垃圾用户具有更强的抵抗性。
其他文献
空间环境科学数据共享平台来源于子午工程项目。该平台充分利用最新的网络技术,建立基于互联网环境的在线数据共享技术系统,及时收集、整理、整合空间环境数据资源,为空间环
在深亚微米工艺下,众核处理器芯片设计遇到了来自以下几方面的挑战:由于晶体管面积不断减小,单位面积上的功耗在不断上升;芯片面积不断增大导致时钟网络非常容易受到在片波动的影
目标检测算法的目标是在没有人工干预的情况下,利用计算机视觉的方法,从摄像机拍摄下来的视频图像序列中快速、准确的检测出前景运动目标,并对目标进行定位和识别。目标检测
本文从搜索引擎搜集网页,去除网页中的噪音和冗余的角度,对收集到的网页集合做网页正文提取,得到与主题相关的文字内容,用于后续的内容分析(分词、主题词识别、摘要等等)和检
搜索引擎从海量数据中按需为用户检索信息,如何让用户快速理解检索结果,并从中筛选出真正符合检索需求的网页?在这个课题中,网页关键信息的发掘与提取发挥着重要作用。本文从
入21世纪,人类社会正在由信息社会迈向知识社会,掌握知识、勇于创新的人才成为企业和组织中最有价值的资源。无论是科学研究机构,还是社会生产部门(如企业、工厂),都需要那些
民主选举作为社会民主与进步的重要表现形式,同时也是公民参政议政的主要途径,大力发展社会主义民主政治、建设社会主义政治文明是新时期中国特色社会主义现代化建设的重要目标
随着工艺尺寸的加深,工艺偏差、串扰效应、电源噪声以及互连线的阻性开路与短路给通路的传播时廷带来了极大的不确定性。这种通路传播时延的不确定性被统称为时延偏差。时延偏
随着数据采集和处理技术的进步,人们对数据的不确定性的认识也逐步深入。在诸如经济、军事、物流、金融、电信等领域的具体应用中,数据的不确定性普遍存在。如何快速、方便、
软件过程对于提升产品质量和生产率意义重大。过程构造是过程管理活动的起点,其重要性不言而喻。然而,它也是一项复杂的、动态的、知识密集型的活动,需要耗费大量的时间和资源。
学位