论文部分内容阅读
Web2.0时代的到来改变了原有的信息生产方式,信息来源由经专业编辑审核后的书籍、报纸、电视节目等,转变为可由任意个体或群体创作、恣意传播的内容。UGC(User-Generated Content)的激增在丰富网络信息资源的同时,其质量参差不齐,影响互联网络的健康发展。如何对低质量UGC进行及时有效地评估与甄别、对高质量UGC进行高效地组织和管理,影响着网络信息环境的生存与发展。目前,已有关于UGC质量评价与控制的研究多是从信息内容角度出发,忽略了用户行为因素。本研究从用户信息行为角度出发,通过对用户历史行为与UGC质量关系的挖掘,建立用户信誉评分机制,进而建立基于用户信誉评级的UGC质量预判模型,实现对用户未来产出UGC质量的有效预判。研究共分为六个章节,第一章、第二章主要是对UGC研究背景和相关理论的阐释;第三章、第四章主要是对影响UGC质量的用户信息行为因素的分析和基于用户信誉评级的UGC质量预判模型的构建,通过挖掘与分析用户过往信息活动中所产生的创建行为、转发行为和评论行为等历史信息行为,进而为用户建立起个人信息行为信誉评级模型;第五章、第六章主要是对模型有效性的验证及对未来研究的展望,通过爬虫抓取和用户提交相结合的方法获取六位用户一年间使用微博的行为数据,并以一自然周为一个评测周期,共测得53个时间点下的用户信息行为数据,进而计算出用户信誉得分。同时为降低评价过程的主观性,设计UGC信息质量评估系统,辅助评估用户历史行为信息质量。实验结果表明,该模型不同于以往依赖单一文本分析对UGC质量评估的方法,其结合信息学和行为学方法,具备较高的预测准确度。由于对用户信誉等级的评分尚没有统一的评判标准,致使研究中存在一定程度上的主观性。同时,根据用户过往行为记录叠加起来的用户信誉,只能对用户未来行为向好或向坏的趋势做出一定的预判。因此,未来的研究可在建立统一用户信誉评判标准的基础上,更深层次地挖掘影响UGC质量的用户信息行为,结合语义分析方法和情感分析方法,进一步提高UGC质量预判的准确度。本研究获得国家社会科学基金项目资助,项目编号15BTQ064。