论文部分内容阅读
Web2.0兴起让越来越多的网络使用者参与到社交网络中,他们热衷于进行资源分享,信息互换,互相之间的交流也越来越多。针对用户产生内容的研究不仅可以帮助商家了解各类不同用户群对商品的喜好趋势,也能改善多种网络服务,对用户体验具有很重要的意义。Blog是社交网络中最主要的用户产生内容,如何准确了解博文的分类是用户兴趣与关注点分析的基础。本文针对blog(博客,又称为博文,网络日志)进行了两方面的研究:针对博文的主题分类研究以及基于博文内容的潜在好友推荐的研究。具体工作如下:1)针对现有的文本分类方法不能很好应用于博文等多主题文档的现状,提出了一个双层的多标签博客主题分类模型。通过使用文本预处理等步骤,模型提取出关键词并结合使用《知网》与《同义词词林》这两个知识库进行语义相似度匹配,并利用Dempster证据理论为博文进行多标签自动分类。文章使用语料库和人人网数据进行实验分析,结果证明了该模型的有效性与可延展性,很好的解决了具有多主题特点的社交网络博文分类的问题,为社交网络用户群体分析提供基础。同时,模型解决了普遍的规则文档的分类问题,为网络信息分析和解读提供了有效工具。2)由于网络用户渐渐已经不满足于现实中的朋友圈形成的社交圈,在社交网络中找到拥有共同兴趣爱好的陌生用户成了众多用户的需求。为此,本文关注了博客多标签主题分类的应用:针对用户的博文内容进行的潜在好友推荐。模型通过对用户博文进行分析,挖掘到用户的兴趣关注分布,再基于用户兴趣随时间变化的问题,引入时间敏感因子,提出了粗化和细化两部分的推荐模型,这不同于现有的基于好友间关联程度的好友推荐系统。本文通过采集人人网实际数据对提出的模型进行了测试,大部分的潜在好友推荐获得了验证,细化部分的推荐顺序也在人工比对中得到认可。