WEB环境下的社会网络挖掘研究

来源 :复旦大学 | 被引量 : 9次 | 上传用户:yjhsw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会网络研究是理解社会现象,预测人类行为,分析社会结构的重要工具。进入Web 2.0时代以来,庞大的Web用户群体、频繁的Web用户互动和海量的Web内容构成了巨大的Web社会网络,使Web环境下的社会网络挖掘成为信息技术领域的新热点问题。在Web环境下进行社会网络挖掘对于理解Web用户的行为模式,改进各种Web应用如推荐、信息检索、网络舆情监测等系统的效果,从而带来更好的用户体验,提高社会生产效率具有重要的作用。Web环境下的社会网络挖掘需要面临以下几个主要的问题。首先,Web中的社会网络是隐含的、模糊的;其次,Web数据中包含着用户创造的海量内容,具有丰富的语义;第三,Web数据中有大量垃圾内容和垃圾链接;第四,Web数据的高度异构和类型繁杂使得Web上的社会网络不能用单一类型的节点和单一类型的关系来描述.研究Web环境下的社会网络挖掘需要重点解决以上这些问题。本文主要研究目标是Web上的文本数据,针对Web隐含的模糊的社会网络问题,Web社会网络的丰富语义问题,Web垃圾内容问题,以及多关系和多节点类型的多模社会网络问题,通过对用户行为的分析,采用基于矩阵的、基于生成模型的和基于马尔可夫链的Web社会网络建模方法,以达到抽取隐含社会网络、理解社会网络语义、识别垃圾内容、评测数据质量和挖掘多模社会网络的目标,并实现专家检索等Web应用。本文的研究对象包括Web论坛和企业、学术领域的数据。采用线程讨论的Web论坛是Web上宝贵的海量知识库,企业、学术领域数据包含大量专业知识,他们是进行数据挖掘和知识发现的重要对象。Web论坛中具有大量的垃圾内容。企业、学术领域数据中具有多种类型的实体和关系。针对这两个数据源,本文的研究工作和创新内容包括:用户行为分析在网络论坛中,用户发帖参与讨论,由此和其他用户进行密切的互动。为了更好的理解网络论坛中用户的社交行为和发文行为,本文通过大量统计分析,发现论坛用户的发帖数量和质量差异很大,揭示论坛社会网络的回复关系、好友关系和相识关系对于论坛用户的兴趣传播和专家知识传播具有明显作用。基于稀疏编码的论坛数据建模线程讨论具有结构和语义同步变化,相互影响的特性。针对现有的研究工作普遍对语义和结构分开建模的问题,提出基于矩阵的SMSS模型,同步的对线程讨论的结构和语义建模。同时,针对线程讨论中语义和结构的稀疏性,即每个帖子只覆盖少数几个主题、以及每个帖子只回复讨论线程中的少数几个帖子等特性,提出引入L1正则项在模型中对结构和语义进行约束。该模型能够抽取出较为精确的社会网络、能够较好的解决Web社会网络的丰富语义和数据质量问题,在垃圾内容识别和专家检索等应用中取得了较好的结果。基于生成模型的论坛数据建模方法针对SMSS模型对于垃圾内容识别和专家检索的解决方案较为直接简单的问题,本文同时提出基于生成模型的论坛数据建模方法。在PLSA的优化目标中加入反映帖子结构关系的正则项,以刻画线程讨论的结构和语义同步变化互相影响的特性:针对LDA模型不能准确刻画垃圾主题的问题,提出引入垃圾主题,以区别于有意义的主题;针对论坛作者发帖质量不同的问题,引入作者的发帖模式约束帖子的生成过程;针对现有专家检索模型对未观测到词的概率估计不准确问题,引入在上述模型中学习到的主题,扩展专家生成查询的过程;针对发帖数量很多但质量很低的噪声作者问题,在专家检索排序中引入作者的发帖模式信息;上述模型成功应用在语义解读、垃圾内容识别和专家检索中。基于马尔科夫链的多模社会网络建模方法企业、学术领域中存在多种类型的实体,如作者、论文、个人主页等,以及多种类型的关系如引用关系、合作关系等。为了能够更好的利用类型信息,调整类型的影响强弱,本文针对多模网络上的专家检索问题,提出在Web数据中抽取多模网络的框架;通过在文本中根据给定查询自动生成转移概率矩阵,基于马尔可夫链对专家进行排序;针对在多模网络上的马尔可夫过程计算到达专家节点的概率问题,提出在多模网络上的马尔可夫随机游走过程,并证明该过程是遍历不可约的;针对在如Enterprise和学术领域的应用场景中专家检索的实际需求,提出在社团中的专家检索问题,并提供解决方案。上述模型在专家检索和社团中的专家检索等应用中取得了较好的结果。
其他文献
以0.025%氨水喂饲大鼠90d,造成实验性萎缩性胃炎。第60d开始给药组ig不同配比的金针菇,山鸡椒混合液治疗30d,结果,模型组胃粘膜固有腺减少,排列紊乱,粘膜轻至中度萎缩、粘膜层及粘上皮层厚度变薄、壁
目的分析针对性护理干预对心胸外科患者术后疼痛的效果。方法取本院心胸外科2011年7月至2012年5月接受手术治疗的术后疼痛患者112例,随机均分为观察组和对照组。比较2组患者
法律保护死者隐私源于侵害死者隐私时,相关生者的名誉权或人格尊严可能会因此受损害。侵害死者隐私案件中,除了死者的近亲属有资格担当原告外,和死者关系密切的人在受到损害
目的探讨腹部手术后疼痛的护理措施。方法回顾分析375例患者的护理经验。结果通过护理干预,患者恢复较好,护理效果满意,融洽了护患关系。结论护理人员应认真学习和掌握疼痛管
为了研究混凝土中氯离子的分布情况,开展了普通混凝土氯盐侵蚀实验,得到了混凝土在氯盐侵蚀环境下的氯离子浓度分布及氯离子扩散系数的分布规律。基于蒙特卡洛理论,用Matlab
复杂拔牙指阻生牙、死髓牙等复杂疑难、可能带来较严重创伤的拔牙,我们于1993年至今使用地塞米松注射液进行局部封闭,术后患者手术反应轻,有效提高了患者生活质量.  ……
期刊
针对某地高氧化率、微细粒不均匀嵌布、易泥化的难选钼矿石,提出粗细粒级分级分选新工艺,即原矿经破磨后将其中粒度小于0.020mm的微细粒级部分利用水力旋流器分离出来,采用高
回顾了浮选柱的发展历史及浮选柱近年来的一些新形式,归纳了浮选柱的发展趋势。并在分析现有浮选柱的优缺点之后,提出了新型环形浮选柱的设计思路并且说明了新型浮选柱的优点
据中国互联网络信息中心(CNNIC)最新报告,截至2013年12月,中国网民规模达到6.18亿,手机网民规模达到5亿,占总网民数的81%,年增长率为19.1%。作为数字媒体发展最快的国家之一,
近年来,由于微电子技术、无线通信技术、材料技术的蓬勃发展,国内外无人机销量呈现爆发式增长。据中国民用航空局统计,2018年我国的无人机保有量已达28万架。在数量迅猛增长