基于Wikipedia的社会网络挖掘

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:shumoljw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘作为一种帮助人们从海量数据中发现潜在有用知识的工具,在很多领域发挥了重要的作用。将数据挖掘的方法应用于社会网络分析是数据挖掘研究的一个新的方向。社会网络分析是一种应用性很强的社会学研究方法,成功地解决了一些社会学问题,得到了广泛的关注。随着信息技术的发展,越来越多的社会关系数据被收集。但是在数据量增大的同时对分析技术提出了新的挑战。如今社会网络的规模早已超出了原有分析手段的处理能力,必须借助计算机进行更为有效的社会网络分析。本文挖掘的社会网络为人物间的相似性关系网络,从数据挖掘的角度来处理社会网络的任务,主要完成了以下三个方面的工作:第一,本文创新性地从维基百科中挖掘真实人物的物相似性。首先简单介绍了社会网络的基本理论和维基百科作为本文数据源的优点,然后在分析维基百科语法的基础上,从中提取真实的人物数据,并对提取的数据正确性进行了验证。第二,根据从维基百科中抽取到的人物信息,将人物实体划分为四个属性和属性上对应的值,把人物实体看作是系统,然后采用系统相似性模型计算人物相似度。在系统相似度计算中,人物的每个属性值采用了不同的计算方法,特别是最重要的经历属性值,采用动态规划算法实现的编辑距离完成相似度计算,既保证了准确性又减少了运算时间复杂度。第三,在完成相似性网络构建后进行了社会网络分析的研究。其中主要包括提出PageRank-Like算法的人物影响力评估和基于深度优先搜索的小团体生成。并且开发了本文的图形化的社会网络分析工具,辅助社会网络分析和应用。
其他文献
随着Internet和移动通信的迅速发展,人们对移动性和信息的需求也在急剧上升。越来越多的人希望在移动的过程中能持续方便地访问互联网,不更改计算机配置就能获取信息和高质量
目前,关系到国家安全和国计民生的重要行业,如金融、电信、能源、民航等的高性能容错计算机基本由国外厂商垄断。自主开发高性能容错计算机在保障我国的信息安全、提高我国产
虹膜识别作为重要的生物特征识别,因其具有唯一性、稳定性、可采集性、非侵犯性等优点而引起了广泛的关注,并且取得了相应的成果。然而在识别速度和准确率方面,很难做到两全
伴随着现代网络技术、通信技术、计算机技术的日趋成熟以及信息化普及程度的不断提高,智能化家电产品、个人计算机以及移动终端设备在家庭中的普遍应用,数字家庭市场已经形成并
随着高清和超高清视频的不断涌现,H.264/AVC已不能满足人们对于更高的编码效率的需求,国际视频编码组织VCEG与MPEG联合成立JCT-VC工作组来制定新一代视频压缩标准HEVC(High Eff
丰度估计一直是高光谱图像中混合像元解混中的一项重要技术。所谓的丰度估计,就是对混合像元中端元所占的比例进行估计。基于实际的物理意义,丰度估计技术需要满足两个约束条
随着科技、微电子产业、计算机技术的不断进步,无线传感器网络得到了快速的发展。密集型的无线传感器网络由于节点间竞争和冲突较大,带来了诸多问题,使得网络的整体性能变得
对于一个领域的特殊应用来说,本体是一个非常有价值的资源,尤其在需要领域知识的情况下。随着科技的快速发展,互联网的广泛普及,信息量极大丰富,知识的增长与更新速度日益加
入侵检测技术作为保护网络安全的重要技术手段,自第一次被提出至今已经有了20多年的时间。由于网络环境的不断变化和黑客技术的不断的提高,网络攻击的手段也越来越复杂,对入
随着传统互联网和移动通信网络的快速发展,网络侧及对应的终端侧数据的种类和数量也得到了快速的发展,如何快速的获取用户所需要的数据成为了亟待解决的问题。针对以上问题,